DE602004004324T2

DE602004004324T2 - System und Verfahren zur Sprachkommunikation und Roboter

Info

Publication number: DE602004004324T2
Application number: DE602004004324T
Authority: DE
Inventors: Kazumi Aoyama; Hideki Shimomura
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2003-07-03
Filing date: 2004-07-01
Publication date: 2007-06-21
Anticipated expiration: 2024-07-02
Also published as: JP2005022065A; CN1591569A; DE602004004324D1; HK1070727A1; KR20050004107A; US8538750B2; US20050043956A1; US8321221B2; CN1312576C; US20120232891A1; EP1494210A1; KR101057705B1; CN101030370B; EP1494210B1; JP4048492B2; CN101030370A; US8209179B2; US20130060566A1

Description

HINTERGRUND DER ERFINDUNG
GEBIET DER ERFINDUNG
Diese Erfindung bezieht sich auf ein Sprachkommunikationssystem und ein Sprachkommunikationsverfahren und eine Robotervorrichtung, und sie wird besonders geeignet zum Beispiel in einem Unterhaltungsroboter eingesetzt.
BESCHREIBUNG DES STANDES DER TECHNIK
Kürzlich sind verschiedene Arten von Unterhaltungsrobotern für allgemeine Anwender hergestellt worden. Einige Unterhaltungsroboter sind mit verschiedenen externen Sensoren, wie zum Beispiel ladungsgekoppelte (CCD-) Kameras und Mikrofone, ausgestattet, um Umgebungsbedingungen basierend auf Ausgaben bzw. Ausgangssignalen der externen Sensoren zu erkennen, um sich selbständig basierend auf den Erkennungsergebnissen zu verhalten.
Ferner sind einige dieser vorgeschlagenen Unterhaltungsroboter mit einer Gesichtserkennungsfunktion, um ein menschliches Gesicht aus einem erfassten Bild zu extrahieren und eine vorgegebene Person zu identifizieren, während das Gesicht verfolgt wird, oder einer Sprachkommunikationsfunktion ausgestattet, um ein Gespräch mit einem Benutzer zu führen, wie es Menschen gewöhnlich tun. (Siehe zum Beispiel die japanische offengelegte Patentanmeldung 2003-062777 (zweiter bis dritter Abschnitt, 1)).
Übrigens muss ein solcher Unterhaltungsroboter stets bestätigen, dass ein Gesprächspartner anwesend ist, während ein Gespräch geführt wird, und feststellen, ob der Roboter nun gerade ein Gespräch mit ihm führt.
An einem dunklen Ort kann der Roboter die Gesichtsfarbe und den Gesichtsumriss des Gesprächspartners nicht deutlich erkennen, was zu unzureichender Erkennung der Gesichtserkennungsfunktion führt. In diesem Fall kann der Roboter feststellen, dass der Partner nicht mehr anwesend ist und das Gespräch beenden, obwohl sich der Partner vor dem Roboter befindet.
Ferner kann in einer Situation, in der ein Fernseher oder Radio während eines Gesprächs eingeschaltet ist, der Roboter fortfahren zu sprechen, selbst wenn der Partner nicht mit dem Roboter spricht, da die Sprachkommunikationsfunktion nicht zwischen dem Fernseher oder Radio und der Stimme des Gesprächspartner unterscheiden kann.
Wenn der Roboter das Vorhandensein eines Gesprächspartners in jeder Umgebung sicher erkennen kann, kann sich der Roboter deshalb natürlich wie ein Mensch verhalten, so dass der Roboter eine wesentlich verbesserte Unterhaltungseigenschaft als Unterhaltungsroboter aufweisen kann. Dies ist sehr erwünscht.
JP-A-2001/129 777 beschreibt einen selbständigen, mobilen Roboter, der mit einem automatischen Anwesenheitserkennungsmittel ausgestattet ist, das einen integrierten HF-Empfänger zur Erkennung der Anwesenheit einer sich bewegenden Person in naher Umgebung zu dem selbständigen, mobilen Roboter, eine CCD-Kamera zum Aufnehmen von Fotos dieser Person, ein Bilderkennungsmittel, das ein Gesichtsmerkmalextraktions- oder ein Mustervergleichsmittel umfasst, und ein integriertes Analysemittel zu Feststellung und Verfolgung der augenblicklichen Position x(1) := [x(t), y(t), z(t)]^T ∊ R³ und Ausrichtung φ(t) := [φ_x(t), φ_y(t), φ_z(t)]^T ∊ R³ des Gesichts der Person und ein Sprachsynthesemittel zur Erzeugung einer Sprachnachricht hinsichtlich der Positions- und Ausrichtungsdaten des Gesichts der Person, wie sie durch den zeitvarianten Positionsvektor x(t) bzw. den zeitvarianten Ausrichtungsvektor φ(t) dargestellt werden, umfasst. Die Erfindung, die in diesem Schriftstück des Stands der Technik offenbart ist, verweist ferner auf ein entsprechendes Verfahren, das vorteilhaft eingesetzt werden kann, um die Genauigkeit der Anwesenheitserkennung zu verbessern und die Zeit, die für die Bilderkennung benötigt wird, zu verringern. Gemäß diesem Verfahren wird die Anwesenheit einer Person, die sich in naher Umgebung zu dem selbständigen, mobilen Roboter befindet, durch Messen der Intensität eines HF-Signals von einem tragbaren Funksender, der von dieser Person getragen wird, und Feststellen der Richtung dieser HF-Quelle ermittelt, was folglich die augenblickliche Position des tragbaren Funksenders ermittelt. Nachdem die Anwesenheit dieser Person festgestellt wurde, macht der Roboter mit Hilfe der CCD-Kamera ein Foto von dieser Person und ermittelt die augenblickliche Position ihres Kopfs und die augenblickliche Richtung des Gesichts auf Grundlage dieses Fotos. Das Sprachsynthesemittel gibt dann eine Sprachnachricht hinsichtlich dieser Positions- und Ausrichtungsdaten, die durch den zeitvarianten Positionsvektor x(t) bzw. den zeitvarianten Ausrichtungsvektor φ(t) dargestellt werden, über einen integrierten Lautsprecher aus.
In JP-A-2002/264 053 wird ein audiovisuelles Spracherkennungssystem für eine bimodale Wahrnehmungsbenutzerschnittstelle eines Tierroboters beschrieben, das aus einem Mikrofon und einer Videokamera besteht, die auf das Gesicht eines Sprechers gerichtet sind. Gemäß der Erfindung, wie sie in diesem Schriftstück des Stands der Technik offenbart ist, umfasst das vorgeschlagene audiovisuelle, automatische Spracherkennungssystem ein Audiomerkmalextraktions- und Audiomerkmalanalysemittel, die für die Ermittlung der Stimmeigenschaften des Sprechers aus einer Audiosequenz, aufgenommen durch das Mikrofon, verwendet werden, sowie ein visuelles Merkmalextraktions- und Merkmalanalysemittel, die zur Ermittlung der augenblicklichen Position und Ausrichtung des Sprechergesichts und zur Feststellung der Identität des Sprechers aus einer Videosequenz, aufgezeichnet durch die Videokamera, angewendet werden. Ein integriertes Aufmerksamkeitssteuermittel dieses audiovisuellen automatischen Spracherkennungssystems wird zur Verfolgung der Sprecheraufmerksamkeit zu dem Roboter basierend auf extrahierten audiovisuellen Merkmalsdaten aus der Audiosequenz bzw. der Videosequenz und zur Steuerung eines audiovisuellen Servomotorsystems verwendet, das zum Drehen des Mikrofons und/oder der Videokamera in die Richtung des Sprechergesichts, abhängig von den extrahierten audiovisuellen Merkmalsdaten, verwendet wird.
Die Ziele der Erfindung wurden durch die Bereitstellung eines Sprachkommunikationssystem mit einer Funktion, ein Gespräch mit einem Gesprächspartner zu führen, erreicht. Dieses System umfasst: ein Spracherkennungsmittel zur Erkennung der Sprache des Gesprächspartners; ein Gesprächssteuermittel zur Steuerung des Gesprächs mit dem Gesprächspartner abhängig von dem Erkennungsergebnis des Spracherkennungsmittels; ein Bilderkennungsmittel zur Erkennung des Gesichts des Gesprächspartners; und ein Verfolgungssteuermittel zur Verfolgung des Vorhandenseins des Gesprächspartners basierend auf einem oder sowohl auf dem Erkennungsergebnis des Bilderkennungsmittels als auch dem Erkennungsergebnis des Spracherkennungsmittels.
Gemäß der vorliegenden Erfindung führt das Gesprächssteuermitteldas Gespräch fort, wenn Gesprächsinhalte des Gesprächspartners, die als Erkennungsergebnis des Spracherkennungsmittels erhalten werden, dieselben sind, wie vorausgesagte Antwortinhalte, selbst wenn das Verfolgungssteuermittel mit der Verfolgung scheitert. Folglich wird mit diesem Sprachkommunikationssystem das Vorhandensein des Gesprächspartners umfassend, basierend auf den Erkennungsergebnissen verschiedener Erkennungsprozesse, festgestellt, indem ein Gespräch mit dem Gesprächspartner geführt wird, während das Vorhandensein des Gesprächspartners verfolgt wird. Deshalb kann das Vorhadensein des Gesprächspartners sicher erkannt werden, ohne durch aktuelle Umgebungen beeinträchtigt zu sein, was dazu führt, ein natürliches Gespräch zu führen wie Menschen es tun. Somit kann ein Sprachkommunikationssystem realisiert werden, das in der Lage ist, die Unterhaltungseigenschaft wesentlich zu verbessern.
Vorteilhafterweise kann das Gesprächssteuermittel ebenfalls eigens zur automatischen Erkennung der Identität des Gesprächspartners durch Vergleichen erkannter Gesprächsinhalte gesprochener Antworten, die von dem Gesprächspartner empfangen wurden, mit Profildaten aus einer Anzahl registrierter Persönlichkeitsprofile von Gesprächspartnern, die in einer Profildatenbank gespeichert sind, und zur Feststellung von Übereinstimmungen dieser erkannten Gesprächsinhalte mit diesen Profildaten gestaltet sein.
Gemäß der Erfindung kann das audiovisuelle Spracherkennungs- und Sprachkommunikationssystem in einer Steuereinheit einer Robotervorrichtung enthalten sein.
Ferner schlägt diese Erfindung ein Sprachkommunikationsverfahren mit einer Funktion vor, ein Gespräch mit einem Gesprächspartner zu führen. Dieses Sprachkommunikationsverfahren umfasst: einen ersten Schritt, das Vorhandensein des Gesprächspartners basierend auf einem oder sowohl auf einem Spracherkennungsergebnis, das durch Erkennung der Sprache des Gesprächspartners erhalten wird, als auch einem Bilderkennungsergebnis, das durch Erkennung des Gesichts des Gesprächspartners erhalten wird, zu verfolgen; und einen zweiten Schritt, das Gespräch mit dem Gesprächspartner, der als Spracherkennungsergebnis in Übereinstimmung mit der Verfolgung festgestellt wurde, fortzusetzen.
In dem zweiten Schritt wird das Gespräch fortgesetzt, wenn die Gesprächsinhalte des Gesprächspartners, die als Spracherkennungsergebnis erhalten werden, dieselben wie vorausgesagte Antwortinhalte sind, selbst wenn die Verfolgung in dem ersten Schritt nicht durchgeführt werden kann.
Folglich wird mit diesem Sprachkommunikationsverfahren das Vorhandensein des Gesprächspartners umfassend, basierend auf den Erkennungsergebnissen verschiedener Erkennungsprozesse, festgestellt, indem ein Gespräch mit dem Gesprächspartner geführt wird, während das Vorhandensein des Gesprächspartners verfolgt wird. Deshalb kann das Vorhandensein des Gesprächspartners sicher erkannt werden, ohne durch aktuelle Umgebungen beeinträchtigt zu sein, was dazu führt, ein natürliches Gespräch zu führen wie Menschen es tun. Somit kann ein Sprachkommunikationssystem realisiert werden, das in der Lage ist, die Unterhaltungseigenschaft wesentlich zu verbessern.
Vorteilhafterweise kann das Verfahren ebenfalls einen Schritt zur automatischen Erkennung der Identität des Gesprächspartners durch Vergleichen erkannter Gesprächsinhalte gesprochener Antworten, die von dem Gesprächspartner empfangen wurden, mit Profildaten aus einer Anzahl registrierter Persönlichkeitsprofile von Gesprächspartnern, die in einer Profildatenbank gespeichert sind, und zur Feststellung von Übereinstimmungen dieser erkannten Gesprächsinhalte mit diesen Profildaten umfassen.
KURZBESCHREIBUNG DER ABBILDUNGEN
In den begleitenden Abbildungen ist:
1 ein Blockdiagramm, das schematisch einen funktionellen Aufbau eines Roboters gemäß dieser Ausführungsform darstellt;
2 ein Blockdiagramm, das einen Aufbau einer Steuereinheit darstellt;
3 ein Blockdiagramm, das eine Softwarestruktur des Roboters darstellt;
4 eine Konzeptansicht, die ein Aufzeichnungsformat der erhaltenen Informationen darlegt;
5 eine Konzeptansicht, die Hauptteile bezüglich einer Gesprächssteuerfunktion und einer Verfolgungsfunktion darstellt;
6 eine Konzeptansicht, die einen Gesprächsherstellungsablauf darlegt;
7 eine Konzeptansicht, die einen Schallrichtungserkennungsablauf darlegt; und
8 ein Flussdiagramm, das den Bestätigungsablauf des Gesprächspartners darlegt.
DETAILLIERTE BESCHREIBUNG DER AUSFÜHRUNGSFORM
Bevorzugte Ausführungsformen dieser Erfindung werden mit Bezug auf die begleitenden Abbildungen beschrieben:
(1) Aufbau des Roboters 1 gemäß dieser Ausführungsform
(1-1) Hardwareaufbau des Roboters 1
1 stellt schematisch einen funktionellen Aufbau des Roboters 1 gemäß dieser Ausführungsform dar. Wie in 1 dargestellt ist, besteht der Roboter 1 aus einer Steuereinheit 2 zur Steuerung des gesamten Betriebs und anderer Datenprozesse, einer Eingabe-/Ausgabegruppe 3, einer Antriebsgruppe 4 und einer Energiequelle 5.
Die Eingabe-/Ausgabegruppe 3 umfasst als ihre Eingabegruppe eine ladungsgekoppelte (CCD) Kamera 10, die den Augen des Roboters 1 entspricht, ein Mikrofon 11, das den Ohren entspricht, Berührungssensoren 13, die zum Beispiel auf Teilen wie dem Kopf und dem Rücken zur Wahrnehmung von Benutzerkontakten angeordnet sind, und andere verschiedene Sensoren für die fünf Sinne. Zusätzlich gibt es als ihre Ausgabegruppe einen Lautsprecher 12, der dem Mund entspricht, und LED-Anzeigen (Augenlichter) 14 zum Ausdrücken von Gefühlen durch eine Blinkkombination und Blinkzeitsteuerung. Die Ausgabegruppe ist in der Lage, außer Maschinenbewegungen mit Beinen, Benutzerrückmeldung von dem Roboter 1 zum Beispiel durch Stimme und Lichtblinken auszudrücken.
Die Antriebsgruppe 4 ist ein Funktionsblock zur Realisierung von Körperbewegungen des Roboters 1 gemäß vorgeschriebener Bewegungsmuster, die durch die Steuereinheit 2 angeordnet werden, und durch Aktionssteuerung zu steuern. Die Antriebsgruppe 4 ist eine Funktionsbaugruppe zur Realisierung des Freiheitsgrads in jedem Gelenk des Roboters 1 und besteht aus mehreren Antriebseinheiten 15₁ bis 15_n , die in den Längsachsen, Querachsen und Hochachsen in den Gelenken angeordnet sind. Jede Antriebseinheit 15₁ bis 15_n besteht aus einem Motor 16₁ bis 16_n , der sich um eine vorgeschriebene Achse dreht, einem Wertgeber 17₁ bis 17_n zur Ermittlung einer Drehstellung des Motors 16₁ bis 16_n und einem Treiber 18₁ bis 18_n zur adaptiven Steuerung der Drehstellung und Drehgeschwindigkeit des Motors 16₁ bis 16_n basierend auf einer Ausgabe des Wertgebers 17₁ bis 17_n .
Abhängig von einer Kombination der Antriebseinheiten kann der Roboter 1 als ein beweglicher Roboter mit Beinen, wie zum Beispiel eine Zweibein-Laufausführung oder eine Vierbein-Laufausführung, aufgebaut sein.
Die Energiequelle 5 ist eine Funktionsbaugruppe zur Speisung des Stroms zu jeder elektrischen Schaltung in dem Roboter 1. Der Roboter 1 gemäß dieser Ausführungsform ist ein selbständiger, fahrender Roboter mit einer Batterie. Die Energiequelle 5 besteht aus einer Ladebatterie 19 und einer Ladungs-/Entladungssteuereinheit 20 zur Steuerung der Ladung und Entladung der Ladebatterie 19.
Die Ladebatterie 19 ist zum Beispiel in einer „Batteriesatz" genannten Kassette enthalten, die mehrere Lithium-Ionen-Akkuzellen enthält.
Ferner ermittelt die Ladungs-/Entladungssteuereinheit 20 den Restfüllstand der Batterie 19 durch Messen einer Klemmenspannung und der Ladungs-/Entladungsmenge der Batterie 19 und der die Batterie 19 umgebenden Temperatur, um die Ladestart- und Ladeendzeit festzulegen. Die Ladungs-/Entladungssteuereinheit 20 benachrichtigt die Steuereinheit 2 über die festgelegte Ladestart-/Ladeendzeit, die einen Auslöser zum Starten und Beenden des Ladevorgangs des Roboters 1 darstellt. Die Steuereinheit 2 entspricht einen „Gehirn" und ist zum Beispiel in dem Kopf oder dem Körper des Roboters 1 angeordnet.
Die Steuereinheit 2 ist derart angeordnet, dass eine zentrale Verarbeitungseinheit (CPU) 21 als eine Hauptsteuerung mit einem Speicher, anderen Schaltungskomponenten und relevanten Geräten mit einem Bus wie in 2 dargestellt verbunden ist. Der Bus 27 ist ein gewöhnlicher Signalübertragungsweg, der einen Datenbus, einen Adressbus und einen Steuerbus enthält. Jedem Gerät an dem Bus 27 ist eine eindeutige Adresse (Speicheradresse oder I/O-Adresse) zugewiesen. Die CPU 21 ist in der Lage, mit einem bestimmten Gerät an dem Bus 27 durch Bestimmen seiner Adresse zu kommunizieren.
Ein Direktzugriffsspeicher (RAM) 22 ist ein beschreibbarer Speicher, der einen nichtflüchtigen Speicher, wie zum Beispiel ein dynamisches RAM (DRAM), umfasst und der verwendet wird, Programmcodes zu laden, die durch die CPU 21 ausgeführt werden, und vorübergehend Arbeitsdaten eines ausgeführten Programms zu speichern. Ein Festwertspeicher (ROM) 23 ist ein ausschließlich lesbarer Speicher zur dauerhaften Speicherung von Programmen und Daten. Die Programmcodes, die in dem ROM 23 gespeichert sind, umfassen ein Selbstdiagnoseprüfprogramm, das beim Einschalten des Roboters 1 ausgeführt wird, und ein Steuerprogramm, das die Funktion des Roboters 1 vorschreibt.
Das Steuerprogramm des Roboters 1 umfasst ein „Sensoreingabe-/Erkennungsverarbeitungsprogramm" zur Verarbeitung von Sensoreingaben, wie zum Beispiel von der CCD-Kamera 10 und dem Mikrofon 11, und um diese als Symbole zu erkennen, ein „Aktionssteuerprogramm" zur Aktionssteuerung des Roboters 1 basierend auf den Sensoreingaben und vorgeschriebenen Aktionssteuermodellen, während der Gedächtnisvorgang gesteuert wird, wie zum Beispiel Kurzzeitgedächtnis und Langzeitgedächtnis und ein „Antriebssteuerprogramm" zur Steuerung des Antriebs der Gelenkmotoren und der Sprachausgabe von dem Lautsprechern 12 gemäß den Aktionssteuermodellen.
Der nichtflüchtige Speicher 24 umfasst Speicherelemente, die elektrisch löschbar und beschreibbar sind, wie ein elektrisch löschbares und programmierbares ROM (EEPROM), und die verwendet werden, Daten zu speichern, die gelegentlich in einer nichtflüchtigen Weise aktualisiert werden. Die gelegentlich zu aktualisierenden Daten umfassen Codeschlüssel, andere Sicherheitsinformationen und Steuerprogramme für Geräte, die nach dem Versand installiert werden.
Eine Schnittstelle 25 ist außer mit der Steuereinheit 2 mit Geräten verbunden, um so Daten zu übermitteln. Die Schnittstelle 25 übermittelt Daten der Kamera 10, dem Mikrofon 11 und dem Lautsprecher 12 der Eingabe-/Ausgabegruppe 3. Ferner gibt die Schnittstelle 25 Daten und Befehle in die Treiber 18₁ bis 18_n der Antriebsgruppe 4 ein und von ihnen aus.
Außerdem kann die Schnittstelle 25 mit Universalschnittstellen für die Computerverbindung zu umgebenden Geräte ausgestattet sein, wie zum Beispiel eine serielle Schnittstelle, zum Beispiel eine empfohlene Standard (RS)-232C, eine parallele Schnittstelle, wie zum Beispiel eine „Institute of Electrical and Electronics Engineers" (IEEE) 1284, eine „Universal Serial Bus"-(USB)-Schnittstelle, eine i-Link-(IEEE 1394)-Schnittstelle, eine „Small Computer System Interface"-(SCSI)-Schnittstelle und eine Speicherkartenschnittelle (Steckkartenplatz) für die Aufnahme einer PC-Karte oder eines Speicherstifts, um vor Ort verbundenen externen Geräten Programme und Daten zu übermitteln.
Zusätzlich kann als eine andere Schnittstelle 25 eine Infrarot-Kommunikations-(IrDA)-Schnittstelle angeordnet sein, um so externen Geräten Daten über Funk zu übermitteln. Ferner umfasst die Steuereinheit 2 eine Funkkommunikationsschnittstelle 26 und eine Netzwerkschnittstellenkarte (NIC) 28, um so Kurzstreckenfunkdatenkommunikation, wie zum Beispiel Bluetooth, und Datenkommunikation mit verschiedenen externen Hostrechnern über ein Funknetzwerk, wie zum Beispiel IEEE 802.11b, oder ein Weitverkehrsnetz, wie zum Beispiel das Internet, durchzuführen.
Mit solcher Datenkommunikation zwischen dem Roboter 1 und einem Hostrechner kann eine komplizierte Ablaufsteuerung des Roboters 1 berechnet werden und eine Fernsteuerung kann mit entfernten Rechnerressourcen durchgeführt werden.
(1-2) Softwareaufbau des Roboters 1
3 stellt schematisch die Funktionsstruktur des Aktionssteuersystems 30 des Roboters 1 dar, das aus einer Steuerprogrammgruppe besteht, die in dem ROM 23 gespeichert ist. Der Roboter 1 steuert Aktionen gemäß dem Erkennungsergebnis der externen Stimulation und der Änderung des internen Zustands. Ferner ist der Roboter 1 mit einer Langzeitspeicherfunktion ausgestattet, um einen internen Zustand mit einem externen Zustand zu verknüpfen und zu speichern, was zu Steueraktionen gemäß dem Erkennungsergebnis der externen Stimulation und der Änderung des internen Zustands führt.
Dieses Aktionssteuersystem 30 ist mit einer objektorientierten Programmierung eingerichtet. In diesem Fall wird jede Software auf der Grundlage von „Objekt" genannten Modulen betrachtet, in denen Daten und ein Datenprozess miteinander verknüpft sind. Zusätzlich kann jedes Objekt zur Datenkommunikation verwendet werden und mit einem Interobjektkommunikationsverfahren aufgerufen wird, das Nachrichtenübermittlung und einen gemeinsamen Speicher verwendet.
Das Aktionssteuersystem 30 ist mit einer visuellen Erkennungsfunktionseinheit 31 ausgestattet, einer Spracherkennungsfunktionseinheit 32 und einer Kontakterkennungsfunktionseinheit 33 zur Erkennung äußerer Umgebungen basierend auf Sensorausgaben der CCD-Kamera 10, dem Mikrofon 11 und dem Berührungssensor 13 der Eingabe-/Ausgabegruppe 3.
Die visuelle Erkennungsfunktionseinheit 31 führt einen Bilderkennungsprozess, wie zum Beispiel Gesichtserkennung und Farberkennung und Merkmalsextraktion basierend auf einem Videosignal, das Sensorausgaben der CCD-Kamera 10 umfasst, durch. Die visuelle Erkennungsfunktionseinheit 31 gibt Informationen aus, die eine zu einer Person eindeutige Gesichtsidentifikation (ID) und die Position und Größe einer Gesichtsregion, die Gesichtserkennungsergebnisse darstellen, umfassen und Informationen, die die Position, Größe und Merkmalsmenge einer Farbregion, die Farberkennungsergebnisse sind, umfassen.
Die Spracherkennungsfunktionseinheit 32 führt verschiedene Erkennungsprozesse betreffend Schall, wie zum Beispiel Spracherkennung und Sprechererkennung, basierend auf einem Audiosignal, das Sensorausgaben des Mikrofons 11 umfasst, aus. Die Spracherkennungsfunktionseinheit 32 gibt Zeichenketteninformationen erkannter Wörter aus, was ein Spracherkennungsergebnis darstellt, und eine zu dem Sprecher eindeutige Sprecher-ID-Information, die ein Sprechererkennungsergebnis basierend auf den akustischen Merkmalen darstellt.
Die Kontakterkennungsfunktionseinheit 33 erkennt externe Stimulation, wie zum Beispiel „Streicheln" oder „Schlagen", basierend auf einem Druckerkennungssignal, das Sensorausgaben des Berührungssensors 13 umfasst und gibt das Erkennungsergebnis aus.
Eine Verwaltungseinheit 34 für den internen Zustand regelt vielfache Gefühlsregungen einschließlich Instinkt und Empfindungen in einer Form numerischer Modelle und regelt den internen Zustand, wie zum Beispiel Instinkt und Empfindung des Roboters 1 basierend auf externer Stimulation, die durch die visuelle Erkennungsfunktionseinheit 31, die Spracherkennungsfunktionseinheit 32 und die Kontakterkennungsfunktionseinheit 33 erkannt wird.
Auf der anderen Seite ist das Aktionssteuersystem 30 mit einer Kurzzeitspeichereinheit 35 für Kurzzeitgedächtnis ausgestattet, das mit der Zeit verloren geht und einer Langzeitspeichereinheit 36 für ein relatives Informationslangzeitgedächtnis, um Aktionen gemäß den Erkennungsergebnissen der externen Stimulation und der Änderung des internen Zustands zu steuern. Die Einteilung der Gedächtnismechanismen, das heißt Kurzzeitgedächtnis und Langzeitgedächtnis, ist auf der Grundlage der Nervenpsychologie festgelegt.
Die Kurzzeitspeichereinheit 35 ist ein Funktionsmodul zur Speicherung von Zielen und Ereignissen in einer kurzen Zeit, die durch die visuelle Erkennungsfunktionseinheit 31, die Spracherkennungsfunktionseinheit 32 und die Kontakterkennungsfunktionseinheit 33 erkannt wurden. Zum Beispiel werden von der CCD-Kamera 10 eingegeben Bilder für eine kurze Zeit von ungefähr 10 Sekunden gespeichert.
Die Langzeitspeichereinheit 36 wird für die Speicherung von Langzeitinformationen, wie zum Beispiel Objektnamen, die durch Lernen erhalten wurden, verwendet, und das RAM 22 und der nichtflüchtige Speicher 24 der Steuereinheit 2 (2) werden zu diesem Zweck verwendet.
Ferner werden Aktionen des Roboters 1, die durch das Aktionssteuersystem 30 erzeugt werden, in „Reflexaktion", die durch eine Reflexaktionseinheit 39 realisiert ist, „zustandsabhängige Aktion", die durch eine zustandsabhängige Aktionshierarchie 38 realisiert ist und „überdachte Aktion", die durch eine überdachte Aktionshierarchie 37 realisiert ist, eingeordnet.
Die Reflexaktionseinheit 39 ist ein Funktionsmodul zur Realisierung von Reflexkörperbewegungen als Antwort auf externe Stimulation, die durch die visuelle Erkennungsfunktionseinheit 31, die Spracherkennungsfunktionseinheit 32 und die Kontakterkennungsfunktionseinheit 33 erkannt wurde.
Grundlegend ist eine Reflexaktion eine Aktion, die unmittelbar eine Ausgabeaktion durch direkten Empfang von Erkennungsergebnissen externer Informationen festlegt, die von den Sensoren eingegeben werden. Zum Beispiel ist es erwünscht, dass die Verfolgung eines menschlichen Gesichts und das Nicken als Reflexaktionen bereitgestellt sind.
Die zustandsabhängige Aktionshierarchie 38 steuert Aktionen, die für den augenblicklichen Zustand des Roboters 1 geeignet sind, basierend auf den gespeicherten Inhalten der Kurzzeitspeichereinheit 35 und der Langzeitspeichereinheit 36 und dem internen Zustand, der durch die Verwaltungseinheit 34 des internen Zustands geregelt wird.
Die zustandsabhängige Aktionshierarchie 38 bereitet eine Zustandsmaschine für jede Aktion vor und klassifiziert Erkennungsergebnisse der externen Informationen, die von den Sensoren eingegeben werden, abhängig von vorherigen Aktionen und Zuständen und drückt eine Aktion mit dem Körper aus. Zusätzlich realisiert die zustandsabhängige Aktionshierarchie 38 eine Aktion (Homöostase-Aktion), den internen Zustand innerhalb eines bestimmten Bereichs zu halten. In einem Fall, in dem sich der interne Zustand jenseits eines bestimmten Bereichs befindet, aktiviert die Hierarchie 38 eine Aktion, um den internen Zustand innerhalb des Bereichs zurückzuführen, so dass die Aktion leicht auszudrücken ist (tatsächlich wird eine Aktion durch Berücksichtigung sowohl des internen Zustands als auch der externen Umgebungen ausgewählt). Zustandsabhängige Aktionen benötigen eine lange Antwortzeit verglichen mit Reflexaktionen.
Die überdachte Aktionshierarchie 37 bildet einen relativ langzeitigen Aktionsplan des Roboters 1 basierend auf den gespeicherten Inhalten der Kurzzeitspeichereinheit 35 und der Langzeitspeichereinheit 36.
Eine überdachte Aktion ist eine Aktion, die durch eine Annahme und Erstellen eines Plans zur Realisierung der Annahme basierend auf einem gegebenen Zustand oder einem Befehl von einem Menschen gebildet wird. Zum Beispiel ist die Wegsuche von einer Roboterposition zu einer Zielposition eine überdachte Aktion. Solch eine Annahme und ein Plan können eine Verarbeitungszeit und arithmetische Last (das heißt, es benötigt eine Verarbeitungszeit) beanspruchen, verglichen mit einer Antwortzeit des Roboters 1, um eine Interaktion aufrechtzuerhalten. Deshalb werden, während Reflexaktionen und zustandsabhängige Aktionen in Echtzeit ergriffen werden, solche Annahmen und Pläne für eine überdachte Aktion gebildet.
Die überdachte Aktionshierarchie 37, die zustandsabhängige Aktionshierarchie 38 und die Reflexaktionseinheit 39 werden als ein Anwendungsprogramm der oberen Schicht unabhängig von dem Hardwareaufbau des Roboters 1 beschrieben. Auf der anderen Seite gibt eine hardwareabhängige Hierarchiesteuereinheit 40 Töne über den Lautsprecher 12 der Eingabe-/Ausgabegruppe 3 aus, lasst die LED 14 in einem vorgeschriebenen Muster blinken und treibt die relevanten Antriebseinheiten 15₁ bis 15_n in der Antriebsgruppe 4 gemäß Befehlen von den Anwendungen der oberen Schicht an.
(1-3) Aufbau der Verwaltungseinheit 34 für den internen Zustand
Aus den strukturellen Elementen des Aktionssteuersystems 30 wird der Aufbau der Verwaltungseinheit 34 des internen Zustands, die unmittelbar in Bezug zu der Gesprächssteuerfunktion steht, die später beschrieben wird, jetzt beschrieben.
Die Verwaltungseinheit 34 für den internen Zustand regelt die Instinkte und Empfindungen, die in den numerischen Modellen wie oben beschrieben gebildet werden und ändert die Instinkte und Empfindungen gemäß der externen Stimulation, die durch die visuelle Erkennungsfunktionseinheit 31, die Spracherkennungsfunktionseinheit 32 und die Kontakterkennungsfunktionseinheit 33 erkannt wird.
In diesem Fall gibt es als instinktive Elemente, die die Instinkte ausmachen, neun instinktive Elemente: Erschöpfung, Körpertemperatur, Schmerz, Hunger, Durst, Zuneigung, Neugier, Ausscheidung und Sex. Als emotionale Elemente, die die Empfindungen ausmachen, gibt es 18 emotionale Elemente: Fröhlichkeit, Traurigkeit, Wut, Überraschung, Ekel, Angst, Enttäuschung, Langeweile, Schläfrigkeit, Geselligkeit, Anspannung, Entspannung, Aufmerksamkeit, Schuld, Groll, Ergebenheit, Unterwerfung und Eifersucht.
Die Verwaltungseinheit 34 des internen Zustands hält diese instinktiven und emotionalen Elemente als Parameter, die die Stärke der Elemente anzeigen und aktualisiert die Parameterwerte der Elemente periodisch basierend auf den Erkennungsergebnissen der visuellen Erkennungsfunktionseinheit 31, der Spracherkennungsfunktionseinheit 32 und der Kontakterkennungsfunktionseinheit 33 und der verstrichenen Zeit, was zur Änderung des Instinkts und der Empfindungen des Roboters 1 führt.
Insbesondere berechnet die Verwaltungseinheit 34 für den internen Zustand hinsichtlich jedes instinktiven Elements unter Verwendung der Änderungsmenge ΔI[k] des instinktiven Elements, die mit einer vorgeschriebenen arithmetischen Operation basierend auf den Erkennungsergebnissen der visuellen Erkennungsfunktionseinheit 31, der Spracherkennungsfunktionseinheit 32 und der Kontakterkennungsfunktionseinheit 33 und der verstrichenen Zeit berechnet wird, dem aktuellen Parameterwert I[k] des instinktiven Elements und einem Koeffizienten k_i, der die Empfindlichkeit des instinktiven Elements darstellt, einen Parameterwert I[k + 1] des instinktiven Elements in dem nächsten Zyklus mit dem folgenden Ausdruck (1) in vorgeschriebenen Zeitabständen. I[k + 1] = I[k] + ki × ΔI[k] (1)
Dieses Berechnungsergebnis wird gegen den aktuellen Parameterwert I[k] des instinktiven Elements ausgetauscht, um den Parameterwert des instinktiven Elements zu aktualisieren.
Zusätzlich berechnet die Verwaltungseinheit 34 für den internen Zustand hinsichtlich jedes emotionalen Elements unter Verwendung der Änderungsmenge ΔE[t] des emotionalen Elements, die mit einer vorgeschriebenen arithmetischen Operation basierend auf den Erkennungsergebnissen der visuellen Erkennungsfunktionseinheit 31, der Spracherkennungsfunktionseinheit 32 und der Kontakterkennungsfunktionseinheit 33, der Roboteraktion dieser Zeit und der verstrichenen Zeit nach der letzten Aktualisierung berechnet wird, dem aktuellen Parameterwert E[t] des emotionalen Elements und einem Koeffizienten k_e, der die Empfindlichkeit des emotionalen Elements darstellt, den Parameterwert E[t + 1] des emotionalen Elements in dem nächsten Zyklus mit dem folgenden Ausdruck (2). E[t + 1] = E[t] + ke × ΔE[t] (2)
Der berechnete Wert wird gegen den aktuellen Parameterwert des emotionalen Elements ausgetauscht, was zur Aktualisierung des Parameterwerts des emotionalen Elements führt.
Man beachte, dass eine Auswirkungsart der Erkennungsergebnisse der visuellen Erkennungsfunktionseinheit 31, der Spracherkennungsfunktionseinheit 32 und der Kontakterkennungsfunktionseinheit 33 auf jedes der instinktiven und emotionalen Elemente vorher festgelegt ist. Zum Beispiel hat das Erkennungsergebnis „Streicheln", das durch die Kontakterkennungsfunktionseinheit 33 erhalten wird, einen großen Einfluss auf die Änderungsmenge ΔI[k] des Parameterwerts eines instinktiven Elements „Zuneigung" und die Änderungsmenge ΔE[t] des Parameterwerts eines emotionalen Elements „Fröhlichkeit".
(2) Gesprächssteuerfunktion durch Verfolgung in Roboter 1
Dieser Roboter 1 ist mit einer Gesprächssteuerfunktion, um ein Gespräch mit einem Benutzer zu führen, und einer Verfolgungsfunktion, um das Vorhandensein des Benutzers, der ein Gesprächspartner ist, zu verfolgen, ausgestattet, um so sicher das Vorhandensein des Gesprächspartners zu erkennen, ohne durch aktuelle Umgebungen beeinflusst zu sein.
(2-1) Gesprächssteuerfunktion des Roboters 1
Zuerst wird die Gesprächssteuerfunktion, die in dem Roboter 1 eingebaut ist, beschrieben.
Der Roboter 1 ist mit einer Gesprächssteuerfunktion ausgestattet, um Informationen (hierin nachstehend als Elementwerte bezeichnet) über einige vorgeschriebene Elemente, wie zum Beispiel Name, Geburtstag und Lieblingssache eines Benutzers und andere Objekte (hierin nachstehend insgesamt als Benutzer bezeichnet) durch Gespräche mit dem Benutzer zu erhalten, diese in einem vorgeschriebenen Format, wie zum Beispiel in 4 dargestellt, zu speichern und die Elementwerte, die gespeichert werden, zu verwenden, um ein Gespräch mit dem Benutzer zu führen.
In 4 sind Elementwerte („Yukiko", „Mensch", „0", „1", „02.05.73", „Tee", „Kazumi"), die verschiedenen vorgeschriebenen Elementen entsprechen („Name", „Art", „Gesichts-ID", „Sprecher-ID", „Geburtstag", „Lieblingssache" und „Freund") gespeichert. Der erste numerische Wert in jeder Zeile gibt eine ID (Objekt-ID) eines Objekts an, die zur Zeit der ersten Registrierung des Objekts zugewiesen wird.
4 stellt einen Zustand dar, nachdem alle Elementwerte der Objekte bereits erhalten wurden. Von den Elementen werden „Name", „Sprecher-ID", „Geburtstag", „Lieblingssache" und „Freund" durch die verschiedenen Spracherkennungsvorgänge der Spracherkennungsfunktionseinheit 32 durch Gespräche mit Benutzern erhalten und gespeichert. „Gesichts-ID" und „Art" werden durch verschiedene Bilderkennungsvorgänge der visuellen Erkennungsfunktionseinheit 31 während des Gesprächs mit Benutzern erhalten und gespeichert.
Zusätzlich stellen numerische Werte, die auf der rechten Seite der Elementwerte in 4 geschrieben stehen, Eindrucksstufen der Elementwerte dar. Diese Eindruckswerte sind Indices, die verwendet werden um festzustellen, ob der Roboter 1 einen Elementwert als Thema für ein späteres Gespräch verwenden kann. Zum Beispiel gilt in diesem Beispiel der 4, je höher diese Eindrucksstufe ist, umso besser der Eindruck (dieser Elementwert sollte als ein Thema für ein nächstes Gespräch verwendet werden). Im Gegenteil dazu gilt, je niedriger dieser Eindruckswert, umso schlechter der Eindruck (dieser Elementwert sollte nicht verwendet werden).
In dieser Ausführungsform wird eine Eindrucksstufe zu einem Elementwert vorgegeben, basierend auf einer Differenz zwischen dem Parameterwert der „Zuneigung" der Verwaltungseinheit 34 des internen Zustands gerade bevor der Elementwert erhalten wird und dem Parameterwert der „Zuneigung" gerade nachdem der Elementwert erhalten wird.
Die Gesprächssteuerfunktion wird hauptsächlich durch die Vorgänge der zustandsabhängigen Aktionshierarchie 38 in dem Aktionssteuersystem 30, das oben mit Bezug auf 3 beschrieben ist, durchgeführt. Und diese Gesprächssteuerfunktion wird durch eine Gesprächssteuereinheit 38A der zustandsabhängigen Aktionshierarchie 38 wie in 8 dargestellt durchgeführt. Die Verarbeitungsinhalte der Gesprächssteuereinheit 38A sind funktionell in eine Gedächtniserfassungs-Gesprächserzeugungseinheit 50 zur Gesprächserzeugung (hierin nachstehend als Erfassungsgespräch bezeichnet), um einen Wert jedes Elements zu einem Benutzer zu erfassen, eine Gedächtnisgebrauchs-Gesprächserzeugungseinheit 51 zur Gesprächserzeugung (hierin nachstehend als Gebrauchsgespräch bezeichnet) durch Verwenden der erfassten Werte jedes Elements eines Benutzers und eine Zustandsbestimmungseinheit 52 zur Steuerung dieser Gedächtniserfassungs- Gesprächserzeugungseinheit 50 und Gedächtnisgebrauchs-Gesprächserzeugungseinheit 51 eingeordnet, wie in 5 dargestellt ist.
Wenn in diesem Fall die Zustandsbestimmungseinheit 52 das Vorhandensein eines Benutzers, der ein Gesprächspartner sein kann, basierend auf dem Erkennungsergebnis der visuellen Erkennungsfunktionseinheit 31 und dem Erkennungsergebnis der Spracherkennungsfunktionseinheit 32, das über die Kurzzeitspeichereinheit 35 (3) erhalten wird, erkennt, sendet diese Einheit 52 die Gesichts-ID und die Sprecher-ID des Benutzers, die als Erkennungsergebnisse der visuellen Erkennungsfunktionseinheit 31 und der Spracherkennungsfunktionseinheit 32 erhalten werden, an die Gedächtniserfassungs-Gesprächserzeugungseinheit 50 und die Gedächtnisgebrauchs-Gesprächserzeugungseinheit 51 und fragt die Gedächtniserfassungs-Gesprächserzeugungseinheit 50 und die Gedächtnisgebrauchs-Gesprächserzeugungseinheit 51, ob sie in der Lage sind, ein Erfassungsgespräch oder Gebrauchsgespräch zu erstellen (Schritt SP1A, Schritt SP1B).
Zu dieser Zeit führen die Gedächtniserfassungs-Gesprächserzeugungseinheit 50 und die Gedächtnisgebrauchs-Gesprächserzeugungseinheit 51 ein Gesprächserzeugungsverfahren zur Erzeugung eines Themas und einen Gebrauch des Themas, der anzeigt, wie das erzeugte Thema zu verwenden ist, um ein Erfassungsgespräch oder ein Gebrauchsgespräch zu erzeugen, mit einer vorgeschriebenen Themaerzeugungsregel und einer Themagebrauchsbestimmungsregel durch (Schritt SP2A, Schritt SP2B).
In diesem Fall der Ausführungsform gibt es sieben Regeln als Themaerzeugungsregeln.
Die erste Themaerzeugungsregel ist eine Regel, ein unterschiedliches Element bezüglich desselben Objekts wie ein Thema, das in dem vorhergehenden Gespräch verwendet wurde, als ein nächstes Thema auszuwählen. In dieser Ausführungsform wird ein Element einer höheren Eindrucksstufe der Reihe nach ausgewählt. Zum Beispiel wird in dem Fall, in dem ein Thema in dem früheren Gespräch „Geburtstag" der „Objekt-ID 1" in 4 ist, ein Element der höchsten Eindrucksstufe aus den anderen Elementen derselben „Objekt-ID 1" als ein Thema für das nächste Gespräch ausgewählt.
Die zweite Themaerzeugungsregel ist eine Regel, ein verwandtes Element desselben Objekts wie ein Thema, das in dem vorhergehenden Gespräch verwendet wurde, als ein nächstes Thema auszuwählen. Zum Beispiel wird in einem Fall, in dem ein Thema in dem vorhergehenden Gespräch „Lieblingssache" der „Objekt-ID 1" in 4 ist, „Abneigung" der „Objekt-ID 1" als ein Thema für das nächste Gespräch ausgewählt. Die dritte Themaerzeugungsregel ist eine Regel, ein Element eines Objekts, das basierend auf dem Elementwert eines Themas, das in dem vorhergehenden Gespräch verwendet wurde, angegeben werden kann, als ein nächstes Thema auszuwählen. In dieser Ausführungsform wird ein Objekt mit einer höheren Eindrucksstufe der Reihe nach als ein nächstes Objekt ausgewählt. Zum Beispiel wird in einem Fall, in dem ein Thema in dem vorhergehenden Gespräch „Freund" der „Objekt-ID 1" in 4 ist, irgendein Element der „Objekt-ID 2", das „Freund" ist, als ein Thema für das nächste Gespräch ausgewählt.
Die vierte Themaerzeugungsregel ist eine Regel, dasselbe Element desselben Objekts wie ein Thema, das in einem vorhergehenden Gespräch verwendet wurde, als ein nächstes Thema auszuwählen. Zum Beispiel wird in einem Fall, in dem „Geburtstag" der „Objekt-ID 1" ein Thema in dem vorhergehenden Gespräch in 4 ist, derselbe „Geburtstag" derselben „Objekt-ID 1" als ein Thema für das nächste Gespräch ausgewählt.
Die fünfte Themaerzeugungsregel ist eine Regel, dasselbe Element eines anderen Objekts, das denselben Elementwert aufweist, wie ein Thema, das in dem vorhergehenden Gespräch verwendet wurde, auszuwählen. Zum Beispiel wird in einem Fall, in dem „Lieblingssache" der „Objekt-ID 1" ein Thema in dem vorhergehenden Gespräch in 4 ist, die „Lieblingssache" der „Objekt-ID 3", das denselben Wert der „Lieblingssache" „Tee" aufweist, als ein Thema für das nächste Gespräch ausgewählt.
Die sechste Themaerzeugungsregel ist eine Regel, ein Element eines anderen Objekts, das einen Elementwert aufweist, der mit dem Elementwert eines Themas, das in dem vorhergehenden Gespräch verwendet wurde, verwandt ist, als ein nächstes Thema auszuwählen. Zum Beispiel wird in einem Fall, in dem ein Thema in dem vorhergehenden Gespräch „Lieblingssache" der „Objekt-ID 2" in 4 ist, die „Objekt-ID 6", dessen „Lieblingssache" „Pferderennen" ist, basierend auf der „Lieblingssache" „Pferd" ausgewählt und diese „Lieblingssache" der „Objekt-ID 6" wird als ein Thema für das nächste Gespräch ausgewählt.
Die siebte Themaerzeugungsregel ist eine Regel, dasselbe Element eines anderen Objekts von einem Objekt eines Themas, das in dem vorhergehenden Gespräch verwendet wurde, auszuwählen. Zum Beispiel wird in einem Fall, in dem das Thema in dem vorhergehenden Gespräch „Lieblingssache" der „Objekt-ID 1" in 4 ist, die „Lieblingssache" der „Objekt-ID 2" als ein Thema für das nächste Gespräch ausgewählt.
Es ist anzumerken, dass die erste bis dritte Themaerzeugungsregel der ersten bis siebten Themaerzeugungsregel sowohl für die Erzeugung des Erfassungsgesprächs als auch für die Erzeugung des Gebrauchsgesprächs verwendet werden kann. Die vierte bis siebte Themaerzeugungsregel kann jedoch nicht für die Erzeugung des Erfassungsgesprächs verwendet werden, sie sind jedoch wirkungsvoll für die Erzeugung des Erfassungsgesprächs.
Deshalb wählt die Gedächtniserfassungs-Gesprächserzeugungseinheit 50 zufällig eine aus dieser ersten bis dritten Themaerzeugungsregel aus und die Gedächtnisgebrauchs-Gesprächserzeugungseinheit 51 wählt zufällig eine aus der ersten bis siebten Themaerzeugungsregel aus. Mit einer ausgewählten Themaerzeugungsregel wird in einem Fall, in dem ein Thema eines vorhergehenden Gesprächs zum Beispiel „Lieblingssache der Objekt-ID 1" ist, „Freund der Objekt-ID 1", „Abneigung der Objekt-ID 1", „Geburtstag der Objekt-ID 2", „Geburtstag der Objekt-ID 1", „Lieblingssache der Objekt-ID 3" oder „Lieblingssache der Objekt-ID 6" als ein Thema für das nächste Gespräch ausgewählt.
Auf der anderen Seite gibt es in dieser Ausführungsform drei Regeln als Themagebrauchsbestimmungsregeln.
Die erste Themagebrauchsbestimmungsregel ist eine Regel, ein Gespräch durch Verwendung eines entsprechenden Elementwerts, der in der Langzeitspeichereinheit 36 gespeichert ist, so wie er ist zu erzeugen. Zum Beispiel wird in einem Fall, in dem „Lieblingssache der Objekt-ID 1" als ein Thema bestimmt ist, ein solches Gespräch wie „Yukikos Lieblingssache ist Tee, nicht wahr?" oder „Welches ist deine Lieblingssache?" erzeugt.
Die zweite Themagebrauchsbestimmungsregel ist eine Regel, in einer Datenbank basierend auf einem entsprechenden Elementwert, der in der Langzeitspeichereinheit 36 gespeichert ist, nach einer verwandten Sache zu suchen, und ein Gespräch unter Verwendung der Sache zu erzeugen. Zum Beispiel wird in einem Fall, in dem „Geburtstag der Objekt-ID 1" als ein Thema bestimmt ist, in einer Geburtstagsdatenbank mit „02.05.73", das der Elementwert von „Geburtstag" ist, als Schlüsselwort gesucht und durch Verwendung einer erhaltenen Sache „Verkehrsmitteilung" wird ein solches Gespräch wie „Weißt du, der 2. Mai ist ein Tag der Verkehrsmitteilung." erzeugt.
Die dritte Themagebrauchsbestimmungsregel ist eine Regel, in einer Datenbank basierend auf einem verwandten Elementwert, der durch Berechnung oder Annahme von einem entsprechenden Elementwert, der in der Langzeitspeichereinheit 36 gespeichert ist, nach einer verwandten Sache zu suchen und ein Gespräch unter Verwendung dieser Sache zu erzeugen. Zum Beispiel wird in einem Fall, in dem „Geburtstag der Objekt-ID 1" als ein Thema bestimmt ist, in einer Astrologiedatenbank mit „Stier", erhalten durch „02.05.73", das ein Elementwert von „Geburtstag" ist, als Schlüsselwort gesucht und durch Verwendung der erhaltenen Sache „geduldig" wird ein solches Gespräch wie „Weißt du, Menschen vom Sternzeichen Stier sind ziemlich geduldig." erzeugt.
Von der ersten bis dritten Themagebrauchsbestimmungsregel kann die erste Themagebrauchsbestimmungsregel sowohl zur Erzeugung des Erfassungsgesprächs als auch zur Erzeugung des Gebrauchsgesprächs verwendet werden. Die zweite und dritte Themagebrauchsbestimmungsregel können nicht für die Erzeugung des Erfassungsgesprächs verwendet werden, sind jedoch wirksam für die Erzeugung des Gebrauchsgesprächs.
Deshalb wählt die Gedächtniserfassungs-Gesprächserzeugungseinheit 50 die erste Themagebrauchsbestimmungsregel aus und die Gedächtnisgebrauchs-Gesprächserzeugungseinheit 51 wählt zufällig eine der ersten bis dritten Themagebrauchsbestimmungsregeln aus. Mit einer ausgewählten Themagebrauchsbestimmungsregel wird ein Gespräch zur Informationserfassung oder ein Gespräch unter Verwendung erfasster Informationen erzeugt.
Wenn die Gedächtniserfassungs-Gesprächserzeugungseinheit 50 und die Gedächtnisgebrauchs-Gesprächserzeugungseinheit 51 ein Thema erzeugen und seinen Gebrauch mit dem Themaerzeugungsverfahren bestimmen, benachrichtigen sie die Zustandsbestimmungseinheit 52 über diese Sache, das Thema und seinen Gebrauch. Selbst wenn ein Thema nicht erzeugt werden kann, wird die Zustandsbestimmungseinheit 52 über diese Sache benachrichtigt (Schritt SP3A, Schritt SP3B).
Wenn die Zustandsbestimmungseinheit 52 sowohl von der Gedächtniserfassungs-Gesprächserzeugungseinheit 50 als auch der Gedächtnisgebrauchs-Gesprächserzeugungseinheit 51 benachrichtigt ist, dass ein Thema erzeugt und sein Gebrauch bestimmt wurde, wählt sie entweder die Gedächtniserfassungs-Gesprächserzeugungseinheit 50 oder die Gedächtnisgebrauchs-Gesprächserzeugungseinheit 51 basierend auf einem ersten Verhältnis und einem zweiten Verhältnis, wobei das erste Verhältnis das Verhältnis der Anzahl Elemente, zu denen keine Werte erfasst wurden, zur Anzahl aller Elemente des Gesprächspartners darstellt und das zweite Verhältnis das Verhältnis der Anzahl Elemente, zu denen bereits Werte erfasst wurden, zu der Anzahl aller Elemente des Gesprächspartners darstellt (Schritt SP4).
Genauer wählt die Zustandsbestimmungseinheit 52 die Gedächtniserfassungs-Gesprächserzeugungseinheit 50 aus, wenn das erste Verhältnis dem zweiten Verhältnis entspricht oder größer ist, und sie wählt die Gedächtnisgebrauchs-Gesprächserzeugungseinheit 51 aus, wenn das erste Verhältnis kleiner als das zweite Verhältnis ist.
Wenn die Zustandsbestimmungseinheit 52 eine auf diese Weise auswählt, gibt sie der ausgewählten Gedächtniserfassungs-Gesprächserzeugungseinheit 50 oder der Gedächtnisgebrauchs-Gesprächserzeugungseinheit 51 einen Befehl, einen Vorgang (hierin nachstehen als Gesprächserzeugungsvorgang bezeichnet) zu starten, um ein Erfassungsgespräch oder ein Gebrauchsgespräch basierend auf dem Thema und seinem Gebrauch zu erzeugen.
Wenn die Zustandsbestimmungseinheit 52 über ein Thema und seinen Gebrauch entweder von der Gedächtniserfassungs-Gesprächserzeugungseinheit 50 oder der Gedächtnisgebrauchs-Gesprächsereeugungseinheit 51 benachrichtigt wird, gibt sie auf der anderen Seite der Gedächtniserfassungs-Gesprächserzeugungseinheit 50 oder der Gedächtnisgebrauchs-Gesprächserzeugungseinheit 51 einen Befehl, den Gesprächserzeugungsvorgang basierend auf dem Thema und seinem Gebrauch zu starten (Schritt SP5).
Deshalb startet die Gedächtniserfassungs-Gesprächserzeugungseinheit 50 oder die Gedächtnisgebrauchs-Gesprächserzeugungseinheit 51 in Reaktion auf den Befehl den Gesprächserzeugungsvorgang, greift auf die Verwaltungseinheit 34 des internen Zustands zu, um einen Parameterwert der „Zuneigung" der instinktiven Elemente zu erhalten und sendet der Reihe nach einer Audiosyntheseeinheit 40A der hardwareabhängigen Aktionssteuereinheit 40 Zeichenkettendaten D1, die die Inhalte einer Reihe von Gesprächen für die Realisierung eines Erfassungsgesprächs oder eines Gebrauchsgesprächs einschließlich der Gespräche zur Informationserfassung (hierin nachstehend als Erfassungsgespräch bezeichnet) oder Gespräche unter Verwendung erfasster Informationen (hierin nachstehend als Gebrauchsgespräch bezeichnet), die basierend auf dem Thema und seinem Gebrauch, die wie oben beschrieben ermittelt werden, umfassen.
Folglich wird ein Audiosignal S1 in der Audiosyntheseeinheit 40A basierend auf den Zeichenkettendaten D1 erzeugt und an den Lautsprecher 12 (1) gegeben, was zur Ausgabe des Tons der Gesprächsinhalte führt, die ein Erfassungsgespräch bilden, das eine Reihe von Gesprächen einschließlich des Erfassungsgesprächs „Was ist Yukikos Lieblingssache?" umfasst oder zur Ausgabe des Tons der Gesprächsinhalte, die ein Gebrauchsgespräch bilden, das eine Reihe von Gesprächen einschließlich eines Gebrauchsgesprächs „Yukikos Lieblingssache ist Tee, nicht wahr!" umfasst (Schritt SP6).
Dann wird zu dieser Zeit die Antwort des Benutzers zu diesem Thema durch das Mikrofon 11 aufgenommen und an die Spracherkennungsfunktionseinheit 32 des Aktionssteuersystems 30 (3) gegeben, um durch diese Einheit 32 erkannt zu werden.
Folglich extrahiert in einem Fall, in dem die Gedächtniserfassungs-Gesprächserzeugungseinheit 50 in Schritt SP4 ausgewählt ist, diese Gedächtniserfassungs-Gesprächserzeugungseinheit 50 eine Antwort auf die Frage (das heißt, einen Elementwert, den man zu erfassen wünscht) basierend auf dem Erfassungsgespräch aus der Benutzerantwort in dem Erfassungsgespräch basierend auf dem Spracherkennungsergebnis der Spracherkennungsfunktionseinheit 32 und speichert diese in der Langzeitspeichereinheit 36 in dem Format, das oben mit Bezug auf 4 beschrieben ist (Schritt SP6).
Ferner greift die Gedächtniserfassungs-Gesprächserzeugungseinheit 50 gleichzeitig auf die Verwaltungseinheit 34 des internen Zustands zu, um einen aktuellen Parameterwert der „Zuneigung" zu erhalten, berechnet eine Differenz zwischen dem erhaltenen Parameterwert und dem Parameterwert derselben „Zuneigung", der gerade vor dem Gespräch erhalten wurde, und speichert das Berechnungsergebnis in dem Langzeitgedächtnis 34 als Eindrucksstufe des Elementwerts, der wie oben beschrieben für den Benutzer erhalten wurde, indem es mit einem Elementwert verknüpft wird. Wenn die Gedächtniserfassungs-Gesprächserzeugungseinheit 50 oder die Gedächtnisgebrauchs-Gesprächserzeugungseinheit 51 das Erfasungsgespräch oder das Gebrauchsgespräch beendet, benachrichtigt sie die Zustandsbestimmungseinheit 52 über diese Sache (Schritt SP7). In Reaktion auf diese Benachrichtigung benachrichtigt die Zustandsbestimmungseinheit 52 die Gedächtniserfassungs-Gesprächserzeugungseinheit 50 und die Gedächtnisgebrauchs-Gesprächserzeugungseinheit 51 über das Thema und seinen Gebrauch, wie sie in Schritt SP3A oder Schritt SP3B von der Gedächtniserfassungs-Gesprächserzeugungseinheit 50 oder der Gedächtnisgebrauchs-Gesprächserzeugungseinheit 51, die in Schritt SP4 ausgewählt wurde, erhalten wurden (Schritt SP8A, Schritt SP8B).
Somit speichern die Gedächtniserfassungs-Gesprächserzeugungseinheit 50 und die Gedächtnisgebrauchs-Gesprächserzeugungseinheit 51 das gegebene Thema und seinen Gebrauch als Gesprächshistorie (Schritt SP9a, Schritt SP9B) und erzeugen Erfassungsgespräch oder Gebrauchsgespräch in der oben beschriebenen Weise, um so nicht dasselbe Gespräch in einem Eins-zu-eins-Gespräch mit demselben Gesprächspartner zu führen, bis das Gespräch endet (Schritt SP10A – Schritt SP1A bis Schritt SP10A, Schritt SP10B – Schritt SP1B bis Schritt SP10B).
Wie oben beschrieben ist, ist der Roboter 1 in der Lage, einzelne Gespräche mit einem Benutzer zu führen, während er natürlich und der Reihe nach Themen durch natürlichen Erwerb und Verwendung verschiedener Informationen über den Benutzer ändert.
(2-2) Verfolgungsfunktion des Roboters 1
Als nächstes wird die Verfolgungsfunktion, mit der der Roboter 1 ausgestattet ist, beschrieben.
Der Roboter 1 verfügt über eine Verfolgungsfunktion, die in der Lage ist, das Vorhandensein eines Gesprächspartners sicher zu verfolgen. Die Verfolgungsfunktion wird hauptsächlich durch das Verfahren der zustandsabhängigen Aktionshierarchie 38 des Aktionssteuersystems 30, das oben mit Bezug auf 3 beschrieben ist, realisiert. Dann wird diese Verfolgungsfunktion durch eine Verfolgungssteuereinheit 38B der zustandsabhängigen Aktionshierarchie 38 realisiert, wie oben mit Bezug auf 5 beschrieben ist.
Die Verfahrensinhalte der Verfolgungssteuereinheit 38B sind funktionell in eine Erkennungsintegrationseinheit 55 zur Zusammenfassung der Erkennungsergebnisse der visuellen Erkennungsfunktionseinheit 31, der Spracherkennungsfunktionseinheit 32 und der Kontakterkennungsfunktionseinheit 33 und eine Vorhersageeinheit 56 zur Vorhersage der Position eines Gesprächspartners basierend auf dem Integrationsergebnis der Erkennungsintegrationseinheit 55 eingeordnet.
In diesem Fall erkennt die Erkennungsintegrationseinheit 55 das Vorhandensein des Gesprächspartners im Hinblick auf das Gesichtsbild, die Gesprächsstimme und den Kontaktzustand des Gesprächspartners basierend auf den Erkennungsergebnissen der visuellen Erkennungsfunktionseinheit 31, der Spracherkennungsfunktionseinheit 32 und der Kontakterkennungsfunktionseinheit 33.
Das heißt, aus den Bilderkennungsverfahren, die basierend auf einem Videosignal durchgeführt werden, das Sensorausgaben der CCD-Kamera 10 umfasst, führt die visuelle Erkennungsfunktionseinheit 31 die drei Arten von Erkennungsverfahren, Hautfarbenerkennung, Gesichtserkennung und Personenerkennung in Anforderung des Hautfarbenerkennungsverfahrens, des Gesichtserkennungsverfahrens und des Personenerkennungsverfahrens schrittweise aus und sendet die Ergebnisse der Erkennungsverfahren dann an die Erkennungsintegrationseinheit 55.
Diese Erkennungsverfahren, wie zum Beispiel Hautfarbenerkennung, Gesichtserkennung und Personenerkennung weisen unterschiedliche Erkennungsgrade zur Erkennung des Gesichts einer Person auf. Das Personenerkennungsverfahren, das bestimmt, wer eine Zielperson ist, weist den höchsten Erkennungsgrad auf. Das Gesichtserkennungsverfahren, das erkennt, ob ein Bild ein Gesicht einer Person o. ä. ist, weist einen mittleren Erkennungsgrad auf. Das Hautfarbenerkennungsverfahren, das die leichteste Erkennung darstellt, weist den niedrigsten Erkennungsgrad auf. Besonders die visuelle Erkennungsfunktionseinheit 31 erkennt eine Hautfarbenregion in einem Bild basierend auf einem Videosignal und bestimmt basierend auf dem Erkennungsergebnis, ob ein Zielobjekt in dem Bild dem Gesicht eines Menschen entspricht. Wenn die visuelle Erkennungsfunktionseinheit 31 das Gesicht eines Menschen bestimmt, legt sie basierend auf dem Bild der Gesichtsregion fest, wer der Gesprächspartner ist und sendet das Erkennungsergebnis dann an die Erkennungsintegrationseinheit 55.
Die Spracherkennungsfunktionseinheit 32 führt ein Schallrichtungserkennungsverfahren, um zu erkennen, aus welcher Richtung der Schall gekommen ist, aus verschiedenen Erkennungsverfahren den Schall betreffend, die basierend auf einem Audiosignal durchgeführt werden, das Sensorausgaben des Mikrofons 11 umfasst, durch und sendet dieses Erkennungsergebnis an die Erkennungsintegrationseinheit 55.
Zum Beispiel werden in einem Fall, in dem in der Eingabe-/Ausgabegruppe 3 (1) mehrere Mikrofone 11 bereitgestellt sind, die Vielzahl der Mikrofone 11 verwendet, um eine Richtung einer Schallquelle des eingegangenen Schallereignisses anzunehmen. Besonders wie zum Beispiel in „Acoustic System and Digital Processing", Oga, Yamazaki, Kaneda (Electrical Information Communication Society), S. 197" offenbart ist, kann die Richtung einer Schallquelle durch Verwenden einer Eins-zu-eins-Beziehung zwischen der Schallquelle und einem Zeitunterschied der durch die Vielzahl der Mikrofone empfangenen Signalen vorhergesagt werden. Das heißt, wie in 7 dargestellt ist, in einem Fall, in dem eine ebene Welle, die aus der θs-Richtung kommt, von zwei Mikrofonen M1 und M2, die in einem Abstand d angeordnet sind, empfangen wird, gibt es die folgenden Beziehungen (3) und (4) zwischen den empfangenen Signalen x1(t) und x2(t) der Mikrofone M1 und M2. x2(t) = x1(t – Ts) (3) Ts = (d sin θs)/c (4)
In den Ausdrücken (3), (4) ist c die Schallgeschwindigkeit und ts ist ein Zeitunterschied der Signale, die durch die zwei Mikrofone M1 und M2 empfangen werden.
Deshalb kann, wenn der Zeitunterschied ts zwischen den empfangenen Signalen x1(t) und x2(t) erhalten werden kann, der folgende Ausdruck (5): Θs = sin–1 (cTs/d) (5)verwendet werden, um die Richtung, aus der der Schall eingefallen ist, zu erhalten, das heißt eine Schallquellrichtung.
Nun kann mit dem folgenden Ausdruck (6): Φ12(T) = E[x1(t)·x2(t + T)] (6)der Zeitunterschied τs aus der Kreuzkorrelationsfunktion Φ12τ zwischen den empfangenen Signalen x1(t) und x2(t) erhalten werden. In dem Ausdruck (4) ist E[·] ein Erwartungswert.
Mit dem obigen Ausdruck (3) und dem Ausdruck (6) wird die Kreuzkorrelationsfunktion Φ12τ wie folgt ausgedrückt (7): Φ12(T) = E[x1(t)·x1(t + T – Ts)] = Φ11(T – Ts) (7)
Hier ist Φ11τ in dem Ausdruck (7) eine Selbstkorrelationsfunktion des empfangenen Signals x1(t).
Da bekannt ist, dass die Selbstkorrelationsfunktion Φ11τ den Maximalwert erreicht, wenn t = 0, erreicht die Kreuzkorrelationsfunktion Φ12τ den Maximalwert, wenn τ = τs, basierend auf dem Ausdruck (7). Deshalb kann τs erhalten werden, wenn τ, das den Maximalwert erzeugt, durch Berechnung der Kreuzkorrelationsfunktion Φ12τ erhalten wird. Dann kann durch Substitution dieser in den obigen Ausdruck (5) die Richtung, aus der die Schallwelle eingetroffen ist, das heißt eine Schallquellrichtung, erhalten werden.
Die Spracherkennungsfunktionseinheit 22 (5) kann bestimmen, ob ein Schallereignis, das durch das Mikrofon 11 aufgenommen wurde, eine Stimme ist. Insbesondere kann durch statistisches Modellieren von Stimme und Nichtstimme mit dem Hidden-Markov-Mode-1-(HMM)-Verfahren und Vergleichen ihrer Wahrscheinlichkeit bestimmt werden, ob das Schallereignis eine Stimme ist. Zusätzlich ist die Spracherkennungsfunktionseinheit in der Lage, grob zu bestimmen, ob die Schallquelle nahe ist oder nicht, indem eine vorhergesagte Entfernung zu der Schallquelle mit einem Verfahren berechnet wird, das durch eine Referenz „F. Asano, H. Asoh und T. Matsui, „Sound Source Localization and Separation in Near Field", IEICE Trans. Fundamental, Vol E83-A, No. 11, 2000" offenbart ist.
Ferner führt die Kontakterkennungsfunktionseinheit 33 das Kontakterkennungsverfahren, um zu erkennen, ob der Benutzer berührt hat, aus den Erkennungsverfahren betreffend die externe Stimulation, die basierend auf dem Druckermittlungssignal durchgeführt werden, das Sensorausgaben der Berührungssensoren 13 umfasst, aus. Dann sendet die Kontakterkennungsfunktionseinheit das Erkennungsergebnis an die Erkennungsintegrationseinheit 55.
Die Erkennungsintegrationseinheit 55 fasst die Erkennungsergebnisse der visuellen Erkennungsfunktionseinheit 31, der Spracherkennungsfunktionseinheit 32 und der Zusammenfassung von Informationen für dieselbe Region eines Bilds, zum Beispiel ergibt sich, dass eine Gesichts- und eine Hautfarbe bestätigt werden, obwohl eine Person nicht erkannt werden kann. Das heißt, in einem Fall des Empfangs von Informationen, wenn jede Erkennung der visuellen Erkennungsfunktionseinheit 31, der Spracherkennungsfunktionseinheit 32 und der Kontakterkennungsfunktionseinheit 33 erfolgreich ist und die Erkennungsinformationen als Erkennungsergebnisse gesendet werden, da die Erkennung erfolgreich ist, nimmt die Erkennungsintegrationseinheit 55 eine Richtung des Gesprächspartners von vorgeschriebenen Erkennungsergebnissen oder einem oder mehreren Erkennungsergebnissen aus den Erkennungsergebnissen an. Somit sendet die Erkennungsintegrationseinheit 55 basierend auf den Erkennungsergebnissen der Reihe nach einer Aktionserzeugungseinheit 40B der hardwareabhängigen Aktionssteuereinheit 40 Verfolgungsaktionsdaten D2, die Aktionsinhalte zur Verfolgung des Vorhandenseins eines Gesprächspartners darstellen. Als Ergebnis wird ein Aktionsbestimmungssignal S2 in der Aktionserzeugungseinheit 40B basierend auf den Verfolgungsaktionsdaten D2 erzeugt und an relevante Antriebseinheiten 15₁ bis 15_n der Antriebsgruppe 4 (1) gegeben, wodurch zum Beispiel ein Halsgelenk des Roboters 1 so bewegt wird, dass der Schwerpunkt des Gesichts des Gesprächspartners in der Mitte des Eingabebilds positioniert wird.
Wenn das Personenerkennungsverfahren scheitert, verwendet die Erkennungsintegrationseinheit 55 irgendein Erkennungsergebnis des anderen Gesichtserkennungsverfahrens, Hautfarbenerkennungsverfahrens, Schallrichtungserkennungsverfahrens und Kontakterkennungsverfahrens, um die Verfolgung fortzusetzen. Zum Beispiel wird die Richtung (Stellung) des Gesichts des Gesprächspartners durch Verwendung des Erkennungsergebnisses des Gesichtserkennungsverfahrens vorhergesagt. Das heißt, obwohl eine Peron nicht bestimmt werden kann, war das Gesichtserkennungsverfahren erfolgreich und in einem Fall, in dem ein Gesicht bestätigt wurde, wird angenommen, dass die Person mit dem Gesicht als dieselbe Person verfolgt wurde und die Antriebsgruppe 4 wird gesteuert, so dass die Gesichtsregion in der Mitte des Eingabebilds platziert wird. Wenn das Gesichtserkennungsergebnis scheitert, wird zum Beispiel das Erkennungsergebnis des Hautfarbenerkennungsverfahrens verwendet. Wenn das Hautfarbenerkennungsverfahren ebenfalls scheitert, wird das Erkennungsergebnis des Schallrichtungserkennungsverfahrens verwendet und die Antriebsgruppe 4 wird gesteuert, so dass der Roboter 1 in die Schallrichtung blickt.
Ein Verfahren zur Bestimmung, welches Erkennungsergebnis mit Priorität verwendet wird, kann in der Erkennungsintegrationseinheit 55 eingestellt werden oder der Roboter 1 kann eine Auswahl geeignet treffen. Zum Beispiel kann das Erkennungsergebnis eines Erkennungsverfahrens, das der Position (Richtung) des Gesprächspartners am nächsten ist, verwendet werden, gerade bevor das Personenerkennungsverfahren scheitert.
Wenn die Vorhersageeinheit 56 das Erkennungsintegrationsergebnis von der Erkennungsintegrationseinheit 55 empfängt und das Ziel vorübergehend wegen nicht verlässlicher Erkennungsergebnisse der Erkennungsverfahren nicht erkannt werden kann (in einem Fall, in dem die Erkennung scheitert), sagt die Vorhersageeinheit 56 die Position des Ziels vorher. Wenn zum Beispiel die Erkennungsergebnisse aller Erkennungsverfahren scheitern, sagt die Vorhersageeinheit 56 die aktuelle Position (Richtung) des Ziels basierend auf den Erkennungsergebnissen vorher, die bis zum Scheitern erhalten wurden.
Wenn die Vorhersageeinheit 56 immer das Erkennungsintegrationsergebnis von der Erkennungsintegrationseinheit 55 empfängt und die oben beschriebene Verfolgungssteuereinheit das Ziel nicht erkennen kann, wird die Vorhersageeinheit 56 derart gesteuert, um die Vorhersage der Zielposition zu starten oder auf die Erholung der verschiedenen Arten der Erkennungsverfahren für eine vorgeschriebene Zeit zu warten. Als Alternative kann, wenn das Ziel nicht erkannt werden kann, die Erkennungsintegrationseinheit 55 der Vorhersageeinheit 56 die Erkennungsergebnisse bis zum Scheitern senden, um die Vorhersageeinheit 56 anzuweisen, die Zielposition vorherzusagen.
Dann sagt die Vorhersageeinheit 56 die Zielrichtung aus dem Erkennungsergebnis vorher, gerade bevor das Ziel nicht erkannt werden kann und sendet die Vorhersagerichtung an die Antriebsgruppe 4 (1). Das heißt, die Umgebungserkennung mit Bildern, die für die Verfolgung des Roboters erforderlich ist, ist häufig unbeständig und reagiert empfindlich auf Beleuchtung und den Gesichtswinkel der Person. Wenn sich die Beleuchtung und der Gesichtswinkel geringfügig ändern, kann die visuelle Erkennungsfunktionseinheit 31 bei den verschiedenen Arten der Erkennungsverfahren scheitern. Wenn sich zusätzlich ein Ziel, wie zum Beispiel ein Ball, sehr bewegt, bewegt sich der Ball bei einer Bedingung ungleichmäßiger Beleuchtung, womit die Erkennung schwierig wird. Weiter wählt der selbständige Roboter immer eine Aktion basierend auf dem internen Zustand und der externen Stimulation aus. In einem Fall zum Beispiel, in dem ein anderer Vorgang mit einer höheren Priorität als der Verfolgungsvorgang auftritt, kann der Verfolgungsvorgang gestoppt werden und der andere Vorgangs starten. Man bedenke zum Beispiel solch eine Situation, dass der Roboter 1, da der Roboter 1 von einer anderen Person B gerufen wird, während er mit einer Person A ein Gespräch führt, ein kurzes Gespräch mit der Person B führt und dann das Gespräch mit der Person A wieder aufnimmt. In dieser Situation sollte, nachdem die Verfolgung gestoppt ist, die Verfolgung wieder aufgenommen werden. Obwohl die Position der Person A prinzipiell gespeichert werden kann, kann die Verfolgung auf Grund unzuverlässiger Erkennung nicht wieder aufgenommen werden, wenn sich die Person A geringfügig bewegt.
Selbst in diesem Fall, wenn das Ziel ein bewegliches Objekt ist, wird die vorhergesagte Richtung durch Vorhersage der aktuellen Position (Richtung) aus der vorhergehenden Bewegungsmenge erhalten. Zusätzlich wird in einem Fall, in dem das Zielobjekt während einer vorgeschriebenen Zeit als unveränderlich erkannt wird, gerade bevor die Erkennung scheitert, die Richtung des Objekts genau davor als die vorhergesagte Position bestimmt.
Dann erzeugt die Aktionserzeugungseinheit 40B der hardwareabhängigen Aktionssteuereinheit 40 Verfolgungsaktionsdaten D2 basierend auf Steuerinformationen von der Erkennungsintegrationseinheit 55 oder der Vorhersageeinheit 56 und gibt diese über die Antriebsgruppe 4 aus. Das heißt bezüglich der Antriebseinheiten 15₁ bis 15_n in den Gelenken des Roboters 1, der Drehwinkel und die Drehposition werden berechnet, um jedes Gelenk mit jeder Längs-, Quer- und Hochachse als Mittelpunkt zu drehen und relevante Motoren 16₁ bis 16_n werden gesteuert, um angetrieben zu werden, was den Roboter 1 die Bewegung des Ziel zum Beispiel durch Drehen des Halses des Roboters 1 verfolgen lässt.
Man beachte, dass, obwohl die Vorhersageeinheit 56 eine Zielrichtung vorhersagt, wenn alle Erkennungsverfahren scheitern, ein Teil der oben beschriebenen Verfahren der Erkennungsintegrationseinheit 55 durch die Vorhersageeinheit 56 durchgeführt werden können. Das heißt, wenn das Personenerkennungsverfahren mit der höchsten Stufe scheitert, kann ein Verfahren zur Fortsetzung der Verfolgung durch Verwenden der Erkennungsergebnisse des Gesichtserkennungsverfahrens mit der niedrigeren Stufe und des Schallrichtungserkennungsverfahrens durch die Vorhersageeinheit 56 durchgeführt werden.
(3) Gesprächspartnerbestätigungsablauf
Wenn der Roboter 1 Benutzersprache über das Mikrofon 11 erhält, startet die Steuereinheit 2 den Gesprächspartnerbestätigungsablauf RT1, der in 8 dargestellt ist, von Schritt SP20. Bei dem nächsten Schritt SP21 setzt die Steuereinheit 2 einen Zähler (nicht dargestellt) zurück und schreitet dann zu Schritt SP22 fort, um festzustellen, ob das Vorhandensein des Gesprächspartners mit der oben beschriebenen Verfolgungsfunktion verfolgt werden kann.
Wenn ein positives Ergebnis in Schritt SP22 erhalten wird, bedeutet dies, dass der sich Gesprächspartner vor dem Roboter 1 befindet. In diesem Fall schreitet die Steuereinheit 2 zu Schritt SP23 fort und kehrt zu Schritt SP21 zurück, um das oben beschriebene Verfahren zu wiederholen, während das Gespräch mit dem Gesprächspartner fortgesetzt wird.
Wenn hingegen ein negatives Ergebnis in Schritt SP22 erhalten wird, bedeutet dies, dass das Vorhandensein des Gesprächspartners nicht erkannt wurde. In diesem Fall schreitet die Steuereinheit 2 zu Schritt SP24 fort, um festzustellen, ob der Berührungssensor 13 für einige Sekunden (zwei bis drei Sekunden) berührt wurde. Wenn ein positives Ergebnis in diesem Schritt SP24 erhalten wurde, bedeutet dies, dass der Gesprächspartner sich genau vor dem Roboter 1 befindet. In diesem Fall schreitet die Steuereinheit 2 zu Schritt SP23 fort und kehrt zu Schritt SP21 zurück, um das oben beschriebene Verfahren zu wiederholen, während das Gespräch mit dem Gesprächspartner fortgesetzt wird.
Wenn hingegen ein negatives Ergebnis in Schritt SP24 erhalten wird, bedeutet dies, dass das Vorhandensein des Gesprächspartners nicht erkannt wurde. In diesem Fall schreitet die Steuereinheit 2 zu Schritt SP25 fort, um das Zählen eines nicht dargestellten Zeitgebers zu starten, und um festzustellen, ob der Benutzer geantwortet hat.
Wenn ein positives Ergebnis in Schritt SP25 erhalten wurde, bedeutet dies, dass Sprache über das Mikrofon 11 aufgenommen wird. In diesem Fall schreitet die Steuereinheit 2 zu Schritt SP26 fort, um festzustellen, ob die Inhalte der aufgenommenen Sprache dieselben sind wie vorhergesagte Antwortinhalte.
Wenn hingegen ein negatives Ergebnis in Schritt SP25 erhalten wird, bedeutet dies, dass keine Sprache über das Mikrofon 11 aufgenommen wurde. In diesem Fall schreitet die Steuereinheit 2 zu Schritt SP27 fort, wo sie feststellt, dass eine vorgeschriebene Zeit (zum Beispiel 5 bis 7 Sekunden) verstrichen sind, seit der Zeitgeber gestartet wurde.
Wenn ein positives Ergebnis in Schritt SP27 erhalten wurde, stellt die Steuereinheit 2 fest, dass die Zeit verstrichen ist und schreitet zu Schritt SP28 fort. Wenn hingegen ein negatives Ergebnis erhalten wird, stellt sie fest, dass die Zeit nicht verstrichen ist und kehrt zu Schritt SP25 zurück und wiederholt das obige Verfahren.
Wenn ein positives Ergebnis in Schritt SP26 erhalten wird, bedeutet dies, dass die Inhalte der über das Mikrofon 11 aufgenommenen Sprache dieselben sind wie vorhergesagte Antwortinhalte. In diesem Fall stellt die Steuereinheit 2 fest, dass sich der Gesprächspartner genau vor dem Roboter 1 befindet und schreitet zu Schritt SP23 fort und kehrt zu Schritt SP21 zurück, um das obige Verfahren zu wiederholen, während das Gespräch mit dem Gesprächspartner fortgesetzt wird.
Wenn hingegen ein negatives Ergebnis in Schritt SP26 erhalten wird, bedeutet dies, dass die Inhalte der über das Mikrofon 11 aufgenommenen Sprache von den vorhergesagten Antwortinhalten verschieden sind. In diesem Fall stellt die Steuereinheit 2 fest, dass das Vorhandensein des Gesprächspartners nicht erkannt wurde und schreitet zu Schritt SP28 fort.
In Schritt SP28 überprüft die Steuereinheit 2 einen numerischen Wert des Zählers, der in Schritt SP21 zurückgesetzt wurde. Wenn der Wert kleiner als N ist (N ist eine bestimmte Ganzzahl), schreitet die Steuereinheit 2 zu Schritt SP29 fort und schreitet zu Schritt SP30 fort, während mit dem Benutzer mit denselben beabsichtigten Inhalten gesprochen wird, um ihn zu veranlassen zu antworten, erhöht den Zähler um eins und kehrt dann zu Schritt SP22 zurück, um das obige Verfahren zu wiederholen.
Wenn die Steuereinheit 2 in Schritt SP28 feststellt, dass der numerische Wert des Zählers N entspricht oder größer ist, schreitet die Steuereinheit 2 zu Schritt SP31 fort, um den Benutzer zu bitten, einen Berührungssensor 13 zu berühren und startet das Zählen des Zeitgebers und schreitet dann zu Schritt SP32 fort.
Bei Schritt SP32 stellt die Steuereinheit 2 fest, ob ein Berührungssensor 13 innerhalb einer vorgeschriebenen Zeitdauer (zum Beispiel innerhalb fünf Sekunden) berührt wurde, nachdem begonnen wurde, mit dem Benutzer zu sprechen. Wenn ein positives Ergebnis erhalten wird, bedeutet das, dass sich der Gesprächspartner genau vor dem Roboter 1 befindet. Die Steuereinheit 2 schreitet zu Schritt SP23 fort, kehrt zu Schritt SP21 zurück, während das Gespräch mit dem Gesprächspartner fortgesetzt wird und wiederholt das obige Verfahren.
SP21 zurück, während das Gespräch mit dem Gesprächspartner fortgesetzt wird und wiederholt das obige Verfahren.
Wenn ein negatives Ergebnis in Schritt SP32 erhalten wird, bedeutet dies, dass das Vorhandensein des Gesprächspartners für die vorgeschriebene Zeitdauer nicht bestätigt wurde. In diesem Fall schreitet die Steuereinheit 2 zu Schritt SP33 fort, um eine Äußerung zu erzeugen, das Gespräch zu beenden und schreitet dann zu Schritt SP34 fort, um den Gesprächspartnerbestätigungsablauf RT1 zu beenden.
Wie oben beschrieben ist, ist der Roboter 1 in der Lage, das Vorhandensein des Gesprächspartners zu bestätigen, solange die Verfolgung während eines Gesprächs mit dem Benutzer durchgeführt werden kann. Deshalb veranlasst der Roboter 1, wenn die Gesprächsinhalte des Benutzers nicht dieselben sind wie vorhergesagte Antwortinhalte, den Benutzer, dem Roboter 1 zu antworten, während das Gespräch fortgesetzt wird, wodurch das Gespräch mit dem Benutzer fortgesetzt wird.
Wenn der Roboter 1 zum Beispiel die Benutzerantwort „Uh..." als Antwort auf die Frage des Roboters 1 „Welches ist Yukikos Lieblingssache?" empfängt, erzeugt der Roboter 1 eine Äußerung „Erzähl mir Yukikos Lieblingssache.". Wenn der Roboter 1 dann „Was?" von dem Benutzer empfängt, erzeugt er eine Äußerung „Bitte antworte, es ist blablabla", um so die Benutzerantwort zu empfangen, wie zum Beispiel „Äpfel". Selbst wenn der Roboter 1 keine Verfolgung während des Gesprächs mit dem Benutzer durchführen kann, kann der Roboter 1 ermitteln, dass sich der Benutzer vor dem Roboter 1 als Gesprächspartner befindet, wenn die Benutzerantwort auf die Frage des Roboters 1 zu der Frage passt, und setzt das Gespräch mit dem Benutzer fort. Nachdem der Roboter 1 zum Beispiel eine Äußerung „Welches ist Yukikos Lieblingsspeise?" erzeugt, stellt der Roboter 1 fest, wenn er eine erwartete Antwort wie zum Beispiel „Äpfel" von dem Benutzer empfangen kann, obwohl er das Vorhandensein des Benutzers nicht verfolgen kann, dass der Benutzer vor dem Roboter 1 vorhanden ist und setzt das Gespräch fort.
In einem Fall, in dem der Roboter 1 während des Gesprächs mit dem Benutzer die Verfolgung nicht durchführen kann und er keine erwarteten Antworten empfangen oder Stimme erkennen kann, wiederholt der Roboter ferner die Frageäußerung eine vorgeschriebene Anzahl. Wenn der Roboter 1 keine erwartete Antwort empfangen kann, stellt er fest, dass der Gesprächspartner weggegangen ist und kann das unnatürliche Gespräch beenden.
Benutzer für eine vorgeschrieben Zeit empfängt, nachdem eine Äußerung „Sag mir, was Yukikos Lieblingsspeise ist." mit denselben Inhalten erzeugt wird, ist der Roboter 1 in der Lage, das unnatürliche Gespräch wie ein Selbstgespräch durch Erzeugen der Äußerung „Uh... Ist er weggegangen?" zu beenden.
(4) Funktion und Auswirkung dieser Ausführungsform
In der obigen Anordnung führt der Roboter 1 die Gesprächssteuerfunktion aus, um einzelne Gespräche mit einem Benutzer zu führen, während er die Verfolgungsfunktion ausführt, um das Vorhandensein des Benutzers, der ein Gesprächspartner ist, basierend auf den Erkennungsergebnissen verschiedener Arten der Erkennungsverfahren, zu verfolgen.
Während der Roboter 1 das Vorhandensein des Benutzers während des Gesprächs mit dem Benutzer verfolgt, stellt er in diesem Fall fest, dass er das Vorhandensein des Gesprächspartners bestätigen kann und veranlasst den Benutzer dem Roboter 1 zu antworten, während er das Gespräch fortsetzt, womit er ein natürliches Gespräch mit dem Benutzer fortsetzt wie Menschen es tun.
Wenn der Roboter 1 das Vorhandensein des Benutzers, der ein Gesprächspartner ist, wegen dunkler Umgebung nicht verfolgen kann, stellt der Roboter 1, nur wenn die Benutzerinhalte des Gesprächs dieselben sind wie Antwortinhalte, die von dem Roboter 1 erwartet sind, fest, dass der Gesprächspartner vor dem Roboter 1 vorhanden ist und setzt das Gespräch mit dem Benutzer fort, wodurch es möglich ist, den Roboter 1 wirksam davon abzuhalten, durch Fehler festzustellen, dass der Benutzer nicht vorhanden ist und das Gespräch zu stoppen, unabhängig von dem Vorhandensein des Benutzers vor dem Roboter 1.
In einem Fall, in der Roboter 1 die Verfolgung während des Gesprächs mit dem Benutzer nicht durchführen kann und keine durch den Roboter 1 vorhergesagten Antwortinhalte empfangen kann, veranlasst der Roboter 1 den Benutzer ferner wiederholt mit denselben Gesprächsinhalten, eine vorgeschriebene Anzahl an Malen zu antworten. Wenn der Roboter 1 erwartete Antwortinhalte nicht empfangen kann, stellt er fest, dass der Benutzer weggegangen ist und beendet das Gespräch mit dem Benutzer. Dies verhindert das Fortsetzen eines unnatürlichen Gesprächs, wie zum Beispiel ein Selbstgespräch. Zusätzlich können Antworten auf Geräusche, wie zum Beispiel Fernseher oder Radio, früher vermieden werden.
Gemäß der obigen Anordnung führt der Roboter 1 eine Gesprächssteuerfunktion aus, um Gespräche über für einen Benutzer besondere Themen zu führen, während er eine Verfolgungsfunktion ausführt, um das Vorhandensein des Benutzers, der ein Gesprächspartner ist, basierend auf den Erkennungsergebnissen verschiedener Erkennungsverfahren zu verfolgen, wodurch das Vorhandensein des Gesprächspartners umfassend bestätigt wird, ohne durch aktuelle Umgebungen beeinträchtigt zu sein. Als Ergebnis ist der Roboter 1 in der Lage, ein Gespräch auf natürliche Weise zu führen wie Menschen es tun, was es möglich macht, die Unterhaltungseigenschaft wesentlich zu verbessern.
(5) Andere Ausführungsformen
Man beachte, dass die oben beschriebene Ausführungsform einen Fall beschrieben hat, in dem diese Erfindung auf einen Unterhaltungsroboter, der wie in 1 bis 3 dargestellt aufgebaut ist, angewendet wird. Diese Erfindung ist jedoch nicht darauf beschränkt und kann weit auf Unterhaltungsroboter mit anderem Aufbau als diesem, verschiedenen Geräten als Roboter und anderen verschiedenen Gesprächssteuervorrichtungen angewendet werden, die in der Lage sind, Gespräche mit Benutzern zu steuern. Zusätzlich kann diese Erfindung weit auf verschiedene Software, wie zum Beispiel Software für TV-Spiele, angewendet werden.
Ferner hat die oben beschriebene Ausführungsform einen Fall beschrieben, in dem die Eindrucksstufen der Elemente, die mit Bezug auf 4 beschrieben wurden, zu einer Zeit ermittelt werden, zu der die Elementwerte der Elemente erhalten werden und danach nicht aktualisiert werden. Diese Erfindung ist nicht darauf beschränkt und die Eindrucksstufen können aktualisiert werden. Dadurch kann die Auftretenshäufigkeit eines Themas geändert werden und ein von der Situation abhängiges Gespräch kann geführt werden, was die Unterhaltungseigenschaft des Roboters 1 wesentlich verbessert.
Noch überdies hat die oben beschriebene Ausführungsform einen Fall beschrieben, in dem die Eindrucksstufe jedes Elements, das mit Bezug auf 4 beschrieben wurde, auf der Grundlage einer Differenz zwischen dem Parameterwert der „Zuneigung", der in der Verwaltungseinheit 34 für den internen Zustand gespeichert ist, vor und nachdem der Elementwert des Elements erhalten wird, berechnet wird. Diese Erfindung ist jedoch nicht darauf beschränkt und die Stufe kann auf der Grundlage des Parameterwerts eines anderen instinktiven oder emotionalen Elements, das in der Verwaltungseinheit 34 für den internen Zustand gespeichert ist, berechnet werden oder kann mit einem anderen Verfahren berechnet werden.
Noch überdies wird in dem Sprachkommunikationssystem mit einer Funktion, mit einem Gesprächspartner gemäß der oben beschriebenen Ausführungsform zu kommunizieren, die Spracherkennungsfunktionseinheit 32 als ein Spracherkennungsmittel zur Erkennung der Sprache des Gesprächspartners angewendet, die visuelle Erkennungsfunktionseinheit 31 als ein Bilderkennungsmittel zur Erkennung des Gesichts des Gesprächspartners angewendet und die Kontakterkennungsfunktionseinheit 33 als ein Kontakterkennungsmittel zur Erkennung von Kontakten von dem Gesprächspartner angewendet. Diese Erfindung ist jedoch nicht darauf beschränkt und verschiedene Erkennungsmittel mit anderen verschiedenen Anordnungen können weit angewendet werden, vorausgesetzt dass die Stimme, das Gesicht und der Kontakt eines Gesprächspartners erkannt werden können. Noch weiter hat die oben beschriebene Ausführungsform einen Fall beschrieben, in dem die Gesprächssteuereinheit 38A der zustandsabhängigen Aktionshierarchie 38 als ein Gesprächssteuermittel zur Steuerung des Gesprächs mit einem Gesprächspartner basierend auf dem Erkennungsergebnis der Spracherkennungsfunktionseinheit (Spracherkennungsmittel) 32 unter der Steuerung der Steuereinheit 2 angewendet wird. Diese Erfindung ist jedoch nicht darauf beschränkt und andere verschiedene Anordnungen können angewendet werden, vorausgesetzt, das Gespräch mit dem Gesprächpartner kann basierend auf dem Spracherkennungsergebnis, das durch Erkennen der Sprache des Gesprächspartners erhalten wird, gesteuert werden.
Noch überdies hat die oben beschriebene Ausführungsform einen Fall beschrieben, in dem die Verfolgungssteuereinheit 38B der zustandsabhängigen Aktionshierarchie 38 unter Steuerung der Steuereinheit 2 als ein Verfolgungssteuermittel zur Verfolgung des Vorhandenseins eines Gesprächspartners basierend auf einem oder sowohl auf dem Erkennungsergebnis der visuellen Erkennungsfunktionseinheit (Bilderkennungsmittel) 31 als auch dem Erkennungsergebnis der Spracherkennungsfunktionseinheit (Spracherkennungsmittel) 32 angewendet wird. Diese Erfindung ist jedoch nicht darauf beschränkt und andere verschiedene Anordnungen können angewendet werden, vorausgesetzt, dass der Gesprächpartner basierend auf einem oder sowohl auf dem Bilderkennungsergebnis, das durch Erkennen des Gesichts eines Gesprächspartners erhalten wird, als auch dem Spracherkennungsergebnis, das durch Erkennen der Sprache des Gesprächspartners erhalten wird, verfolgt werden kann.
In diesem Fall kann die Verfolgungssteuereinheit (Verfolgungssteuermittel) 38B das Vorhandensein des Gesprächspartners basierend auf einer gewünschten Kombination des Erkennungsergebnisses der Spracherkennungsfunktionseinheit (Spracherkennungsmittel) 32, der Erkennungsergebnis der visuellen Erkennungsfunktionseinheit (Bilderkennungsmittel) 31 und dem Erkennungsergebnis der Kontakterkennungsfunktionseinheit (Kontakterkennungsmittel) 33 verfolgen. Noch überdies hat die oben beschriebene Ausführungsform einen Fall beschrieben, in dem, selbst wenn die Verfolgungssteuereinheit (Verfolgungssteuermittel) 38B keinen Erfolg mit der Verfolgung hat, die Gesprächssteuereinheit (Gesprächssteuermittel) 38A das Gespräch fortsetzen, wenn die Sprachinhalte des Gesprächspartners, die als Erkennungsergebnis der Spracherkennungsfunktionseinheit (Spracherkennungsmittel) 32 dieselben sind wie erwartete Antwortinhalte. Diese Erfindung ist jedoch nicht darauf beschränkt und andere verschiedene Steuerverfahren können angewendet werden, vorausgesetzt es kann wirkungsvoll verhindert werden, dass das Gespräch gestoppt wird, selbst in dunklen Umgebungen, wenn der Roboter 1 feststellt, dass sich der Gesprächspartner nicht vor dem Roboter 1 befindet, unabhängig davon ob der Partner vor dem Roboter 1 vorhanden ist.
In diesem Fall setzt, selbst wenn die Verfolgungssteuereinheit (Verfolgungssteuermittel) 38B die Verfolgung nicht durchführen kann, die Gesprächssteuereinheit (Gesprächssteuermittel) 38A das Gespräch in einem Fall, in dem der Kontakt des Gesprächspartners als Erkennungsergebnis der Kontakterkennungsfunktionseinheit (Kontakterkennungsmittel) 33 bestätigt wird, fort, was zu derselben Auswirkung wie oben beschrieben führt.
Noch überdies hat die oben beschriebene Ausführungsform einen Fall beschrieben, in dem, selbst wenn die Verfolgungssteuereinheit (Verfolgungssteuermittel) 38B die Verfolgung nicht durchführen kann und die Sprachinhalte des Gesprächspartners nicht dieselben sind wie erwartete Antwortinhalte und die Antwortinhalte nach einer Äußerung, den Gesprächspartner zu veranlassen zu antworten, eine vorgeschrieben Anzahl an Malen gemacht wurde, nicht von dem Gesprächspartner erhalten werden können, die Gesprächssteuereinheit (Gesprächssteuermittel) 38A das Gespräch beendet. Diese Erfindung ist jedoch nicht darauf beschränkt und andere verschiedene Steuerverfahren können angewendet werden, vorausgesetzt, dass in einem Fall, in dem ein Roboter eine erwartete Antwort nicht erhalten kann, selbst wenn der Roboter den Gesprächspartner wiederholt veranlasst zu antworten, verhindert werden kann, dass ein unnatürliches Gespräch wie ein Selbstgespräch fortgesetzt wird, wenn der Gesprächspartner weggegangen ist.
In diesem Fall, in einem Fall, in dem die Verfolgungssteuereinheit (Verfolgungssteuermittel) 38B die Verfolgung nicht durchführen kann und die Sprachinhalte des Gesprächspartner nicht dieselben sind wie erwartete Antwortinhalte, und wenn die Antwortinhalte von dem Gesprächspartner nicht erhalten werden können, nachdem eine Äußerung, den Gesprächspartner zu veranlassen zu antworten, eine vorgeschriebene Anzahl an Malen gemacht wurde, bittet die Gesprächssteuereinheit (Gesprächssteuermittel) 38A den Gesprächspartner, die Kontakterkennungsfunktionseinheit (Kontakterkennungsmittel) 33 zu berühren, genau bevor das Gespräch beendet wird und dann in einem Fall, in dem die Kontakterkennungsfunktionseinheit (Kontakterkennungsmittel) 33 den Kontakt des Gesprächspartners als Erkennungsergebnis erkennt, setzt die Gesprächssteuereinheit (Gesprächssteuermittel) 38A das Gespräch fort, was ebenso dazu führt, dieselben Auswirkungen wie oben beschrieben zu erhalten.
Noch überdies hat die oben beschriebene Ausführungsform einen Fall beschrieben, in dem die Gesprächssteuereinheit (Gesprächssteuermittel) 38A ein Zeitlimit setzt sowie den Gesprächspartner veranlasst zu antworten, wenn die Sprache des Gesprächspartners nicht für eine vorgeschriebene Zeit erhalten werden kann. Dieses Zeitlimit kann wie gewünscht auf eine gewünschte Zeit als eine Zeit gesetzt werden, um auf die erwarteten Antwortinhalte zu warten.
Ein Sprachkommunikationssystem und ein Verfahren und eine Robotervorrichtung können auf Unterhaltungsroboter, Betreuungsroboter usw. angewendet werden. Obwohl sie zusammen mit den bevorzugten Ausführungsformen der Erfindung beschrieben wurden, ist es dem Fachmann offensichtlich, dass verschiedene Änderungen und Modifizierungen durchgeführt werden können, weshalb die angefügten Ansprüche alle solche Änderungen und Modifizierungen abdecken, da sie in den Schutzbereich der Erfindung fallen.

Claims

Sprachkommunikationssystem mit einer Funktion, ein Gespräch mit einem Gesprächspartner zu führen, umfassend: Spracherkennungsmittel (32) zur Erkennung der Sprache des Gesprächspartners; Gesprächssteuermittel (38A) zur Steuerung des Gesprächs mit dem Gesprächspartner basierend auf einem Erkennungsergebnis des Spracherkennungsmittels (32); Bilderkennungsmittel (31) zur Erkennung des Gesichts des Gesprächspartners; und Verfolgungssteuermittel (38B) zur Verfolgung des Vorhandenseins des Gesprächspartners basierend auf einem oder sowohl auf einem Erkennungsergebnis des Bilderkennungsmittels (31) als auch einem Erkennungsergebnis des Spracherkennungsmittels (32), dadurch gekennzeichnet, dass das Gesprächssteuermittel (38A) das Gespräch fortsetzt, wenn Gesprächsinhalte des Gesprächspartners, die als Erkennungsergebnis des Spracherkennungsmittels (32) erhalten werden, dieselben sind wie vorausgesagte Antwortinhalte, selbst wenn das Verfolgungssteuermittel (38B) mit der Verfolgung scheitert.
Sprachkommunikationssystem gemäß Anspruch 1, worin das Gesprächssteuermittel (38A) das Gespräch beendet, wenn die Antwortinhalte nicht von dem Gesprächspartner erhalten werden können, selbst wenn eine Mitteilung wiederholt wird, um den Gesprächspartner anzuhalten, die Antwortinhalte eine festgesetzte Anzahl von Malen zu geben, in dem Fall, in dem das Verfolgungssteuermittel (38B) mit der Verfolgung scheitert und die Gesprächsinhalte des Gesprächspartners nicht dieselben sind, wie die vorausgesagten Antwortinhalte.
Sprachkommunikationssystem gemäß Anspruch 2, worin das Gesprächssteuermittel (38A) eine Mitteilung erstellt, um den Gesprächspartner anzuhalten, die Antwortinhalte zu geben, wenn die Sprache des Gesprächspartners für eine festgelegte Zeitdauer nicht erhalten werden kann.
Sprachkommunikationssystem gemäß Anspruch 1, umfassend Berührungserkennungsmittel (33) zur Erkennung von Berührungen des Gesprächspartners, worin das Verfolgungssteuermittel (38B) das Vorhandensein des Gesprächspartners basierend auf einer bestimmten Kombination des Erkennungsergebnisses des Spracherkennungsmittels (32), des Erkennungsergebnisses des Bilderkennungsmittels (31) und eines Erkennungsergebnisses des Berührungserkennungsmittels (33) verfolgt.
Sprachkommunikationssystem gemäß Anspruch 4, worin das Gesprächssteuermittel (38A) das Gespräch fortsetzt, wenn das Erkennungsergebnis des Berührungserkennungsmittels (33) das Vorhandensein einer Berührung des Gesprächspartners anzeigt, selbst wenn das Verfolgungssteuermittel (38B) mit der Verfolgung scheitert.
Sprachkommunikationssystem gemäß Anspruch 4, worin das Gesprächssteuermittel (38A) das Gespräch fortsetzt, wenn eine Berührung des Gesprächspartners als Erkennungsergebnis des Berührungserkennungsmittels (33) bestätigt werden kann, nachdem eine Mitteilung erstellt wird, kurz bevor das Gespräch beendet würde, um den Gesprächspartner zu bitten, das Berührungserkennungsmittel (33) zu berühren, in einem Fall, in dem die Antwortinhalte nicht erhalten werden können, nachdem eine Mitteilung eine festgelegte Anzahl von Malen erstellt wird, um den Gesprächspartner anzuhalten, die Antwortinhalte zu geben, in einem Fall, in dem das Verfolgungssteuermittel (38B) mit der Verfolgung scheitert und die Gesprächsinhalte des Gesprächspartner nicht dieselben wie die vorausgesagten Antwortinhalte sind.
Sprachkommunikationssystem gemäß einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Gesprächssteuermittel (38A) besonders gestaltet ist, automatisch die Identität des Gesprächspartners durch Vergleichen erkannter Gesprächsinhalte gesprochener Antworten, die von dem Gesprächspartner empfangen wurden, mit Profildaten aus einer Anzahl registrierter Persönlichkeitsprofile von Gesprächspartnern zu erkennen, die in einer Profildatenbank gespeichert sind und Übereinstimmungen dieser erkannten Gesprächsinhalte mit diesen Profildaten festzustellen.
Sprachkommunikationssystem gemäß einem der vorhergehenden Ansprüche, das in einer Steuereinheit (2) einer Robotervorrichtung enthalten ist.
Sprachkommunikationsverfahren mit einer Funktion, ein Gespräch mit einem Gesprächspartner zu führen, umfassend: einen ersten Schritt, das Vorhandensein des Gesprächspartners basierend auf einem oder sowohl auf einem Spracherkennungsergebnis, das durch Erkennung der Sprache des Gesprächspartners erhalten wird, als auch einem Bilderkennungsergebnis, das durch Erkennung des Gesichts des Gesprächspartners erhalten wird, zu verfolgen; und einen zweiten Schritt, das Gespräch mit dem Gesprächspartner fortzusetzen, der als Spracherkennungsergebnis in Übereinstimmung mit der Verfolgung erhalten wurde, dadurch gekennzeichnet, dass im zweiten Schritt das Gespräch fortgesetzt wird, wenn die Gesprächsinhalte des Gesprächspartners, die als Spracherkennungsergebnis erhalten werden, dieselben wie vorausgesagte Antwortinhalte sind, selbst wenn die Verfolgung im ersten Schritt scheitert.
Sprachkommunikationsverfahren gemäß Anspruch 9, worin im zweiten Schritt das Gespräch beendet wird, wenn die Antwortinhalte von dem Gesprächspartner nicht erhalten werden, selbst wenn eine Mitteilung, um den Gesprächspartner anzuhalten, die Antwortinhalte zu geben, eine festgelegte Anzahl von Malen erstellt wird, in einem Fall, in dem die Verfolgung im ersten Schritt scheitert und die Gesprächsinhalte des Gesprächspartners nicht dieselben wie die vorausgesagten Antwortinhalte sind.
Sprachkommunikationsverfahren gemäß Anspruch 10, worin im zweiten Schritt eine Mitteilung erstellt wird, um den Gesprächspartner anzuhalten, die Antwortinhalte zu geben, wenn die Sprache des Gesprächspartners für eine festgelegte Zeitdauer nicht erhalten wird.
Sprachkommunikationsverfahren gemäß Anspruch 9, worin im ersten Schritt das Vorhandensein des Gesprächspartners basierend auf einer bestimmten Kombination des Spracherkennungsergebnisses, des Bilderkennungsergebnisses und eines Berührungserkennungsergebnisses, das durch Erkennung von Berührungen des Gesprächspartners erhalten wird, verfolgt wird.
Sprachkommunikationsverfahren gemäß Anspruch 12, worin im zweiten Schritt das Gespräch fortgesetzt wird, wenn eine Berührung des Gesprächspartners als Berührungserkennungsergebnis bestätigt wird, selbst wenn die Verfolgung im ersten Schritt scheitert.
Sprachkommunikationsverfahren gemäß Anspruch 12, worin im zweiten Schritt das Gespräch fortgesetzt wird, wenn eine Berührung des Gesprächspartners als Berührungserkennungsergebnis bestätigt wird, nachdem eine Mitteilung erstellt wird, um den Gesprächspartner zu bitten, das Berührungserkennungsmittel zu berühren, kurz bevor das Gespräch beendet würde, selbst wenn die Antwortinhalte nicht von dem Gesprächspartner erhalten werden, nachdem eine Mitteilung, um den Gesprächspartner anzuhalten, die Antwortinhalte zu geben, eine festgelegte Anzahl von Malen erstellt wurde, in dem Fall, in dem die Verfolgung im ersten Schritt scheitert und die Gesprächsinhalte des Gesprächspartners nicht dieselben wie die vorausgesagten Antwortinhalte sind.
Sprachkommunikationsverfahren gemäß einem der Ansprüche 9 bis 14, durch den Schritt gekennzeichnet, die Identität des Gesprächspartners automatisch durch Vergleichen erkannter Gesprächsinhalte gesprochener Antworten, die von dem Gesprächspartner empfangen wurden, mit Profildaten aus einer Anzahl registrierter Persönlichkeitsprofile von Gesprächspartnern, die in einer Profildatenbank gespeichert sind, zu erkennen und Übereinstimmungen dieser erkannten Gesprächsinhalte mit diesen Profildaten festzustellen.