DE60215296T2

DE60215296T2 - Verfahren und Vorrichtung zum Sprachsyntheseprogramm, Aufzeichnungsmedium, Verfahren und Vorrichtung zur Erzeugung einer Zwangsinformation und Robotereinrichtung

Info

Publication number: DE60215296T2
Application number: DE60215296T
Authority: DE
Inventors: Erika Shinagawa-ku Kobayashi; Kenichiro Shinagawa-ku Kobayashi; Toshiyuki Shinagawa-ku Kumakura; Nobuhide Shinagawa-ku Yamazaki; Makoto Shinagawa-ku Akabane; Tomoaki Shinagawa-ku Nitta; Pierre-Yves Oudeyer
Original assignee: Sony France SA; Sony Corp
Current assignee: Sony France SA; Sony Corp
Priority date: 2002-03-15
Filing date: 2002-03-15
Publication date: 2007-04-05
Anticipated expiration: 2022-03-16
Also published as: KR20030074473A; US20040019484A1; JP2003271174A; EP1345207B1; US7412390B2; DE60215296D1; EP1345207A1

Description

Hintergrund der Erfindung
Gebiet der Erfindung
Die vorliegende Erfindung bezieht sich auf ein Verfahren und eine Vorrichtung zur Sprachsynthese, auf ein Programm, ein Aufzeichnungsmedium zum Empfangen von Information bezüglich der Emotion, um die Sprache künstlich aufzubauen, auf ein Verfahren und eine Vorrichtung zum Erzeugen von Randbedingungsinformation und eine Robotervorrichtung zum Ausgeben der Sprache.
Beschreibung des Standes der Technik
Eine mechanische Vorrichtung zum Durchführen von Bewegungen, welche die Bewegung eines Menschen simuliert, welche elektrische oder magnetische Betätigung verwendet, wird als "Roboter" bezeichnet. Man begann damit, Roboter in diesem Land in Richtung dem Ende der 60iger Jahre verbreitet zu verwenden. Die meisten verwendeten Roboter waren industrielle Roboter, beispielsweise Manipulatoren oder Transportroboter, die Automatisierung oder unbemannte Arbeiten in Fabriken bezweckt hatten.
Seit einiger Zeit machen Entwicklungen bei praktischer Verwendung von Robotern, welche das menschliche Leben als Partner für das menschliche Dasein unterstützen, d.h., welche menschliche Aktivitäten in verschiedenen Gesichtspunkten des täglichen Lebens unterstützen, Fortschritte. Im Unterschied zu industriellen Roboter haben diese nützlichen Roboter die Fähigkeit, Verfahren zur Adaption in Bezug auf den Menschen mit unterschiedlicher Persönlichkeit oder bei verschiedenen Umgebungen unter verschiedenen Gesichtspunkten der menschlichen Lebensumgebung zu lernen. Beispielsweise finden sich ein haustierähnlicher Roboter, der den Körpermechanismus von Tieren simuliert, welche auf vier Füßen laufen, beispielsweise Hunde oder Katzen, oder ein "Menschen"-Roboter, der nach dem körperlichen Mechanismus oder Bewegungen des Menschen entworfen ist, der auf zwei Füßen läuft, schon in praktischer Verwendung.
Diese Roboter können verschiedene Tätigkeiten durchführen, die hauptsächlich auf Unterhaltungen im Vergleich zu industriellen Robotern zielen und werden manchmal daher als Unterhaltungsroboter bezeichnet. Einige dieser Robotervorrichtungen arbeiten als Antwort auf die Information von außerhalb oder auf ihre internen Zuständen autonom.
Die künstliche Intelligenz (AI), welche bei diesen autonom-arbeitenden Robotern genutzt wird, zeigt künstliche Realisierung von intellektuellen Funktionen, beispielsweise Eingreifen oder Beurteilung. Es wurden außerdem Versuche durchgeführt, die Funktionen künstlich zu realisieren, beispielsweise Bewegung oder Instinkte. Als Beispiel der akustischen Einrichtung ist unter den Einrichtungen zum Ausdrücken der künstlichen Intelligenz nach außen einschließlich der visuellen Einrichtung die Verwendung von Sprache.
Beispielsweise ist bei der Robotervorrichtung, die den Menschen, Hunde oder Katzen simuliert, die Funktion, um sich auf die eigene Bewegung des menschlichen Benutzers unter Verwendung der Sprache zu berufen, effektiv. Der Grund dafür ist der, dass, sogar, wenn der Benutzer nicht in der Lage ist, zu verstehen, was tatsächliche durch Hunde oder Katzen gesagt wird, er in der Lage ist, empirisch den Zustand des Hunds oder der Katze zu verstehen, und dass eines der Elemente bei Beurteilung die Sprache des Haustiers ist. Im Fall eines menschlichen Wesens wird die Emotion der Person, welche die Sprache geäußert hat, auf Basis der Bedeutung oder des Inhalts des Worts oder der geäußerten Sprache beurteilt.
Unter den Robotervorrichtungen, die nunmehr auf dem Markt sind, ist eine Vorrichtung bekannt, welche die Höremotion durch elektronischen Ton zum Ausdruck bringt. Insbesondere zeigt ein kurzer Ton mit einer hohen Tonhöhe Zufriedenheit, während der niedrige Ton Traurigkeit zeigt. Diese elektronischen Töne sind vorkomponiert und in verschiedene Emotionsklassen sortiert, um somit zur Reproduktion auf Basis der subjektiven Denkart des Menschen verwendet zu werden. Die Emotionsklasse ist die Klasse von Emotion, welche unter Zufriedenheit, Ärger usw. klassifiziert ist. Bei üblicher Höremotionsdarstellung werden, bei der elektronischer Ton verwendet wird, beispielsweise Punkte wie

(i) Monotonie;
(ii) Wiederholung des gleichen Ausdrucks; und
(iii) Unbestimmtheit, ob die Leistung des Ausdrucks genau ist,

In der Beschreibung und den Zeichnungen der japanischen Patentanmeldung 2000-372091 schlug die Anmelderin ein Verfahren vor, welches es einer autonomen Roboter vorrichtung ermöglicht, den Hörbewegungsausdruck näher an den von menschlichen Wesen zu bringen. In diesem Verfahren wurde zunächst eine Tabelle vorbereitet, welche bestimmte Parameter zeigt, beispielsweise die Tonhöhe, die Zeitdauer und das Klangvolumen (Intensität) von zumindest einem Teil von Phonemen zeigt, welche im Satz oder in der Tongruppe, die zu synthetisieren ist, enthalten sind, in Verbindung mit der Emotion, beispielsweise Glücklichkeit oder Ärger. Die Tabelle wird in Abhängigkeit von der Bewegung des Roboters umgeschaltet, wenn verifiziert wird, um Sprachsynthese auszuführen, um Äußerungen zu erzeugen, welche die Bewegung zeigen. Durch den Roboter, der die so erzeugten nichtsensiblen Äußerungen äußert, der auf die Emotionsdarstellung abgestimmt ist, ist der Mensch in der Lage, über die Bewegung, welche über Unterhaltung durch den Roboter mitgeteilt wird, informiert zu werden, selbst wenn der Inhalt der geäußerten Äußerungen durch den Roboter nicht ziemlich deutlich ist.
Das Verfahren, welches in der Beschreibung und in den Zeichnungen der japanischen Patentanmeldung 2000-372091 offenbart ist, setzt jedoch den Roboter voraus, der keine Empfindungsäußerungen macht. Daher stellen sich verschiedene Schwierigkeiten, wenn das obige Verfahren bei einer Robotervorrichtung angewandt wird, welche den Menschen simuliert und welche die Funktion hat, wichtige künstliche Sprache einer speziellen Sprache auszugeben.
Das heißt, wenn die Emotion den Nicht-Empfindungs-Äußerungen zugefügt wird, gibt es keine bestimmte Randbedingung, die von einer speziellen Sprache auf die andere auferlegt wird, beispielsweise, bis zu welchem Bereich des Ausgangstons eine Änderung durchzuführen ist. Somit kann der Bereich des Ausgangstons auf Basis der Wahrscheinlichkeit oder der Position im Satz identifiziert werden. Wenn jedoch das gleiche Verfahren auf Emotions-Synthese eines bedeutungsvollen Satzes angewandt wird, ist es nicht klar, welcher Bereich des Satzes, der künstlich herzustellen ist, zu modifizieren ist, oder wie der Bereich, der nicht geändert werden darf, zu bestimmen ist. Als Folge wird davon die Prosodie, welche wesentlich dem Übertragen der Sprachinformation anhaftet, geändert, so dass die Bedeutung kaum übertragen werden kann, oder die Bedeutung, welche gegenüber der ursprünglichen Bedeutung verschieden ist, dem Hörer mitgeteilt wird.
Der Fall, einen Versuch zum Ändern der Tonhöhe zu verwenden, wird als Beispiel zur Erläuterung verwendet. Japanisch ist eine Sprache, welche den Tonfall bzw. die Betonung (Akzent) auf Basis der Tonhöhe der Sprache ausdrückt. Anders ausgedrückt wird die Akzentposition bestimmt, so dass die Akzentposition, wie durch einen japanischen einheimischen Sprecher erwartet wird, von einem bestimmten Satz ungefähr bestimmt wird. Wenn daher die Tonhöhe eines Phonems unter Verwendung des Versuchs des Ausdrückens der Emotion geändert wird, indem die Tonhöhe geändert wird, ist die Gefahr groß, dass die resultierende künstlich aufgebaute Sprache zu einem fremden Gefühl für den japanischen einheimischen Sprecher führt.
Es besteht auch eine Möglichkeit, dass nicht nur eine fremde Emotion übertragen wird, sondern auch, dass die Bedeutung nicht übertragen wird. Im Fall eines Worts "hashi" was bedeutet "chopstick (Essstäbchen)", "bridge (Brücke)" oder "end (Ende)", kann der Zuhörer "chopstick", "bridge", oder "end" auf der Basis davon unterscheiden, ob der Ton von "ha" höher oder niedriger ist als der Ton von "shi". Wenn folglich die Emotion auf Basis der relativen Tonhöhe ausgedrückt wird, wird die relative Tonhöhe des Aussprachebereichs, die bei der Bedeutungsunterscheidung in der Sprache wesentlich ist, welche künstlich aufzubauen ist, geändert, und der Zuhörer ist nicht in der Lage, die Bedeutung korrekt zu verstehen.
Das gleiche gilt für den Fall, wo ein Versuch gemacht wird, die Zeitdauer zu ändern. Wenn beispielsweise beim künstlichen Aufbauen des Worts "Oka-san", was Mr.Oka bedeutet, die Dauer des Phonems "a" eines Tons "ka" so geändert wird, dass dieser länger ist als die Dauer der anderen Phoneme, kann der Hörer die ausgegebene synthetisierte Sprache als "Okaasan" (Bedeutung: meine Mutter) annehmen.
Die japanische Sprache ist keine Sprache, welche die Bedeutung auf Basis der relativen Intensität des Tons unterscheidet, und folglich führen Änderungen in der Tonintensität kaum zu unklarer Bedeutung. In einer Sprache, bei der die relative Intensität des Tons zu unterschiedlichen Bedeutungen führt, wie im Englische, wird die relative Tonintensität dazu verwendet, Wörter mit dem gleichen Buchstaben, jedoch nicht unterschiedlichen Bedeutungen zu unterscheiden, wodurch folglich die Situation auftreten kann, dass die Bedeutung nicht korrekt übertragen wird. Im Fall beispielsweise eines Worts "present (anwesend)" ergibt die Betonung in der ersten Silbe ein Hauptwort, welches "gilt (Geschenk)" bedeutet, während die Betonung in der zweiten Silbe ein Verb ergibt, welches "offer (anbieten)" oder "present oneself (selbst anwesend)" ergibt.
Wenn die Sprache für einen wichtigen Satz künstlich herzustellen ist, angepasst an die Emotion, besteht die Gefahr, dass, mit Ausnahme, wenn die Steuerung so gemacht wird, dass das prosodische Kennzeichen der Infragestehenden Sprache, beispielsweise Akzentpositionen, Dauer oder Lautstärke beibehalten werden, der Hörer nicht in der Lage ist, die Bedeutung der künstlich hergestellten Sprache korrekt zu verstehen.
Eine Sprachverarbeitungseinrichtung und ein Verfahren, welches in der EP-A 1 107 227 offenbart ist, ist angepasst, auf die Basis des Zustands des Roboters, mit dem dieses verknüpft ist, zu reagieren. Üblicherweise werden die Phonem-Information und Tonhöheninformation, und möglicherweise Sprachgeschwindigkeit oder Volumen als eine Funktion des Handlungszustands, der Emotionen oder Instinkte des Roboters gesteuert. Wo beispielsweise die künstliche Äußerung "What is it (was ist das)?" für den Roboter programmiert werden kann, wenn beabsichtigt ist, ärgerlich zu sein, würde die künstliche Äußerung "Yeah, what?" anstelle davon programmiert, wenn der Roboter einen ärgerlichen Zustand simuliert.
Überblick über die Erfindung
Es ist folglich eine Aufgabe der vorliegenden Erfindung, ein Verfahren und eine Vorrichtung zur Sprachsynthese, ein Programm, ein Aufzeichnungsmedium, ein Verfahren und eine Vorrichtung zum Erzeugen Randbedingungsinformation und eine Robotervorrichtung bereitzustellen, wobei die Emotion der künstlich erzeugten Sprache hinzugefügt wird, wenn die prosodischen Kenndaten der in frage stehenden Sprache beibehalten werden.
Der Patentanspruch 14 definiert ein Sprachsyntheseverfahren nach der Erfindung.
Bei diesem Sprachsyntheseverfahren wird die geäußerte Sprache auf Basis der Parameter der prosodischen Daten künstlich hergestellt, welche in Abhängigkeit von der Information in Bezug auf die Emotion modifiziert werden. Da außerdem die Randbedingungsinformation zum Beibehalten des prosodischen Gesichtspunkts des geäußerten Texts bei Änderung der Parameter in Betracht gezogen wird, wird der geäußerte Sprachinhalt als Ergebnis der Parameteränderungen nicht geändert.
Der Patentanspruch 27 definiert ein weiteres Sprachsyntheseverfahren nach der Erfindung.
Damit kann die geäußerte Sprache auf Basis der Parameter der prosodischen Daten künstlich aufgebaut werden, welche in Abhängigkeit von der Information in Bezug auf die Emotion geändert werden. Da die Randbedingungsinformation zum Beibehalten des prosodischen Merkmals des geäußerten Texts in dieser Weise beim Ändern der Parameter in Betracht gezogen wird, wird der geäußerte Sprachinhalt beispielsweise nicht als Ergebnis der Parameteränderungen geändert.
Bei diesem Sprachsyntheseverfahren werden die prosodischen Daten, welche auf dem geäußerten Text basieren, und die Randbedingungsinformation zum Beibehalten der prosodischen Merkmale des geäußerten Texts zugeführt, und die geäußerte Sprache wird als Antwort auf den Emotionszustand des Emotionsmodells der Randbedingungsinformation auf Basis der Parameter der prosodischen Daten, welche im Licht der Randbedingungsinformation geändert werden, künstlich hergestellt. Da die Randbedingungsinformation beim Ändern der Parameter in Betracht gezogen wird, besteht keine Gefahr, dass der geäußerte Inhalt durch Änderungen der Parameter geändert wird.
Bei einem anderen Merkmal liefert die vorliegende Erfindung eine Sprachsynthesevorrichtung nach Patentanspruch 35.
Damit kann die geäußerte Sprache auf Basis der Parameter der prosodischen Daten künstlich hergestellt werden, welche als Antwort auf die Information in Bezug auf die Emotion geändert werden. Da weiter die Randbedingungsinformation zum Beibehalten des prosodischen Merkmals des geäußerten Texts beim Ändern der Parameter in betracht gezogen wird, wird der äußerte Inhalt beispielsweise als Ergebnis der Änderung der Parameter nicht geändert.
Bei einem noch weiteren Merkmal liefert die vorliegende Erfindung eine Sprachsynthesevorrichtung nach Anspruch 48.
Bei dieser Sprachsyntheseeinrichtung werden die prosodischen Daten, welche auf dem geäußerten Text basieren, und die Steuerinformation zum Aufrechterhalten des prosodischen Merkmals des geäußerten Texts zugeführt, und die geäußerte Sprache wird künstlich hergestellt, als Antwort auf die Information bezüglich der Emotion auf Basis der Parameter der prosodischen Daten, welche im Licht der Randbedingungsinformation geändert wurden. Da die Randbedingungsinformation beim Ändern der Parameter in Betracht gezogen wird, wird der geäußerte Inhalt bei Änderungen der Parameter nicht geändert.
Das Programm gemäß der vorliegenden Erfindung bewirkt, dass der Computer die oben beschriebene Sprachsyntheseverarbeitung ausführt, wobei der Aufzeichnungsträger nach der vorliegenden Erfindung dieses Programm hat, welches auf diesem aufgezeichnet ist und welches durch den Computer gelesen werden kann.
Mit dem Programm oder dem Aufzeichnungsträger kann die geäußerte Sprache auf Basis der Parameter der prosodischen Daten künstlich hergestellt werden, welche in Abhängigkeit vom Emotionszustand des Emotionsmodells der Sprachäußerungseinrichtung geändert werden. Beim Ändern der Parameter wird außerdem der geäußerte Inhalt durch diese Änderungen in den Parametern nicht geändert, da die Randbedingungsinformation zum Beibehalten des prosodischen Merkmals des geäußerten Texts in Betracht gezogen wird.
Bei einem noch weiteren Merkmal liefert die vorliegende Erfindung ein Verfahren zum Erzeugen der Randbedingungsinformation nach Patentanspruch 1. Somit wird mit dem vorliegenden Steuerungserzeugungsverfahren der geäußerte Inhalt bei Änderungen der Parameter nicht geändert.
Das heißt, da die Randbedingungsinformation zum Beibehalten des prosodischen Merkmals des geänderten Texts erzeugt wird, wenn die Parameter der prosodischen Daten gemäß der Parameteränderungs-Steuerinformation geändert werden, besteht keine Gefahr von Änderungen im geäußerten Inhalt, der durch die Änderungen der Parameter bewirkt wird.
Bei einem noch weiteren Merkmal stellt die vorliegende Erfindung eine Vorrichtung zum Erzeugen der Randbedingungsinformation nach Anspruch 32 bereit.
Bei der oben beschriebenen Vorrichtung zum Erzeugen der Randbedingungsinformation, bei der die Randbedingungsinformation zum Beibehalten des prosodischen Merkmals des geäußerten Textes erzeugt wird, wenn die Parameter der prosodischen Daten gemäß der Parameteränderungs-Steuerinformation geändert werden, wird der geäußerte Sprachinhalt als Ergebnis der Änderungen der Parameter nicht geändert.
Bei einem noch weiteren Merkmal liefert die vorliegende Erfindung eine autonome Robotervorrichtung, welche eine Bewegung auf Basis der zugeführten Information nach Anspruch 36 durchführt.
Die oben beschriebene Robotervorrichtung synthetisiert die Sprache auf Basis der Parameter der prosodischen Daten, welche im Einklang mit dem Emotionszustand des Emotionsmodells geändert werden. Da die Randbedingungsinformation zum Beibehalten des prosodischen Merkmals des geäußerten Texts beim Ändern der Parameter betrachtet wird, wird der geäußerte Inhalt aufgrund Änderungen der Parameter nicht geändert.
Bei einem noch weiteren Merkmal liefert die vorliegende Erfindung eine autonome Robotervorrichtung, welche eine Bewegung auf Basis der zugeführten Information gemäß Anspruch 50 durchführ.
In der oben beschriebenen Robotervorrichtung werden die prosodischen Daten, welche auf dem geäußerten Text basieren, und die Steuerinformation zum Halten des prosodischen Merkmals des geäußerten Texts zugeführt, und die geäußerte Sprache wird als Antwort auf den Emotionszustand, der durch die Unterscheidungseinrichtung unterschieden wird, auf Basis der Parameter der prosodischen Daten, welche im Licht der Randbedingungsinformation geändert werden, synthetisiert. Da die Randbedingungsinformation beim Ändern der Parameter in betracht gezogen wird, wird der geäußerte Inhalt bei Änderungen der Parameter nicht geändert.
Bevor damit fortgefahren wird, die vorliegenden Ausführungsformen der Sprachsynthese-Verfahren und die Vorrichtung und die Robotervorrichtung gemäß der vorliegenden Erfindung zu beschreiben, wird der Emotionsausdruck durch passende Sprache erläutert.
(1) Emotionsausdruck durch Sprache
Die Hinzufügung der Emotionsausdrucks zur geäußerten Sprache als Funktion beispielsweise bei einer Robotervorrichtung, bei der der Mensch simuliert wird, und welche die Funktionen zum Ausgeben einer bedeutungsvollen synthetisierten Sprache hat, arbeitet äußerst effektiv, wenn die Intimität zwischen der Robotervorrichtung und dem Menschen gefördert wird. Dies kann in vielen Phasen wohltuend sein, abgesehen von der Phase, die Geselligkeit zu fördern. Das heißt, wenn die Emotionen, beispielsweise Zufriedenheit oder Nichtzufriedenheit der synthetisierten Sprache hinzugefügt werden, mit im übrigen der gleichen Bedeutung und Inhalt, kann die eigene Emotion definitiver offenbart werden, so dass die Robotervorrichtung in einer Position ist, Anregungen vom Menschen anzufordern. Diese Funktion arbeitet für eine Robotervorrichtung effektiv, welche die Lernfunktion besitzt.
Wie für das Problem, ob die Emotion des Menschen auf akustische Kenndaten der Sprache bezogen ist, gibt es viele Berichte durch viele Forscher. Beispiele sind ein Bericht von Fairbanks (Fairbanks G., "Recent experimental investigations of vocal pitch in speech", Journal of the Acoustical Society of America (11), 457 bis 466, 1940) und ein Bericht von Burkhardt (Burkhardt F. und Sendlmeier W.F., "Verification of Acoustic Correlates of Emotional Speech using Formant Synthesis", ISGA Workshop on Speech and Emotion, Belfast 2000).
Diese Berichte zeigen, dass die Sprachäußerung auf psychologische Bedingungen und mehrere emotionale Klassen bezogen ist. Es gibt außerdem einen Bericht, dass es schwierig ist, einen Unterschied in Bezug auf spezifizierte Emotionen zu finden, beispielsweise eine Überraschung, Gefahr, Langweile oder Traurigkeit. Es gibt auch eine solche Emotion, die mit einem bestimmten realen Zustand verknüpft ist, so dass ein schnell vorhersagbarer Effekt in Bezug auf die geäußerte Sprache bewirkt wird.
Wenn beispielsweise eine Person Ärger, Gefahr oder Zufriedenheit fühlt, regt dieses das Sympathikussystem an, so dass die Anzahl an Herzschlägen oder der Blutdruck erhöht wird, während sie sich im Mund trocken fühlt und Muskelzittern hat. In einem solchen Zeitpunkt ist die Äußerung laut und schnell, wobei eine starke Energie sich in hohen Frequenzkomponenten zeigt. Wenn eine Person sich als gelangweilt oder traurig fühlt, wird deren Parasympathikus-System angeregt. Die Anzahl der Herzschläge oder der Blutdruck dieser Person wird abgesenkt und Speicherflüssigkeit wird ausgeschieden. Das Ergebnis ist eine langsame und niedrige Tonhöhe. Da diese realen Merkmale vielen Nationen gemeinsam sind, wird angenommen, dass diese Entsprechungen nicht durch Rasse und Kultur beeinflusst werden, um zwischen der Basisemotion und akustischen Charakteristiken der geäußerten Sprache zu existieren.
Folglich wird bei den Ausführungsformen der vorliegenden Erfindung die Korrelation zwischen der Emotion und der akustischen Charakteristik als Modell ausgebildet und die Sprachäußerung auf der Basis dieser akustischen Charakteristik ausgeführt, um die Emotion in der Sprache zum Ausdruck zu bringen. Außerdem wird bei den vorliegenden Ausführungsformen die Emotion dadurch zum Ausdruck gebracht, dass diese Parameter wie Zeitdauer, Tonhöhe oder Klangvolumen (Tonintensität) in Abhängigkeit von der Emotion geändert werden. In diesem Zeitpunkt wird die Randbedingungsinformation, welche nachfolgend erläutert wird, den geänderten Parametern hinzugefügt, so dass die prosodischen Kenndaten der Sprache des Texts, der künstlich aufzubauen ist, beibehalten wird, so dass keine Änderungen im geäußerten Sprachinhalt durchgeführt werden.
Kurzbeschreibung der Zeichnungen
Die obigen und weiteren Aufgaben, Merkmale und Vorteile der vorliegenden Erfindung werden aus der folgenden Beschreibung der bevorzugten Ausführungsformen, die als Beispiele angegeben werden, unter Bezug auf die begleitenden Zeichnungen deutlich, in denen:
1 einen Grundaufbau eines Sprachsyntheseverfahrens bei einer vorliegenden Ausführungsform der vorliegenden Erfindung zeigt;
2 ein Schema des Sprachsyntheseverfahrens zeigt;
3 die Beziehung zwischen der Dauer jedes Phonems und der Tonhöhe zeigt;
4 die Beziehung unter den Emotionsklassen in einer charakteristischen Ebene oder einer operativen Ebene zeigt;
5 eine perspektivische Ansicht ist, welche die Erscheinungsform der Robotervorrichtung zeigt;
6 ein Freiheitsgrad-Bildungsmodell der Robotervorrichtung schematisch zeigt;
7 ein Blockdiagramm ist, welches eine Schaltungsstruktur der Robotervorrichtung zeigt;
8 ein Blockdiagramm ist, welches den Software-Aufbau der Robotervorrichtung zeigt:
9 ein Blockdiagramm ist, welches den Aufbau einer Middleware-Ebene in der Software-Struktur der Robotervorrichtung zeigt;
10 ein Blockdiagramm ist, welches den Aufbau der Anwendungsebene in der Software-Struktur der Robotervorrichtung zeigt;
11 ein Blockdiagramm ist, welches den Aufbau einer Verhaltensmodellbibliothek der Anwendungsebene zeigt;
12 ein endliches Wahrscheinlichkeitsautonom als Information zum Bestimmen des Verhaltens der Robotervorrichtung zeigt;
13 ein Übergangsstatusdiagramm zeigt, welches für jeden Knoten des endlichen Wahrscheinlichkeitsautonoms vorgesehen ist; und
14 ein Übergangsstatusdiagramm für ein Sprachäußerungsverhaltensmodell zeigt.
Beschreibung der bevorzugten Ausführungsformen
Mit Bezug auf die Zeichnungen werden bevorzugte Ausführungsformen der vorliegenden Erfindung ausführlich erläutert.
1 zeigt ein Flussdiagramm, welches die Basisstruktur des Sprachsyntheseverfahrens bei der vorliegenden Ausführungsform zeigt. Obwohl angenommen wird, dass das Verfahren beispielsweise bei einer Robotervorrichtung angewandt wird, welche zumindest das Emotionsmodell, die Sprachsyntheseeinrichtung, die Sprachäußerungseinrichtung hat, ist dies lediglich beispielhaft, so dass die Anwendung für verschiedene Roboter oder verschiedene Computer AI (künstliche Intelligenz) ebenfalls möglich ist. Das Emotionsmodell wird nachfolgend erläutert. Obwohl sich die folgende Erläuterung auf die Synthese japanischer Wörter oder Sätze richtet, ist dies wiederum lediglich beispielhaft, so dass die Anwendung für verschiedene andere Sprachen ebenfalls möglich ist.
In einem ersten Schritt S1 in 1 wird der Emotionszustand des Emotionsmodells der sprechenden Einheit unterschieden. Insbesondere wird der Zustand des Emotionsmodells (Emotionsbedingung) in Abhängigkeit von den Umgebungsbedingungen (externen Faktoren) oder internen Zuständen (internen Faktoren) geändert. Wie für die Emotionszustände wird unterschieden, welches von Ruhe, Ärger, Traurigkeit, Glücklichkeit und Komfort die vorherrschende Emotion ist.
Eine Robotervorrichtung hat – als Verhaltensmodell – ein internes Wahrscheinlichkeitszustands-Übergangsmodell, beispielsweise ein Modell, welches ein Zustandsübergangsdiagramm hat, wie später erläutert wird. Jeder Zustand hat eine Übergangswahrscheinlichkeitstabelle, welche sich mit Ergebnissen der Erkennung, der Emotion oder des Instinktwerts unterscheidet, so dass ein Übergang auf den nächsten Zustand gemäß der Wahrscheinlichkeit auftritt und das Verhalten in Bezug auf diesem Übergang ausgegeben wird.
Das Verhalten zum Ausdrücken der Glücklichkeit oder Traurigkeit durch die Bewegung wird in diesem Wahrscheinlichkeitszustands-Übergangsmodell oder der Wahrscheinlichkeitsübergangstabelle festgelegt. Typisch für dieses Ausdrucksverhalten ist die Emotionsdarstellung durch die Sprache (durch Sprachäußerung). So ist in diesem spezifizierten Beispiel der Bewegungsausdruck eines der Elemente des Verhaltens, welches durch das Verhaltensmodell bestimmt wird, wobei auf die Parameter bezuggenommen wird, die den Emotionszustand des Emotionsmodells darstellen, und die Emotionszustände werden als Teil der Funktionen der Verhaltensentscheidungseinheit unterschieden.
Dieses spezifizierte Beispiel wird lediglich zur Darstellung angegeben, so dass im Schritt S1 es lediglich ausreichend ist, den Emotionszustand des Emotionsmodells zu unterscheiden. In den nachfolgenden Schritten wird diese Sprachsynthese ausgeführt, welche den unterschiedenen Emotionszustand durch Sprache zeigt.
Im Schritt S2 werden prosodische Daten, welche die Dauer, die Tonhöhe und die Lautstärke des in Frage stehenden Phonems zeigt, durch statistische Verfahren vorbereitet, beispielsweise Quantifizierungsklasse 1, unter Verwendung der Information beispielsweise Akzentarten, welche aus der Folge von Aussprachesymbole extrahiert werden, Anzahl von Akzentsätzen im Satz, Positionen der Akzente im Satz, Anzahl von Phonemen in den Akzentsätzen oder der Arten von Phonemen.
Im nächsten Schritt S3 wird die Randbedingungsinformation erzeugt, welche Beschränkungen bezüglich der Änderung in den Parametern der prosodischen Daten auferlegt, auf Basis der Information, beispielsweise der Akzentposition in der Folge von Aussprachemarkierungen oder Wortgrenzen, falls der Inhalt aufgrund der Änderungen von Akzenten nicht verständlich wird.
Im nächsten Schritt S4 werden die Parameter der prosodischen Daten in Abhängigkeit von den Verifikationsergebnissen der Emotionszustände im obigen Schritt S1 geändert. Die Parameter der prosodischen Daten bedeuten die Dauer, die Tonhöhe oder das Klangvolumen der Phoneme. Diese Parameter werden in Abhängigkeit von den Unterscheidungsergebnissen des Emotionszustands geändert, beispielsweise der Ruhe, des Ärgers, der Traurigkeit, der Glücklichkeit oder des Komforts, um Emotionsausdrücke zu bilden.
Schließlich wird im Schritt S5 die Sprache gemäß den Parametern, welche im Schritt S4 geändert wurden, synthetisiert. Die so erzeugten Sprachschwingungsformdaten werden über einen D/A-Umsetzer oder einen Verstärker zu einem Lautsprecher gesendet, um so als aktuelle Sprache geäußert zu werden. Beispielsweise wird im Fall einer Robotervorrichtung diese Verarbeitung durch einen sogenannten virtuellen Roboter ausgeführt, so dass ein Lautsprecher Äußerungen tätigt, beispielsweise, um eine vorherrschende Emotion zum Ausdruck zu bringen.
(1-2) Struktur der Sprachsyntheseeinrichtung
2 zeigt ein Schema einer Sprachsyntheseeinrichtung 200 der vorliegenden Ausführungsform. Die Sprachsyntheseeinrichtung 200 ist als Text-Sprach-Syntheseeinrichtung ausgebildet, welche aus einem Sprachprozessor 201, einer prosodischen Datenerzeugungseinheit 202, einer Randbedingungsinformations-Erzeugungseinheit 203, einem Emotionsfilter 204 und einer Schwingungsformerzeugungseinheit 205 besteht.
Der Sprachprozessor 201 wird mit dem Text versorgt, um eine Folge von Aussprachemarkierungen auszugeben. Als Sprachprozessor 201 kann ein Sprachprozessor einer bereits existierenden Sprachsyntheseeinrichtung verwendet werden. Beispielsweise analysiert der Sprachprozessor 201 den Textaufbau oder analysiert das Morphem auf Basis von Wörterbuchdaten und bereitet nachfolgend eine Folge von Aussprachesymbolen vor, welche aus Phonem-Reihen, Akzenten oder Unterbrechungen (Pausen) bestehen, unter Verwendung der Artikelinformation, um die Aussprachesymbolfolge zur prosodischen Datenerzeugungseinheit 202 zu leiten. Wenn insbesondere ein Text gelesen wird: " jaa, doosurebaiinosa", was bedeutet "dann, was kann ich tun ?", zugeführt wird, erzeugt der Sprachprozessor 201 beispielsweise eine Folge von Aussprachemarkierungen an [Ja=7aa„ dooo=7//sure=6ba//ii=3iinosa], um diese Folge von Aussprachemarkierungen zur prosodischen Datenerzeugungseinheit 202 zu leiten. Die Aussprachemarkierungen sind jedoch nicht auf dieses Beispiel begrenzt, so dass irgendwelche geeigneten standardisierten Symbole, beispielsweise IPA (Internationales phonetisches Alphabet) oder SAMPA (Speech Assessment Methodes Phonetic Alphabet) oder Symbole, die spezifisch durch einen Ausführenden entwickelt werden, verwendet werden können.
Die prosodische Datenerzeugungseinheit 202 erzeugt prosodische Daten auf Basis der Folge von Aussprachemarkierungen, welche durch den Sprachprozessor 201 geliefert werden, und leitet die derart vorbereiteten prosodischen Daten zur Randbedingungsinformations-Erzeugungseinheit 203. Als solche prosodische Datenerzeugungseinheit 202 kann eine prosodische Datenerzeugungseinheit der bereits existierenden Spracherzeugungseinheit verwendet werden. Als Beispiel erzeugt die prosodische Datenerzeugungseinheit 202 durch das statistische Verfahren, beispielsweise der Quantifikationsklasse 1 oder Verfahren durch Regeln die prosodischen Daten, welche die Dauer, die Tonhöhe und die Lautstärke des Phonems, welches in Frage steht, erzeugt, wobei die Information verwendet wird, beispielsweise die Akzentarten, welche aus der Folge von Aussprachemarkierungen, der Anzahl von Phone men im Akzentsatz oder der Art der Phoneme extrahiert werden. Im Fall des obigen beispielhaften Textes werden prosodische Daten, welche in der folgenden Tabelle gezeigt sind, erzeugt. Tabelle 1
In dieser Tabelle bedeutet "100" im Anschluss auf das Phonem "J" die Lautstärke oder das Klangvolumen (relative Intensität) des in Frage stehenden Phonems. Der Voreinstellungswert des Klangvolumens ist 100, wobei das Klangvolumen mit größer werdender Figur sich erhöht. Das nachfolgende "300" zeigt, dass die Zeitdauer des Phonems "J" 300 Proben beträgt. Das Nächste "0" und "441" zeigt, dass 441 Hz im Zeitpunkt von 75% der Probe der Dauer von 300 Abtastungen erreicht sind. Nachfolgende "75" und "441" zeigen die Frequenz bei 441 Hz in Zeitpunkt von 75% der Dauer von 300 Abtastungen. Obwohl die Anzahl von Abtastungen in dem vorliegenden Beispiel als eine Einheit der Zeitdauer verwendet wird, ist dies wiederum lediglich beispielhaft, so dass die Einheit der Zeitdauer "Millisekunden" ebenfalls verwendet werden kann.
Die Randbedingungs-Informationserzeugungseinheit 203, welche mit der Folge von Aussprachemarkierungen versorgt wird, ist so ausgebildet, Begrenzungen in Bezug auf die Änderungen der Parameter der prosodischen Daten aufzuerlegen, auf Basis der Informa tion bezüglich der Position der Akzente der Folge von Aussprachemarkierungen oder in Bezug auf die Wortgrenze, falls der Inhalt aufgrund beispielsweise von Änderungen im Akzent unverständlich werden sollte. Obwohl die Details der Randbedingungsinformation später ausführlich erläutert werden, wird die Information, welche die relative Intensität des in Frage stehenden Phonems zeigt, durch "1" oder "0" ausgedrückt. Dadurch können die oben erläuterten prosodischen Daten, wie in der folgenden Tabelle 2 gezeigt ist, umgeschrieben werden: Tabelle 2
Durch Hinzufügen der Randbedingungsinformation zu den prosodischen Daten auf diese Weise kann die Randbedingung auferlegt werden, falls die relative Tonhöhe des Phonems, welches mit "0" angemerkt ist, und die des Phonems, welche mit "1" angemerkt ist, beim Ändern der Parameter reserviert sein sollte. Die Randbedingungsinformation kann außerdem zum Emotionsfilter 204 gesendet werden, anstelle die Information zu den prosodischen Daten selbst hinzuzufügen.
Das Emotionsfilter 204, welches mit den prosodischen Daten versorgt wird, die mit der Randbedingungsinformation in der Randbedingungsinformations-Erzeugungseinheit 203 ergänzt sind, ändert die prosodischen Daten innerhalb der Randbedingung gemäß der Emotionsstatusinformation, die geliefert wird, und leitet die so geänderten prosodischen Daten zur Schwingungsformerzeugungseinheit 205.
Es sei angemerkt, dass die Emotionszustandsinformation die Information ist, welche den Emotionszustand des Emotionsmodells der Äußerungseinheit zeigt. Insbesondere spezifiziert die Emotionszustandsinformation einen oder mehrere der Zustände des Emotionsmodells (Emotionszustand), der als Antwort auf die Änderungsumgebung (externe Faktoren) oder den inneren Zustand (innere Faktoren) geändert wird, beispielsweise der Ruhe, Ärger, Traurigkeit, Glücklichkeit oder Komfort.
Im Fall der Robotervorrichtung wird die Information, welche den Emotionszustand zeigt, der wie oben beschrieben und unterschieden wird, zum Emotionsfilter 204 gesendet.
Das Emotionsfilter 204 spricht auf die zugeführte Emotionszustandsinformation an, um die Parameter der prosodischen Daten zu steuern. Insbesondere ist eine Kombinationstabelle von Parametern, welche den obigen entsprechenden Emotionen (Ruhe, Ärger, Traurigkeit, Glücklichkeit oder Ruhe) entsprechen, als Ausgangssignal vorbereitet und wird in Abhängigkeit von den aktuellen Emotionen umgeschaltet. Obwohl spezifische Beispiele als Tabellen später gezeigt sind, welche für entsprechende Emotionen vorgesehen sind, werden, wenn der Emotionszustand Ärger ist, werden die Parameter der obigen prosodischen Daten geändert, wie in der folgenden Tabelle 3 gezeigt ist. Tabelle 3
Wenn der Emotionszustand Ärger ist, werden das Klangvolumen und die Tonhöhe insgesamt vergrößert, wobei die Dauer jedes Phonems ebenfalls geändert wird, so dass die Äußerung, die gemacht wird, durch die Emotion von Ärger begleitet ist, wie in Tabelle 3 gezeigt ist.
Die Schwingungsformerzeugungseinheit 205 wird mit prosodischen Daten beliefert, die mit der Emotion im Emotionsfilter 204 ergänzt sind, um die Sprachschwingungsform auszugeben. Als derartige Schwingungsformerzeugungseinheit 205 kann eine Schwingungsformerzeugungseinheit einer bereits existierenden Sprachsyntheseeinrichtung verwendet werden. Insbesondere gewinnt die Schwingungsformerzeugungseinheit 205 aus der großen Menge von bereits aufgezeichneten Sprachdaten den Sprachdatenbereich, der eng an der Phonem-Sequenz ist, die Tonhöhe und das Klangvolumen, wenn möglich, um die abgerufenen Sprachdaten zu schneiden und aufzureihen, um die Sprachschwingungsformdaten zu bereiten.
Die Schwingungsformerzeugungseinheit 205 ist außerdem in der Lage, Sprachschwingungsformdaten zu bereiten, wobei ein stetiges Tonhöhenmuster durch beispielsweise Interpolation auf Basis der oben beschriebenen prosodischen Daten erlangt wird. 3 zeigt ein Beispiel eines stetigen Tonhöhenmusters in dem Fall der oben erwähnten prosodischen Daten. Aus Einfachheitsgründen zeigt 3 das stetige Tonhöhenmuster, welches die drei Phoneme zeigt, d.h., "J", "a" und "a". Obwohl nicht gezeigt kann das Klangvolumen auch stetig unter Verwendung von vorderen und hinteren Seitenwerten durch Interpolation gezeigt werden.
Die erzeugten Spracheschwingungsformdaten werden über den D/A-Umsetzer oder Verstärker zu einem Lautsprecher gesendet, von dem sie als reale Sprache emittiert werden.
Gemäß der oben beschriebenen grundsätzlichen Ausführungsform der vorliegenden Erfindung kann die Sprachäußerung mit Emotionsdarstellung durch Steuern der Parameter für Sprachsynthese ausgeführt werden, beispielsweise der Zeitdauer des Phonems, der Tonhöhe, des Tonvolumens usw. in Abhängigkeit von der Emotion in Verbindung mit körperlichen Zuständen. Durch Hinzufügen des Randbedingungszustands zu den Parametern, die zu ändern sind, kann die prosodische Charakteristik der in Frage stehenden Sprache beibehalten werden, um somit keine Änderungen im geäußerten Inhalt zu verursachen.
Die Sprachsyntheseeinrichtung 200 wurde als Textsprache-Syntheseeinrichtung erläutert, bei der der Text zugeführt wird und in eine Folge von Aussprachemarkierungen umgewandelt wird, bevor weitergegangen wird, prosodische Daten herzustellen. Dies ist jedoch lediglich beispielhaft, so dass die Sprachsyntheseeinrichtung auch als Regelsprach-Syntheseeinrichtung ausgebaut sein kann, welche mit einer Folge von Aussprachemarkierungen beliefert wird, um prosodische Daten vorzubereiten. Es ist auch möglich, prosodische Daten, welche mit der Randbedingungsinformation ergänzt sind, unmittelbar zuzuführen. In der Sprachsyntheseeinrichtung 200 ist die Randbedingungsinformations-Erzeugungseinheit 203 lediglich auf der stromabwärtigen Seite der prosodischen Datenerzeugungseinheit 202 vorgesehen. Dies ist jedoch nicht einschränkend, so dass die Randbedingungsinformations-Erzeugungseinheit 203 auch stromaufwärts von der prosodischen Datenerzeugungseinheit 202 vorgesehen sein kann.
(2) Algorithmus der Emotionsaddition
Der Algorithmus zum Hinzufügen der Emotion zu den prosodischen Daten wird ausführlich erläutert. Es sei angemerkt, dass die prosodischen Daten Daten sind, welche die Zeitdauer jedes Phonems, die Tonhöhe, das Klangvolumen usw., wie oben beschrieben zeigen, und beispielsweise wie in der folgenden Tabelle 4 gezeigt aufgebaut sein können: Tabelle 4
Es sei angemerkt, dass diese prosodischen Daten von dem Text gebildet werden, der gelesen wird: "Amewo totte", was bedeutet "nehme steife Sülze".
In der obigen Tabelle zeigt "100" im Anschluss an das Phonem "a" das Klangvolumen (relative Intensität) dieses Phonems. Der Voreinstellungswert des Klangvolumens ist 100, wobei das Klangvolumen mit ansteigender Figur ansteigt. Der Text, der folgt "114" zeigt, dass die Dauer des Phonems "a" 114ms beträgt, während der nächst folgende Text "2" und "87" zeigt, dass 87 Hz bei 2% der Zeitdauer von 114 ms erreicht wird. Das nächst folgende "79" und "89" zeigt, dass 89 Hz bei 79% der Dauer von 114 ms erreicht wird. Auf diese Weise kann die Gesamtheit der Phoneme dargestellt werden.
Wenn die prosodischen Daten bei Beibehalten der entsprechenden Emotionsdarstellungen geändert werden, kann der geäußerte Text auf den Emotionsausdruck abgestimmt werden. Insbesondere werden die Zeitdauer, die Tonhöhe, das Klangvolumen usw. als Parameter, welche die Persönlichkeiten oder Charakteristiken des Phonems zeigen, für den Bewegungsausdruck modifiziert.
(2-2) Erzeugen von Randbedingungsinformation
Im japanischen ist es entscheidend, welches Phonem betont werden soll. Im obigen Text, der gelesen wird: "Amewo totte" ist der Akzentkern bei der Position "to", wobei die Akzentart die sogenannte 1-Type ist. Dagegen ist die Akzent-Phrase "Amewo" die 0-Type, d.h., die flache Type, wo es Akzente bei keinem der Phoneme gibt. Wenn somit der Parameter zur Bewegungsdarstellung zu ändern ist, muss diese Akzent-Type beibehalten werden, wobei ansonsten die Bedeutung des Satzes nicht übertragen wird. Das heißt, es besteht eine Gefahr, dass "totte" ", was nimm bedeutet, als 1-Type bezüglich Intonation geändert wird, so dass dies für "totte" als 0-Type angenommen wird, was "handle" bedeutet, und dass "amewo" als die 0-Type, welche bedeutet " jelly starch" bezüglich Intonation geändert wird, so dass dies für "amewo" als 1-Type angenommen werden kann, was "rain" bedeutet.
Somit wird die Information, welche die relative Tonhöhe des Phonems zeigt, durch "1" und "0" dargestellt. Die obigen prosodischen Daten können dann wie in der folgenden Tabelle 5 gezeigt umgeschrieben werden: Tabelle 5
Durch Hinzufügen der Randbedingungsinformation zu den prosodischen Daten kann die Randbedingungsinformation hinzugefügt werden, wobei die Parameter geändert werden, so dass die relative Intensität des Phonems mit der Markierung "0" und die mit der Markierung "1" nicht ausgetauscht werden, so dass die so ist, dass die Akzentkernposition nicht geändert wird.
Es sei angemerkt, dass die Randbedingungsinformation zum Spezifizieren der Akzentkernposition nicht auf dieses Beispiel beschränkt ist und so formuliert werden kann, dass die Information, die zeigt, ob oder nicht das in Frage stehende Phonem akzentuiert werden soll, als "1" und "0" angezeigt wird, wobei das Phonem bezüglich der Tonhöhe zwischen "1" und anschließend "0" abgesenkt wird. In diesem Fall wird die obige Tabelle wie folgt umgeschrieben: Tabelle 6
Wenn die Zeitlänge des Phonems "o" im obigen Wort "totte" ist, was "take" bedeutet, kann sie inkorrekt als "tootte" übertragen werden, was "through" bedeutet. Damit kann die Information zum Unterscheiden des langen Vokals gegenüber dem kurzen Vokal den prosodischen Daten hinzugefügt werden.
Es sei angenommen, dass der Schwellenwert der Zeitdauer, der zum Unterscheiden des langen Vokals und des kurzen Vokals des Phonems "o" voneinander verwendet wird, 170 ms beträgt. Das heißt, das Phonem "o" wird so definiert, ein kurzer Vokal "o" zu sein, und ein langer Vokal "oo" für die Zeitdauer bis zu 170 ms bzw. für die Zeitdauer, welche 170 ms übersteigt.
In diesem Fall werden die prosodischen Daten zum Synthesieren eines Worts "tootte", was "through" bedeutet, so dargestellt, wie in der folgenden Tabelle 7 gezeigt ist: Tabelle 7
Wie aus dieser Tabelle 7 ersehen werden kann, ist die Zeitdauer des Phonems "o" charakteristisch verschieden gegenüber dem im Fall der prosodischen Daten "totte". Zusätzlich ist die Randbedingungsinformation hinzugefügt, dass die Zeitdauer des Phonems "o" 170 ms übersteigen muss.
Das Problem, ob einem bestimmten Phonem ein kurzer Vokal oder ein langer Vokal gegeben werden soll, stellt sich lediglich selbst, wenn der Unterschied beim Unterscheiden der Bedeutung wesentlich ist. Beispielsweise gibt keinen wesentlichen Unterschied beim Entscheiden bezüglich der Bedeutung zwischen "motto", was "more" bedeutet, wobei das Phonem "mo" ein kurzer Vokal ist, und "mootto", was ähnlich bedeutet "more", wobei das Phonem "moo" ein langer Vokal ist. Vielmehr kann die Emotion unter Verwendung von "motto" anstelle von "motto" ergänzt werden. Wenn somit die Zeitdauer zum Synthesieren von "motto" mit einer Sprechweise so schnell wie möglich, ohne einen Anstieg einer unwesentlichen Emotion zu ergeben, min ist, und die Zeitdauer zum Synthesieren von "mootto" max ist, kann der Bereich der Zeitdauer kann als Randbedingungsinformation hinzugefügt werden, wie in der folgenden Tabelle 8 gezeigt ist: Tabelle 8
Es sei angemerkt, dass die Randbedingungsinformation, welche den prosodischen Daten hinzuzufügen ist, nicht auf die oben beschriebene Ausführungsform beschränkt ist, so dass eine variierte Information hinzugefügt werden kann, die zum Beibehalten der prosodischen Charakteristik der in Frage stehenden Sprache notwendig ist.
Beispielsweise kann Randbedingungsinformation zum Beibehalten der Parameter der prosodischen Daten in einem Bereich, der die prosodischen Merkmale enthält, hinzugefügt werden. Außerdem kann eine Randbedingungsinformation zum Beibehalten der Größenrelation, der Differenz oder des Verhältnisses der Parameterwerte in dem Bereich, der die prosodischen Merkmale enthält, hinzugefügt werden. Außerdem kann Randbedingungsinformation zum Beibehalten des Parameterwerts in dem Bereich, der die prosodischen Merkmale innerhalb eines vorbestimmten Bereichs enthält, hinzugefügt werden.
Es ist außerdem möglich, die Randbedingungsinformations-Erzeugungseinheit stromaufwärts der prosodischen Datenerzeugungseinheit 202 vorzusehen, um die Randbedingungsinformation zur Folge der Aussprachemarkierungen hinzuzufügen. Wenn man den Fall von "haI" hernimmt, was die Folge der Aussprachemarkierungen eines Worts "hai" ist, gilt dies das gleiche für "hai", was "yes" bedeutet, was beim Antworten einer Benennung verwendet wird, oder beim Ausführen einer zustimmenden Antwort, und für "hai ?" was "yes ?" bedeutet, welches beim neuerlichen Anfragen und bei zum Ausdruck bringen einer ängstlichen Emotion, was zu sagen ist, verwendet wird. Beides unterscheidet sich jedoch bezüglich des Klangtonmusters an der prosodischen Phrasengrenze. Das heißt, ersteres wird mit einer fallenden Intonation gelesen, während letzteres mit einer ansteigenden Intonation gelesen wird. Da das Klangtonmuster bei der prosodischen Phrasengrenze bei Sprachsynthese durch die relative Tonhöhe realisiert wird, ist die Gefahr hoch, dass die Absicht des Sprechers dem Hörer in dem Fall nicht mitgeteilt wird, wenn die Tonhöhe geändert wird.
Damit kann die Randbedingungsinformations-Erzeugungseinheit bei der stromaufwärtigen Seite der prosodischen Datenerzeugungseinheit 202 die Randbedingungsinformation "haI(H)" und "haI(L)" für "hai" hinzufügen, welche mit einer ansteigenden Intonation gelesen wird, und für "hai", welche entsprechend mit einer fallenden Intonation gelesen wird.
Wendet man sich beispielsweise der englischen Sprache zu, so hat ein Wort "English teacher" unterschiedliche Bedeutungen in Abhängigkeit davon, ob die Betonung auf "English" oder auf "teacher" liegt. Das heißt, wenn die Betonung auf "English" liegt, bedeutet das Wort "a teacher on English", während, wenn die Betonung "teacher" liegt, bedeutet dies "teacher of an Englishman".
Somit kann die Randbedingungsinformations-Erzeugungseinheit auf der stromaufwärtigen Seite der prosodischen Datenerzeugungseinheit 202 die Randbedingungsinformation den Aussprachemarkierungen hinzufügen "IN-g1IS ti: tS@r" für "English teacher", um beides zu unterscheiden.
Insbesondere kann das betonte Wort mit [] umgeben werden, so dass "[IN-g1IS ti: tS@r"] und "IN-g1IS ti: tS@r" "a teacher" bedeutet, was bedeutet "teacher of Englishman" bzw. für "English teacher", was bedeutet "teacher of an Englishman".
Wenn die Randbedingungsinformation der Folge von Aussprachemarkierungen in dieser Weise hinzugefügt wird, kann die prosodische Datenerzeugungseinheit 202 prosodische Daten wie üblich erzeugen und die Parameter im Emotionsfilter 204 modifizieren, um das prosodische Muster der prosodischen Daten nicht zu ändern.
(2-3) Parameter übereinstimmend als Antwort auf entsprechende Emotionen
Durch Steuern der obigen Parameter, welche auf die Emotionen ansprechen, kann die Emotionsausdruckweise dem geäußerten Text zugeteilt werden. Die Emotionen, welche durch den geäußerten Text dargestellt werden, umfassen Ruhe, Ärger, Traurigkeit, Glücklichkeit und Komfort. Diese Emotionen sind lediglich beispielhaft und nicht einschränkend angegeben.
Beispielsweise kann die obige Emotion in einem charakteristischen Raum, der Erregung und Valenz als Elemente hat, gezeigt werden. Beispielsweise können in 4 Bereiche für Ärger, Traurigkeit, Glücklichkeit und Komfort in dem charakteristischen Raum konstruiert werden, der Erregung und Valenz als Elemente hat, wobei der Ruhebereich als Mitte konstruiert wird. Beispielsweise ist der Ärger Erregung und wird als positiv dargestellt, während Traurigkeit Nichterregung ist und als negativ dargestellt wird.
Die folgenden Tabellen 9 bis 13 zeigen Kombinationstabellen für Parameter, zumindest die Dauer des Phonems (DUR), die Tonhöhe (PITCH) und das Klangvolumen (VOLUME), was in Verbindung mit entsprechenden Emotionen von Ärger, Traurigkeit, Glücklichkeit und Komfort vorher bestimmt wurde. Diese Tabellen werden am Anfang auf Basis der Charakteristik der entsprechenden Emotionen erzeugt. Tabelle 9
Tabelle 10
Tabelle 11
Tabelle 12
Tabelle 13
Durch Umschalten der Tabellen, die aus den Parametern in Verbindung mit den entsprechenden Emotionen bestehen, die am Anfang vorgesehen sind, wird in Abhängigkeit von den tatsächlich unterschiedenen Emotionen und durch Ändern der Parameter auf Basis dieser Tabellen Sprachäußerung, die auf Emotion abgestimmt ist, erreicht.
Insbesondere kann das Verfahren, welches in der Beschreibung und den Zeichnungen der europäischen Patentanmeldung 0 140 1880.1 beschrieben wurde, verwendet werden.
Beispielsweise wird die Tonhöhe jedes Phonems so verschoben, dass die Durchschnittstonhöhe des Phonems, welches in den geäußerten Wörtern enthalten ist, den Wert MEANPITCH haben kann, und dass die Varianz der Tonhöhe den Wert PITCHVAR haben kann.
Ähnlich wird die Dauer jedes Phonems, welches in einem Wort enthalten ist, welches geäußert wurde, so verschoben, dass die mittlere Dauer der Phoneme gleich MEANDUR ist. Außerdem wird die Varianz der Dauer so gesteuert, um DURVAR zu sein. Wie für die Phoneme, denen die Randbedingungsinformation in Verbindung mit dem Wert der Dauer hinzugefügt wurde und deren Bereich, werden Änderungen innerhalb der Randbedingung ausgeführt. Dies verhindert eine Situation, bei der ein kurzer Vokal als langer Vokal bei der Übertragung missverstanden wird.
Das Klangvolumen jedes Phonems wird auf einen Wert gesteuert, der durch VOLUME in jeder Emotionstabelle spezifiziert ist.
Es ist auch möglich, die Kontur jeder Akzentphrase auf Basis dieser Tabelle zu ändern.
Das heißt, wenn DEFAULTCONTOUR = rising (Voreinstellungswertkontur = ansteigend), ist die Tonhöhenanhebung der Akzentphrase die ansteigende Intonation, während, wenn DEFAULTCONTOUR = falling (Voreinstellungswertkontur = fallend), die Tonhöhenanhebung der Akzentphrase die fallende Intonation ist. Im Textbeispiel "Amewo totte" wird der Randbedingungszustand so festgelegt, dass der Akzentkern beim Phonem "to" ist und dass die Tonhöhe zwischen den Phonemen "t", "o" und "t" abgesenkt werden muss, so dass, wenn DEFAULTCONTOUR = rising, lediglich die Tonneigung bis zu einem Ausmaß kleiner wird, dass der Ton nachfolgend bei der Position, die in Frage kommt, abgesenkt werden kann.
Durch die Sprachsynthese, bei der die Tabellenparameter verwendet werden, welche als Antwort auf die Emotion ausgewählt werden, wird ein geäußerter Text erzeugt, der auf den Emotionsausdruck abgestimmt ist.
Eine Robotervorrichtung, welche die vorliegende Erfindung verkörpert, wird nun erläutert, und die Art und Weise der Einrichtung des oben beschriebenen Äußerungsalgorithmus für diese Robotervorrichtung wird anschließend erläutert.
Bei der vorliegenden Ausführungsform wird die Steuerung der Parameter, die auf die Emotion ansprechen, durch Umschalten der Tabellen realisiert, welche aus Parametern bestehen, welche am Anfang in Verbindung mit den Emotionen bereitgestellt werden. Die Parametersteuerung wird ist natürlich nicht auf diese bestimmte Ausführungsform begrenzt.
(3) Spezielles Beispiel einer Robotervorrichtung nach der vorliegenden Ausführungsform
Eine spezifische Ausführungsform der vorliegenden Erfindung wird als Beispiel zum Anwenden der vorliegenden Erfindung auf einen zweibeinigen Automatikroboter ausführlich mit Hilfe der Zeichnungen erläutert. Das Emotions-/Instinktmodell wird in die Software des Menschenroboters eingeführt, um zu ermöglichen, dass der Roboter das Verhalten genauer dem des menschlichen Wesens durchführt. Obwohl der Roboter nach der vorliegenden Ausführungsform das reale Verhalten ausführt, kann Äußerung unter Verwendung eines Computersystems erzielt werden, welches einen Lautsprecher aufweist, um eine Funktion durchzuführen, welche bei einer Mensch-Maschinen-Wechselwirkung oder einem Dialog effektiv ist. Folglich ist die Anwendung der vorliegenden Erfindung nicht auf das Robotersystem beschränkt.
Die Robotervorrichtung, die als spezifische Ausführungsform von 5 gezeigt ist, ist in der Praxis ein nützlicher Roboter, der die menschlichen Aktivitäten in verschiedenen Hinsichten in unserem täglichen Leben unterstützt, beispielsweise in der Lebensumgebung. Zusätzlich ist dies ein Unterhaltungsroboter, der in der Lage ist, sich als Antwort auf den internen Zustand zu verhalten (Ärger, Traurigkeit, Glücklichkeit oder Unterhaltung) und grundsätzliche menschliche Leistungen ausdrücken kann.
Bei einer Robotervorrichtung 1, welche in 5 gezeigt ist, ist eine Kopfeinheit 3 mit einer vorher festgelegten Position einer Körperrumpfeinheit 2 verbunden. Außerdem sind eine rechte und linke Armeinheit 4R/L und eine rechte und linke Beineinheit 5RL mit der Körperrumpfeinheit 2 verbunden. R, L bezeichnen Suffixe, die für rechts und links gelten, die anschließend gleich sind.
Die Struktur des Gelenkfreiheitsgrads der Robotervorrichtung 1 ist in 6 schematisch gezeigt. Das Halsgelenk, welches die Kopfeinheit 3 lagert, hat drei Freiheitsgrade, nämlich eine Halsgelenk-Gierachse 101, eine Halsgelenk-Nicksachse 102 und eine Halsgelenk-Rollachse 103.
Die Armeinheiten 4R/L, welche die oberen Gliedmaßen bilden, bestehen aus einer Schultergelenk-Nickachse 107, einer Schultergelenk-Rollachse 108, eine Oberarm-Gierachse 109, eine Scharniergelenk-Nickachse 110, einer Vorderarm-Gierachse 111, einer Knöchelgelenk-Nickachse 112, einer Knöchelgelenk-Rollachse 113 und einer Hand 114. Die Hand 114 hat in Wirklichkeit eine Mehrfach-Gelenk-Multifreiheitsgradstruktur, welche mehrere Finger hat. Da jedoch die Arbeitsweise der Hand 114 nur einen vernachlässigbaren Beitrag oder Wirkung hat, was die Orientierung oder die Laufsteuerung der Robotervorrichtung 1 betrifft, wird angenommen, dass die Hand 114 bei der vorliegenden Beschreibung einen Freiheitsgrad von 0 hat. Somit hat jeder Arm sieben Freiheitsgrade.
Andererseits hat die Körperrumpfeinheit 2 drei Freiheitsgrade, d.h., eine Körperrumpf-Nickachse 104, eine Körperrumpf-Rollachse 105 und eine Körperrumpf-Gierachse 106.
Die Beineinheiten 5R/L, welche die unteren Gliedmaßen bilden, bestehen aus der Hüftgelenk-Gierachse 115, einer Hüftgelenk-Nickachse 116, einer Hüftgelenk-Rollachse 117, einer Knöchelgelenk-Nickachse 118, einer Knöchelgelenk-Nickachse 119, einer Knöchelgelenk-Rollachse 120 und einem Fuß 121. Bei der vorliegenden Beschreibung definiert der Schnittpunkt der Hüftgelenk-Nickachse 116 und der Hüftgelenk-Rollachse 117 eine Hüftgelenkposition der Robotervorrichtung 1. Der Fuß 121 des menschlichen Körpers ist in Wirklichkeit eine Mehrgelenk-Mehrfreiheitsgradstruktur einschließlich Fußsohlen. Die Fußsohle der Robotervorrichtung 1 hat jedoch einen Freiheitsgrad von 0. Folglich besteht jeder Fuß aus sechs Freiheitsgraden.
Somit hat die Robotervorrichtung 1 in ihrer Gesamtheit 3 + 7 × 2 + 3 + 6 × 2 = 32 Freiheitsgrade. Die unterhaltungs-orientierte Robotervorrichtung 1 ist jedoch nicht notwendigerweise auf 32 Freiheitsgrade begrenzt. Natürlich kann der Freiheitsgrad, d.h., die Anzahl von Artikulationen, optional vergrößert oder vermindert werden, und zwar in Abhängigkeit von Ausbildungszuständen oder der Bildung von Randbedingungen oder gewünschten konstruktiven Parametern.
In Wirklichkeit werden die entsprechenden Freiheitsgrade, die die Robotervorrichtung 1 aufweist, unter Verwendung eines Betätigungsorgans eingerichtet. Im Licht des Wunsches, um redundantes Aufbauschen der Erscheinungsform zur Annäherung an den menschlichen Körper auszuschließen und um Orientierungssteuerung für eine instabile Struktur eines Gehens auf zwei Füßen auszuführen, hat das Betätigungsorgan vorteilhafterweise ein geringes Gewicht und eine geringe Baugröße.
Die Struktur für das Steuerungssystem der Robotervorrichtung 1 ist schematisch in 7 gezeigt, bei der die Körperrumpfeinheit 2 eine Steuerung 16 und eine Batterie 17 als Versorgungsspannung der Robotervorrichtung 1 aufweist. Die Steuerung 16 besteht aus einer Zusammenschaltung einer CPU (Zentralverarbeitungseinheit) 10, einem DRAM (Speicher mit dynamischem wahlfreien Zugriff) 11, einem Flash-ROM (Nur-Lese-Speicher) 12, einer PC-Kartenschnittstellenschaltung 13, und einer Signalverarbeitungsschaltung 14 über einen internen Bus 15. In der Körperrumpfeinheit 2 ist ein Beschleunigungssensor 18 und ein Beschleunigungssensor 19 enthalten, um die Orientierung oder die Bewegung der Robotervorrichtung 1 zu ermitteln.
Innerhalb der Kopfeinheit 3 sind an vorher festgelegten Positionen eine CCD-Kamera (ladungsgekoppelte Einrichtung) 20R/L angeordnet, die äquivalent zu den linken und rechten Augen ist, um äußere Zustände abzubilden, eine Bildverarbeitungsschaltung 21, um Stereobilddaten auf Basis der CCD-Kamera 20R/L zu bilden, ein Berührungssensor 22, um den Druck zu ermitteln, der durch reale Aktionen verursacht wird, beispielsweise Schlagen oder Streicheln vom Benutzer, ein Bodenkontaktsensor 23R/L, um zu ermitteln, ob die Fußsohle der Beineinheiten 5R/L den Boden berührt hat oder nicht, ein Orientierungssensor 24, um die Orientierung zu messen, ein Distanzsensor 25, um der den Abstand zu einem Objekt, welches davor liegt, zu messen, ein Mikrophon 26, um externen Ton aufzunehmen, ein Lautsprecher 27; um den Ton auszugeben, beispielsweise Jammern, und eine LED (licht-emittierende Diode) 28.
Der Bodenkontaktsensor 23R/L ist durch einen Annäherungssensor oder einen Mikroschalter, der auf der Fußsohle befestigt ist, gebildet. Der Orientierungssensor 24 wird beispielsweise durch die Kombination eines Beschleunigungssensors und eines Gyro-Sensors gebildet. Auf Basis des Ausgangssignals des Bodenkontaktsensors 23R/L kann bestimmt werden, während Bewegungen, beispielsweise während eines Laufens oder Rennens, ob die linke und rechte Beineinheit 5R/L Lauf-Zustand oder im Sprung-Zustand ist. Die Neigung oder die Orientierung des Körperrumpfsbereichs kann auf Basis eines Ausgangssignals des Orientierungssensors 24 ermittelt werden.
In den Verbindungsbereichen der Körperrumpfeinheit 2, der Armeinheiten 4R/L und der Beineinheiten 5R/L sind eine Anzahl von Betätigungsorganen 29₁ bis 29_n und eine Anzahl von Potentiometern 30₁ bis 30_n vorgesehen, die beide der Anzahl des Freiheitsgrads der in Frage stehenden Verbindungsbereiche entsprechen. Beispielsweise umfassen die Betätigungsorgane 29₁ bis 29_n Servomotore. Die Armeinheiten 4R/L und die Fußeinheiten 5R/L werden durch Ansteuern der Servomotore gesteuert, um die Zielorientierung oder Arbeitsweise zu übertragen.
Die Sensoren, beispielsweise der Winkelbeschleunigungssensor 18, der Beschleunigungssensor 19, der Berührungssensor 21, die Bodenkontaktsensoren 23R/L, der Berührungssensor 24, der Abstandssensor 25, das Mikrophon 26, der Lautsprecher 27 und die Potentiometer 30₁ bis 30_n , die LEDs 28 und die Betätigungsorgane 29₁ bis 29_n sind über verbundene Hubs 31₁ bis 31_n mit der Signalverarbeitungsschaltung 14 der Steuerung 16 verbunden, während die Batterie 17 und die Signalverarbeitungsschaltung 21 unmittelbar mit der Signalverarbeitungsschaltung 14 verbunden sind.
Die Signalverarbeitungsschaltung 14 fängt sequentiell Sensordaten, Bilddaten oder Sprachdaten ein, welche von den oben erwähnten entsprechenden Sensoren herkommen, um zu bewirken, dass die Daten sequentiell über einen internen Bus 15 an vorher festgelegten Orten im DRAM 11 gespeichert werden. Zusätzlich fängt die Signalverarbeitungsschaltung 14 sequentiell die Restbatteriekapazitätsdaten ein, welche die Restbatteriekapazität (Ladezustand) zeigen, welche von der Batterie 17 geliefert wird, um die Daten an vorher festgelegten Stellen im DRAM 11 zu speichern.
Die entsprechenden Sensordaten, Bilddaten, Sprachdaten und die Restbatterie-Kapazitätsdaten, die im DRAM 11 gespeichert wurden, werden nachfolgend verwendet, wenn die CPU 10 eine Betriebssteuerung der Robotervorrichtung 1 durchführt.
In Wirklichkeit liest in einer Anfangsstufe eines Hochfahrens der Robotervorrichtung 1 die CPU 10 eine Speicherkarte 32, welche in einen PC-Kartenschlitz, der nicht gezeigt ist, von der Rumpfeinheit 2 geladen ist, oder ein Steuerprogramm, welches in einem Flash- ROM 12 gespeichert ist, entweder unmittelbar oder über eine PC-Kartenschnittstellenschaltung 13 zur Speicherung im DRAM 11 aus.
Danach verifiziert die CPU 10 ihren eigenen Zustand und die Umgebungszustände und die mögliche Anwesenheit von Befehlen oder Aktionen vom Benutzer auf Basis der Sensordaten, der Bilddaten, der Sprachdaten oder Restbatterie-Kapazitätsdaten, welche sequentiell von der Signalverarbeitungsschaltung 14 in den DRAM 11 gespeichert werden.
Die CPU 10 bestimmt außerdem die nachfolgenden Aktionen auf Basis der verifizierten Ergebnisse und des Steuerprogramms, welches im DRAM 11 gespeichert wurde, wobei die Betätigungsorgane 29₁ bis 29_n wenn notwendig auf Basis der bestimmten Ergebnisse angesteuert werden, um Verhaltensweisen zu erzeugen, beispielsweise das Verschwenken der Armeinheiten 4R/L in der Richtung nach oben und nach unten oder in der Richtung links und rechts oder zum Bewegen der Beineinheiten 5R/L zum Laufen oder Springen.
Die CPU 10 erzeugt wenn notwendig Sprachdaten und sendet die erzeugten Daten über die Signalverarbeitungsschaltung 14 als Sprachsignale zum Lautsprecher 27, um die Sprache, welche von den Sprachsignalen hergeleitet wird, nach außenhin auszugeben, und veranlasst, dass die LEDs 28 eingeschaltet werden oder flackern.
Auf diese Weise ist die vorliegende Robotervorrichtung 1 in der Lage, sich autonom als Antwort auf ihren eigenen Status und den Umgebungszuständen oder auf Befehle oder Aktionen vom Benutzer zu verhalten.
(3B2) Software-Struktur des Steuerungsprogramms
Die Robotervorrichtung 1 ist in der Lage, sich autonom als Antwort auf den internen Zustand zu verhalten. Ein beispielhafter Software-Aufbau des Steuerprogramms in der Robotervorrichtung 1 wird nun mit Hilfe von 8 bis 13 erläutert. Dieses Steuerprogramm ist im Flash-ROM 12 vorher gespeichert und wird in einem frühen Zeitpunkt beim Hochlaufen der Robotervorrichtung 1 gelesen.
In 8 ist die Einrichtungsansteuerebene 40 in der untersten Ebene des Steuerprogramms angeordnet und besteht aus einem Einrichtungsansteuerungssatz 41, der aus mehreren Einrichtungsansteuerungen besteht. In diesem Fall wird zugelassen, dass die Einrichtungsansteuerungen unmittelbar auf Hardware zugreifen, welche bei üblichen Computern verwendet wird, beispielsweise CCD-Kameras oder Timer, und die Verarbeitung als Antwort auf einen Interrupt von der verknüpften Hardware ausführen.
Ein Roboterserverobjekt 42 ist in der untersten Ebene der Einrichtungsansteuerebene 40 angeordnet und besteht aus einem virtuellen Roboter 43, der aus mehrerer Software besteht, welche eine Schnittstelle versorgt, um auf Hardware zuzugreifen, beispielsweise auf die oben erwähnten verschiedenen Sensoren oder Betätigungsorgane 28₁ bis 28_n , einem Leistungsmanager 44, der aus einem Software-Satz besteht, um das Schalten von Spannungsquellen zu verwalten, einem Einrichtungsansteuermanager 45, der aus einem Software-Satz besteht, um andere variable Einrichtungsansteuerungen zu verwalten, und einem bestimmten Roboter 46, der aus einem Software-Satz besteht, um den Mechanismus der Robotervorrichtung 1 zu verwalten.
Ein Verwaltungsobjekt 47 besteht aus einem Objektmanager 48 und einem Dienstmanager 49. Es sei angemerkt, dass der Objektmanager 48 ein Software-Satz ist, der das Booten oder den Abschluss von Software-Sätzen überwacht, welche im Roboterserverobjekt 42, in der Middleware-Ebene 50 und in der Anwendungsebene 51 enthalten sind. Der Dienstmanager 49 ist ein Software-Satz, der die Verbindung der entsprechenden Objekte auf Basis der Verbindungsinformation über die jeweiligen Objekte überwacht, welche in Verbindungsdateien festgelegt sind, welche auf der Speicherkarte gespeichert sind.
Die Middleware-Ebene 50 ist in einer oberen Ebene des Roboterserverobjekts 42 angeordnet und besteht aus einem Software-Satz, der die Grundfunktionen der Robotervorrichtung 1 versorgt, beispielsweise Bild- oder Sprachverarbeitung. Die Anwendungsebene 51 ist in einer oberen Ebene der Middleware-Ebene 50 angeordnet und besteht aus einem Software-Satz, um das Verhalten der Robotervorrichtung 1 auf Basis der Verarbeitungsergebnisse durch die Software-Sätze zu bestimmen, welche die Middleware-Ebene 50 bilden.
9 zeigt einen spezifischen Software-Aufbau der Middleware-Ebene 50 und der Anwendungsebene 51.
In 9 umfasst die Middleware-Ebene 50 ein Erkennungssystem 70, welches mit Verarbeitungsmodulen 60 bis 68 ausgestattet ist, um Geräusch, Temperatur, Helligkeit, Tonmaß, Abstand, Orientierung, Berührungsgefühl, Bewegungsermittlung und Farberkennung mit einem Eingangssemantik-Umsetzungsmodul 69 zu ermitteln, und ein Ausgangssystem 79, welches mit einem Ausgangssemantik-Umsetzungsmodul 78 und mit Signalverarbeitungsmodulen 71 bis 77 ausgerüstet ist, für Orientierungsverwaltung, Spurführung, Bewegungswiedergabe, Laufen, Wiederherstellung des Ausgleichs, LED-Beleuchtung und Tonreproduktion.
Die Verarbeitungsmodule 60 bis 68 des Erkennungsmoduls 70 fangen Daten von Interesse von Sensordaten, Bilddaten und Sprachdaten ein, welche von einem DRAM 11 (2) durch den virtuellen Roboter 43 des Roboterserverobjekts 42 gelesen werden und führen vorher festgelegte Verarbeitung auf Basis der eingefangenen Daten durch, um die Verarbeitungsergebnisse zu dem Eingangssemantik-Umsetzermodul 69 zu liefern. Es sei angemerkt, dass der virtuelle Roboter 43 so als ein Komponentenbereich ausgebildet und konstruiert ist, der auf Signaländerung oder Umsetzung gemäß einem vorher festgelegten Kommunikationsprotokoll anspricht.
Auf Basis dieser Ergebnisse der Verarbeitung, welche von den Verarbeitungsmodulen 60 bis 68 geliefert werden, erkennt das Eingangssemantik-Umsetzermodul 69 seinen eigenen Status und den Status der Umgebung, beispielsweise "geräuschvoll", "heiß", "hell", "ein Ball ermittelt", "das auf eine tiefere Ebene Drücken ermittelt", "getätschelt", "geschlagen", "Tonskala aus do, mi und so gehört", "ein Bewegungsobjekt ermittelt", oder "ein Hindernis ermittelt", oder Befehle oder Aktionen vom Benutzer, und gibt die erkannten Ergebnisse an die Anwendungsebene 41 aus.
Die Anwendungsebene 51 besteht aus fünf Modulen, nämlich einer Verhaltensmodellbibliothek 80, einem Verhaltensumschaltmodul 81, einem Lernmodul 82, einem Emotionsmodell 83 und einem Instinktmodell 84, wie in 10 gezeigt ist.
Die Verhaltenmodell-Bibliothek 80 ist mit entsprechenden unabhängigen Verhaltensmodellen in Verbindung mit vorher ausgewählten mehreren Bewegungsbegriffen ausgestattet, beispielsweise "Restbatterie-Kapazität ist klein", "Wiederherstellung des auf die tiefere Ebene gedrückten Zustands", "ein Hindernis ist zu umgehen", "ein Bewegungsausdruck ist vorzunehmen" oder "ein Ball wurde ermittelt", wie in 11 gezeigt ist.
Wenn die erkannten Ergebnisse von dem Eingangssemantik-Umsetzermodul 69 geliefert werden, oder eine vorher festgelegte Zeit abgelaufen ist, seit die letzten erkannten Ergebnisse geliefert wurden, bestimmen die Verhaltensmodelle das nächste Verhalten, da Referenz auf die Parameterwerte der entsprechenden Emotion zu machen ist, welche im Emotionsmodell 83 gespeichert wurde, oder auf die Parameterwerte des entsprechenden Wunsches, mit dieser im Instinktmodul 84 gehalten wird, wenn notwendig, um die Entscheidungsergebnisse an das Verhaltensumschaltmodul 81 auszugeben.
Bei der vorliegenden Ausführungsform verwenden die Verhaltensmodelle einen Algorithmus, der als endlicher Wahrscheinlichkeitsautomat bezeichnet wird, als ein Verfahren, um die nächste Aktion zu bestimmen. Mit diesem Algorithmus wird die Wahrscheinlichkeit bestimmt, zu welchem von den Knoten NODE₀ bis NODE_n von welchen von den Knoten NODE₀ bis NODE_n Übergang zu machen ist, auf Basis der Übergangswahrscheinlichkeiten P₁ bis P_n, wie für die entsprechenden Bögen ARC₁ und ARC_n festgelegt ist, die die entsprechenden Knoten NODE₀ NODE_n miteinander verbinden.
Insbesondere weist jedes Verhaltensübergangsmodell eine Statusübergangstabelle 90, welche in 13 gezeigt ist, für jeden der Knoten NODE₀ bis NODE_n in Verbindung mit den Knoten NODE₀ bis NODE_n, welche die entsprechenden Verhaltensmodelle entsprechend bilden, auf.
In dieser Statusübergangstabelle 90 sind Eingangsereignisse (Erkennungsergebnisse), beispielsweise die Übergangszustände für den in Frage stehenden Knoten, in der Prioritätsreihenfolge aufgelistet, unter einer Spalte mit dem Titel "Namen von Eingangsereignissen", und weitere Zustände für den Übergangszustand, der in Frage steht, werden in verknüpften Reihen der Spalten "Datennamen" und "Datenbereich" eingegeben,
Wenn somit im Knoten NODE₁₀₀, der in der Statusübergangstabelle 90 gezeigt ist, welche in 13 gezeigt ist, das Erkennungsergebnis "Ball ermittelt (BALL)" angegeben wird, zeigt die "SIZE (Ballgröße)", die zusammen mit dem Erkennungsergebnis angegeben wird, wobei diese "0 bis 1000" ist, einen Zustand für einen Übergang zum anderen Knoten, während, wenn das Erkennungsergebnis "Hindernis ermittelt (OBSTACLE)" angegeben wird, zeigt der "Abstand (DISTANCE)", der zusammen mit dem Erkennungsergebnis angegeben wird, wobei dieser "0 bis 100" ist, auch einen Zustand für einen Übergang zum anderen Knoten.
Wenn folglich in diesem Knoten NODE₁₀₀ keine Erkennungsergebnisse zugeführt werden, jedoch ein Parameterwert "Freude", "Überraschung" oder "Traurigkeit", der im Emotionsmodell 83 gehalten wird, unter den Emotions- und Wunschparametern, welche in jedem Emotionsmodell 83 und im Instinktmodell 84 gehalten werden, auf welche periodisch durch die Verhaltensmodelle bezuggenommen wird, in einem Bereich von 50 bis 100 liegt, wird ein Übergang zum anderen Knoten ausgeführt.
In der Statusübergangstabelle 90 sind in der Reihe "Bestimmungsknoten des Übergangs" im Posten "Wahrscheinlichkeit des Übergangs zu anderen Knoten" die Namen der Knoten aufgelistet, zu denen ein Übergang von den Knoten NODE₀ bis NODE_n ausgeführt werden kann. Zusätzlich wird die Wahrscheinlichkeit eines Übergangs zu anderen entsprechenden Knoten NODE₀, NODE_n, zu denen ein Übergang möglich ist, wenn alle Bedingungen, welche in die Spalten "Eingabeereignisname", "Datenname" und "Datenbereich" getroffen werden, in einen entsprechenden Bereich im Posten "Wahrscheinlichkeit eines Übergangs zu anderen Knoten" eingegeben. Das Verhalten, welches beim Ausführen eines Übergangs zu den Knoten NODE₀ bis NODE_n auszugeben ist, wird in der Spalte "Ausgabeverhalten" im Posten "Übergangswahrscheinlichkeit zu anderem Knoten" aufgelistet. Die Summe der Wahrscheinlichkeitswerte der jeweiligen Spalten im Posten "Übergangswahrscheinlichkeit auf anderen Knoten" beträgt 100(%).
Wenn somit die Erkennungsergebnisse, welche im Knoten NODE₁₀₀ geliefert werden, der in der Statusübergangstabelle 90 von 13 gezeigt ist, so sind, dass ein Ball ermittelt wurde (BALL) und die Ballgröße in einem Bereich von 0 bis 1000 liegt, kann ein Übergang zum "Knoten NODE₁₂₀ (KNOTEN 120)" mit einer Wahrscheinlichkeit von 30% gemacht werden, wobei das Verhalten "ACTION 1" dann ausgegeben wird.
Die Verhaltensmodelle sind so eingerichtet, dass eine Vielzahl von Knoten, beispielsweise der Knoten NODE₀ bis zum Knoten NODE_n, die in der Statusübergangstabelle 100 aufgelistet sind, verkettet sind, so dass, wenn die Erkennungsergebnisse von dem Eingangssemantik-Umsetzermodul 69 geliefert wird, die nächste zu unternehmende Aktion auf Wahrscheinlichkeit unter Verwendung der Statusübergangstabelle vom Knoten NODE₀ bis zum Knoten NODE_n ausgeführt werden kann, wobei die Entscheidungsergebnisse dann an das Verhaltensumschaltmodul 81 ausgegeben werden.
Das Verhaltensumschaltmodul 81, welches in 10 gezeigt ist, wählt das Verhalten aus, welches vom Verhaltensmodul der Verhaltensmodule der Verhaltensmodell-Bibliothek 80 ausgegeben wird, welches einen hohen Wert der voreingestellten Prioritätssequenz hat, und gibt einen Befehl zum Ausführen des Verhaltens (Verhaltensbefehl) an das Ausgangssemantik-Umsetzermodul 78 der Middleware-Ebene 50 aus. Bei der vorliegenden Ausführungsform erlangen die in 11 gezeigten Verhaltensmodelle eine höhere Prioritätssequenz, je niedriger die Position der Eingabe des in Frage stehenden Verhaltensmodells ist.
Dagegen weist das Verhaltensschaltmodul 81 das Lernmodul 82, das Emotionsmodell 83 und das Instinktmodul 84 von der Beendigung des Verhaltens an, nach Beendigung des Verhaltens auf Basis der Verhaltensendinformation, welche von dem Ausgangssemantik-Umsetzermodul 78 geliefert wird. Das Lernmodul 82 wird mit den Erkennungsergebnissen der Lehre beliefert, welche durch die Aktion des Benutzers empfangen wird, beispielsweise "Schlagen" oder "Tätscheln" unter den Erkennungsergebnissen, welche vom Eingangssemantik-Umsetzermodul 69 geliefert werden.
Auf Basis der Erkennungsergebnisse und der Mitteilung vom Verhaltensschaltmodul 71 ändert das Lernmodul 82 die Werte der Übergangswahrscheinlichkeit in den Verhaltensmodellen in der Verhaltensmodell-Bibliothek 70, so dass die Wahrscheinlichkeit eines Auftretens des Verhaltens vermindert wird oder angehoben wird, wenn der Roboter für das Verhalten "geschlagen" oder "beschimpft" wird, oder für das Verhalten "getätschelt" oder "gelobt" wird.
Dagegen hält das Emotionsmodul 83 Parameter, welche die Intensität eines jeden der sechs Arten der Emotion zeigen nämlich "Freude", "Traurigkeit", "Ärger", "Überra schung", "kein Appetit" und "Gefahr". Das Emotionsmodul 83 aktualisiert die Parameterwerte dieser jeweiligen Arten der Emotion auf Basis der spezifizierten Erkennungsergebnisse periodisch, welche vom Eingangssemantik-Umsetzermodul 69 angegeben werden, beispielsweise "geschlagen worden" oder "getätschelt worden", die Ablaufzeit und die Mitteilung vom Verhaltensschaltmodul 81.
Insbesondere mit der Höhe der Änderung Delta E[t] der Emotion, des aktuellen Werts der Emotion E[t] und mit dem Wert, der die Empfindlichkeit der Emotion k_e zeigt, die auf der Basis beispielsweise von Erkennungsergebnissen, durch das Eingangssemantik-Umsetzermodul 69 geliefert werden, des Verhaltens der Robotervorrichtung 1 in diesem Zeitpunkt oder der Zeit, welche von der vorherigen Aktualisierung verstrichen ist, berechnet das Emotionsmodell 83 einen Parameterwert E[t+1] der Emotion der nächsten Periode gemäß der folgenden Gleichung (1): E[t+1] = E[t] + ke × DeltaE[t] (1)und setzt dafür den aktuellen Parameterwert für die Emotion E[t] ein, um den Parameterwert für die Emotion aktualisieren. In ähnlicher Weise aktualisiert das Emotionsmodell 83 die Parameterwerte aller verschiedenen Arten der Emotion.
Es sollte angemerkt sein, dass der Grad, mit dem die Erkennungsergebnisse oder die Mitteilung des Ausgangssemantik-Umsetzermoduls 78 die Höhe der Variation Delta E[t] der Parameterwerte der entsprechenden Arten der Emotion beeinflussen, vorher festgelegt ist, so dass beispielsweise die Erkennungsergebnisse "geschlagen worden" passend die Höhe der Variation Delta E[t] des Parameterwerts der Emotion "Ärger" beeinflussen, während die Erkennungsergebnisse "getätschelt worden" passend die Höhe der Variation Delta E[t] des Parameterwerts der Emotion "Freude (joy)" beeinflussen.
Es sollte angemerkt sein, dass die Mitteilung vom Ausgangssemantik-Umsetzermodul 78 die sogenannte Verhaltensrückführfunktion (Verhaltensbeendigungsinformation) oder die Information über das Auftretensergebnis des Verhaltens ist. Das Emotionsmodell 83 ändert außerdem die Emotion auf Basis dieser Information. Beispielsweise kann der Emotionspegel von Ärger durch das Verhalten abgesenkt werden, beispielsweise "Schreien". Die Information vom Ausgangssemantik-Umsetzermodul 78 wird außerdem dem Lernmodul 82 zugeführt, so dass das Lernmodul 82 die entsprechende Übergangswahrscheinlichkeit der Verhaltensmodelle ändert.
Die Rückführung der Ergebnisse des Verhaltens können auf Basis eines Ausgangssignals des Verhaltensschaltmoduls 81 erzielt werden (Verhalten, welches auf die Emotion abgestimmt ist).
Dagegen hält das Instinktmodul 74 Parameter, welche die Stärke jedes der vier unabhängigen Begriffe von Wunsch zeigen, nämlich "Wunsch nach Übung", "Wunsch nach Zuneigung", "Appetit" und "Neugierigkeit", und aktualisiert periodisch die Parameterwerte der entsprechenden Wünsche auf Basis der Erkennungsergebnisse, welche vom Eingangssemantik-Umsetzermodul 69 geliefert werden, der Ablaufzeit oder in Bezug auf die Mitteilung von Verhaltensschaltmodul 81.
Insbesondere berechnet mit den Beträgen der Variation Delta [k], den aktuellen Parameterwerten I[k] und den Koeffizienten k_i, welche die Empfindlichkeit des "Wunsch auf Übung", "Wunsch auf Liebe" und "Neugierigkeit" zeigen, wie gemäß den vorher festgelegten Berechnungsgleichungen berechnet wurde, auf Basis der Ergebnisse der Erkennung, der Ablaufzeit oder der Mitteilung vom Ausgangssemantik-Umsetzermodul 78 das Instinktmodul 84 die Parameterwerte I[k+1] der Wünsche der nächsten Periode, jeder vorher festgelegten Periode, gemäß der folgenden Gleichung (2): I[k+1] = I[k] + ki × Delta[k] (2) und setzt dafür den aktuellen Parameterwert I[k] der in Frage stehenden Wünsche ein. Das Instinktmodul 84 aktualisiert ähnlich die Parameterwerte der entsprechenden Wünsche, welche "Appetit" ausschließen.
Es sollte angemerkt sein, dass der Grad, mit dem Erkennungsergebnisse oder die Information vom Ausgangssemantik-Umsetzermodul 78, beispielsweise der Einfluss der Höhe der Variation Delta I[k] der Parameterwerte der entsprechenden Wünsche vorher festgelegt ist, so dass eine Mitteilung vom Ausgangssemantik-Umsetzermodul 78 die Höhe der Variation Delta I[k] des Parameterwerts "Müde" spürbar beeinflusst.
Es sollte angemerkt sein, dass bei der vorliegenden Ausführungsform die Parameterwerte der entsprechenden Werte der Emotion und der entsprechenden Wünsche (Instinkte) so gesteuert werden, dass sie in einem Bereich von 0 bis 100 geändert werden, während die Werte der Koeffizienten k₀ und k_i separat für die jeweiligen Arten der Emotion und der Wünsche festgelegt werden.
Dagegen gibt das Ausgangssemantik-Umsetzermodul 78 der Middleware-Ebene 50 abstrakte Verhaltensbefehle, welche vom Verhaltensschaltmodul 81 der Anwendungsebene 51 geliefert werden, beispielsweise "bewege dich nach vorne", "freue die wieder", "äußere dich" oder "spiele (einen Ball)", an die verknüpften Signalverarbeitungsmodule 71 bis 77 eines Ausgabesystems 79, welches in 9 gezeigt ist, aus.
Bei Empfang der Verhaltensbefehle erzeugen die Signalverarbeitungsmodule 71 bis 77 Servobefehlswerte, die den entsprechenden Betätigungsorganen zugeführt werden, Sprachdaten des Tons, welche vom Lautsprecher auszugeben sind, und/oder Ansteuerdaten, welche den LEDs zugeben sind, welche als "Augen" des Roboters arbeiten, auf Basis der Verhaltensbefehle, um diese Daten sequentiell zu den verknüpften Betätigungsorganen, dem Lautsprecher oder zu den LEDs über den virtuellen Roboter 43 des Roboterserverobjekts 42 und die Signalverarbeitungsschaltung auszusenden.
Auf diese Weise ist die Robotervorrichtung 1 in der Lage, autonomes Verhalten anzunehmen, wobei auf ihren eigenen Zustand angesprochen wird und auf den Zustand der Umgebung (Außenseite) oder auf Befehle oder Aktionen vom Benutzer auf Basis des oben beschriebenen Steuerprogramms.
Dieses Steuerprogramm wird über einen Aufzeichnungsträger versorgt, der in Form beschrieben ist, der durch die Robotervorrichtung 1 gelesen werden kann. Das Aufzeichnungsmedium zum Aufzeichnen eines Steuerprogramms kann ein Aufzeichnungsmedium eines magnetischen Lesetypus, beispielsweise ein Magnetband, eine flexible Platte oder eine Magnetplatte, ein Aufzeichnungsmedium des optischen Lesens, beispielsweise eine CD-ROM, MO, CD-R und DVD sein. Das Aufzeichnungsmedium umfasst außerdem ein Aufzeichnungsmedium, beispielsweise einen Halbleiterspeicher (sogenannte Speicherkarte) ohne Beachtung auf die äußere Form, beispielsweise eine rechteckige oder quadratische Form, und eine IC-Karte. Das Steuerprogramm kann außerdem über das Internet geliefert werden.
Diese Steuerprogramme werden durch eine eigens dafür bestimmte Leseansteuereinrichtung oder einen Personalcomputer reproduziert, um somit über einen verkabelten oder ein Funkpfad zur Robotereinrichtung 1 übertragen zu werden, wenn diese gelesen werden. Wenn die Robotervorrichtung 1 eine Ansteuereinrichtung für ein Aufzeichnungsmedium aufweist, welches größenmäßig reduziert ist, beispielsweise einen Halbleiterspeicher oder eine IC-Karte, kann das Steuerprogramm unmittelbar von diesem Aufzeichnungsmedium gelesen werden.
(3-3) Einrichtung des Sprachäußerungsalgorithmus in der Robotervorrichtung
Die Robotervorrichtung kann wie oben beschrieben aufgebaut sein. Der oben beschriebene Äußerungsalgorithmus ist als Tonwiedergabemodul 77 der Robotervorrichtung 1, welche in 3 gezeigt ist, eingerichtet.
Das Tonwiedergabemodul 77 spricht auf einen Tonausgabebefehl an, beispielsweise einen Befehl "äußere dich mit Fröhlichkeit", wie in einem oberen Befehlsbereich festgelegt, beispielsweise einem Verhaltensmodell, um aktuelle Tonzeit-Bereichsdaten zu erzeugen, um die Daten zu einer Lautsprechereinrichtung des virtuellen Roboters 43 zu übertragen.
Dies bewirkt, dass die Robotervorrichtung einen Text, der auf die Emotion abgestimmt ist, über den Lautsprecher 27, der in 7 gezeigt ist, äußert.
Das Verhaltensmodell, welches den Sprachäußerungsbefehl erzeugt, welches auf die Emotion abgestimmt ist (anschließend als Äußerungsverhaltensmodell bezeichnet), wird nun erläutert. Das Äußerungsverhaltensmodell ist als eines der Verhaltensmodelle in der Verhaltensmodell-Bibliothek 80, welche in 10 gezeigt ist, vorgesehen.
Das Äußerungsverhaltensmodell setzt den letzten Parameterwert vom Emotionsmodell 83 und vom Instinktmodell 84 in Beziehung, um über die Statusübergangstabelle 90, welche in 13 gezeigt ist, auf Basis der Parameterwerte zu entscheiden. Das heißt, der Emotionswert wird als der Zustand für einen Übergang von einem vorgegebenen Zustand verwendet und führt das Äußerungsverhalten konform mit der Emotion im Zeitpunkt des Übergangs aus.
Die Statusübergangstabelle, welche durch das Äußerungsverhaltensmodell verwendet wird, kann so ausgedrückt werden, wie beispielsweise in 14 gezeigt ist. Obwohl die Statusübergangstabelle, welche im Äußerungsverhaltensmodell verwendet wird, welches in 14 gezeigt ist, gegenüber der Form der Darstellung von der Statusübergangstabelle 90, welche in 13 gezeigt ist, verschieden ist, ist der Unterschied nicht kritisch. Die Statusübergangstabelle, welche in 14 gezeigt ist, wird nunmehr erläutert.
Im vorliegenden Beispiel über Glücklichkeit, Traurigkeit, Ärger und Zeitablauf angegeben als Übergangszustände vom Knoten "nodeXXX" zum anderen Knoten. Es werden spezifische numerische Werte angegeben, nämlich happy (Glücklichkeit) > 70, sad (Traurigkeit) > 70, arger (Ärger) > 70 und timeout (Zeitablauf) = timeout.1, als Übergangszustände in Bezug auf Glücklichkeit, Traurigkeit, Ärger und Zeitablauf, wobei timeout.1 eine numerische Form ist, beispielsweise eine, welche die vorher festgelegte Zeit zeigt.
Als Knoten eines möglichen Übergangs von "nodeXXX", sind der node YYY, der nodeZZZ, der nodeWWW und der nodeVVV vorgesehen sind, während die Verhaltensweisen, welche für die jeweiligen Knoten ausgeführt werden, zugeordnet sind als "banzai", "otikomu", "buruburu" und "akubi".
Das Ausdruckverhalten für "banzai" wird als Äußerung definiert, welche die Emotion "Glücklichkeit" (talkhappy)" und als die Bewegung von "banzai" durch die Armeinheiten 4R/L (motion_banzai) ausdrückt. Um die Äußerung der Emotion des Emotionsausdrucks "Glücklichkeit" zu bilden, werden die Parameter für den Emotionsausdruck von Glücklichkeit, der am Beginn vorgesehen ist, wie oben beschrieben, verwendet. Das heißt, dass Glücklichkeit auf Basis des Äußerungsalgorithmus, der oben beschrieben wurde, geäußert wird.
Das Ausdrucksverhalten für "otikomu", was "Depression" bedeutet, wird als Äußerung definiert, welche die Bewegung "Traurigkeit" (talk_sad) und als eingeschüchterte Bewegung (motion_ijiiji) ausdrückt. Um die Äußerung des Emotionsausdrucks "Traurigkeit" zu bilden, werden die Parameter für den Emotionsausdruck von Traurigkeit, der am Anfang vorgesehen wurde, verwendet. Das heißt, die Äußerung von Traurigkeit basiert auf dem vorher erläuterten Äußerungsalgorithmus.
Das Ausdruckverhalten für "buruburu" (Lautmalerei für Zittern) ist als Äußerung definiert mit dem Bewegungsausdruck "anger (Ärger)" (talk_arger) und der Zitterbewegung für Ärger (motion_buruburu). Um die Äußerung mit dem Bewegungsausdruck zu bilden, werden die oben erwähnten Parameter für den Bewegungsausdruck von "Ärger", die oben definiert wurden, verwendet. Das heißt, die Äußerung von Ärger wird auf Basis des Äußerungsalgorithmus, der oben erläutert wurde, gebildet.
Das Ausdruckverhalten von "akubi", welches "Gähnen" bedeutet, ist als Bewegung von Gähnen von Langweile definiert, bei der nichts Spezielles zu tun ist.
Auf diese Weise werden die entsprechenden Verhaltensweisen, welche in jedem der Knoten auszuführen sind, zu denen der Übergang ausgeführt werden kann, definiert, und der Übergang zu jedem dieser Knoten wird durch die Wahrscheinlichkeitstabelle bestimmt. Der Übergang zu jedem Knoten wird durch die Wahrscheinlichkeitstabelle festgelegt, welche die Wahrscheinlichkeit eines Verhaltens in dem Fall der Zustände, wenn Übergang angetroffen wird, festlegt.
Gemäß 14 wird im Fall von Fröhlichkeit, d.h., wenn der Wert Fröhlichkeit den Schwellenwert von 70 überstiegen hat, der als aktueller Schwellenwert gehalten wird, das Ausdrucksverhalten "banzai" mit einer Wahrscheinlichkeit von 100% ausgewählt. Im Fall von Traurigkeit, d.h., wenn der Wert von Traurigkeit den vorher festgelegten Schwellenwert von 70 überstiegen hat, wird das Ausdrucksverhalten von "otikomu", was "Depression" bedeutet, ausgewählt. Im Fall des Ärgers, d.h., wenn der Wert von ANGER den vorher festgelegten Schwellenwert von 70 überstiegen hat, wird das Ausdrucksverhalten "buruburu" mit einer Wahrscheinlichkeit von 100% ausgewählt. Im Fall des Zeitablaufs, d.h., wenn der Wert TIMEOUT gleich dem Schwellenwert von timeout.1 ist, wird das Ausdrucksverhalten "akubi" mit einer Wahrscheinlichkeit von 100% ausgewählt. Bei der vorliegenden Ausführungsform wird das Verhalten immer mit einer Wahrscheinlichkeit von 100% ausgewählt, d.h., das Verhalten wird notwendigerweise manifestiert. Dies ist jedoch nicht einschränkend, so dass das Verhalten "banzai" so sein kann, dass dies mit einer Wahrscheinlichkeit von 70% im Fall von Glücklichkeit ausgewählt wird.
Wenn die Statusübergangstabelle des Äußerungsverhaltensmodell wie oben beschrieben definiert wird, kann die Äußerung durch die Robotervorrichtung beim Antreffen der Emotion des Roboters im Einklang mit Sensoreingangssignalen oder dem Roboterzustand frei gesteuert werden.
Bei der oben beschriebenen Ausführungsform wurden die Dauer, die Tonhöhe und das Klangvolumen als Beispiele von Parametern, welche mit der Emotion modifiziert werden, hergenommen. Dies ist jedoch nicht beschränkend, so dass Satzbildungsfaktoren, welche durch die Emotion beeinträchtigt werden, ebenfalls als Parameter verwendet werden können.
Bei der oben beschriebenen Ausführungsform ist das Emotionsmodell der Robotervorrichtung durch die Emotion gebildet, beispielsweise Fröhlichkeit oder Ärger. Die vorliegende Erfindung ist jedoch nicht auf den Aufbau des Emotionsmodells mittels Emotion beschränkt, so dass das Emotionsmodell auch durch andere Faktoren, welche die Emotion beeinflussen, gebildet sein kann. In diesem Fall werden Parameter, welche den Satz bilden, über diese Faktoren gesteuert.
Bei der Beschreibung der oben beschriebenen Ausführungsform wird angenommen, dass der Emotionsfaktor durch Modifizieren der Parameter der prosodischen Daten hinzugefügt wird, beispielsweise der Tonhöhe, der Dauer oder des Klangvolumens. Dies ist jedoch nicht einschränkend, so dass der Emotionsfaktor durch Modifizieren des Phonems selbst hinzugefügt werden kann.
Es sei angemerkt, dass zum Modifizieren des Phonems selbst ein Parameter VOICED beispielsweise der Tabelle hinzugefügt wird in Verbindung mit den oben beschriebenen entsprechenden Emotionen. Dieser Parameter nimmt zwei Werte an: "+" und "-", so dass, wenn der Parameter "+" ist, der nichtstimmhafte Ton in den stimmhaften Ton umgewandelt wird. Im Fall der japanischen Sprache wird der stimmlose Ton in einen schwachen Ton umgewandelt.
Als Beispiel wird der Fall zum Hinzufügen der Emotion "Traurigkeit" zum Text "kuyashii" angegeben, was "I repent" bedeutet. Die prosodischen Daten, welche von dem Text "kuyashii" gebildet, werden als ein Beispiel dargestellt, wie in der folgenden Tabelle 14 gezeigt ist: Tabelle 14
In der Bewegung "Traurigkeit" ist VOICED" "+", und die Parameter werden im Emotionsfilter 204, wie in der folgenden Tabelle 15 gezeigt, geändert: Tabelle 15
Durch das Phonem "k" und "s", welche in das Phonem "g" bzw. "z" geändert sind, wird der Originaltext "kuyashii" in "guyazii" geändert, was einen Ausdruck zum Äußern von "kuyashii" mit einer Emotion an Traurigkeit angibt.
Anstelle ein bestimmtes Phonem in ein anderes Phonem umzuwandeln, ist es auch möglich, Phonemsymbole bereitzustellen, die gegenüber der Emotion in Bezug auf die Emotion verschieden sind, um das gleiche Phonem auszudrücken und um das Phonemsymbol einer bestimmten Emotion in Abhängigkeit von Parametern auszuwählen. Beispielsweise kann das Standardphonemsymbol, welches den Ton [a] ausdrückt, so gehalten werden, dass dies "a" ist, und unterschiedliche Phonemsymbole, beispielsweise "a_anger", "a_sadness", "a_comfort" und "a_happiness" können für die Emotionen "Ärger", "Traurigkeit", "Komfort" bzw. "Glücklichkeit" vorgesehen sein, und die Phonemsymbole für bestimmte Emotionen können durch Parameter ausgewählt werden.
Die Wahrscheinlichkeit zum Ändern des Phonemsymbols kann dadurch spezifiziert werden, dass der Parameter PROB_PHONEME_CHANGE der Tabelle hinzugefügt wird, welche mit jeder Emotion verknüpft ist. Wenn beispielsweise PROB_PHONEME_CHANGE = 30, werden 30% der Phonemsymbole, welche geändert werden können, in unterschiedliche Phonemsymbole gewandelt. Diese Wahrscheinlichkeit ist nicht auf feste Werte durch die Parameter begrenzt, so dass die Phonemsymbole mit einer Wahrscheinlichkeit geändert werden können, die höher wird, umso höher der Grad der Emotion wird. Da dies ein Auftreten sein kann, dass die Bedeutung nicht durch Ändern lediglich eines Teils der Phoneme übertragen werden kann, kann die Änderungswahrscheinlichkeit auf 100% oder 0% von Wort zu Wort spezifiziert werden.
Das Verfahren zum Ausdrücken der Emotion durch Ändern des Phonems selbst ist nicht nur für den Fall wirksam, wo eine bedeutungsvolle spezifische Sprache geäußert wird, sondern auch für den Fall, wo nicht wahrnehmbare Wörter geäußert werden.
Obwohl das Beispiel zum Ändern der Parameter der prosodischen Daten oder Phoneme durch die Emotion oben erläutert wurde, ist dies nicht einschränkend, so dass die Parameter der prosodischen Daten oder Phoneme geändert werden können, um beispielsweise die Eigenschaft eines Zeichens darzustellen. Das heißt, in einem solchen Fall kann die Randbedingungsinformation ähnlich in einer Weise erzeugt werden, dass der geäußerte Inhalt nicht durch Ändern der Parameter oder Phoneme geändert wird.

Claims

Verfahren zum Erzeugen einer Randbedingungsinformation zur Sprachsynthese, das folgendes umfasst: Speisen eines Schritts (S3) zum Erzeugen einer Randbedingungsinformation mit einer Folge von Aussprachemarkierungen, die einen geäußerten Text spezifizieren, der als Sprache geäußert wird, Erzeugen einer Randbedingungsinformation, die der Änderung der Parameter der prosodischen Daten Begrenzungen auferlegt, auf der Basis: i) einer Information über die Position der Akzente der Folge von Aussprachemarkierungen, oder ii) einer Wortgrenze, oder iii) der Zeitdauer eines Phonems, oder iv) der Betonung auf einem Wort, wobei die Randbedingungsinformation prosodische Merkmale des geäußerten Texts aufrechterhält, wenn Parameter von prosodischen Daten geändert werden, die aus der Folge von Aussprachemarkierungen nach der Parameteränderungssteuerinformation vorbereitet sind.
Verfahren zum Erzeugen einer Randbedingungsinformation nach Anspruch 1, bei welchem der geäußerte Text in einer spezifischen Sprache ist.
Verfahren zum Erzeugen einer Randbedingungsinformation nach Anspruch 1 oder 2, bei welchem die Parameteränderungssteuerinformation die Emotionszustandsinformation oder die Charakterinformation ist.
Verfahren zum Erzeugen einer Randbedingungsinformation nach einem der Ansprüche 1 bis 3, bei welchem die Randbedingungsinformation den prosodischen Daten beigefügt ist.
Verfahren zum Erzeugen einer Randbedingungsinformation nach einem der Ansprüche 1 bis 4, bei welchem die Parameter wenigstens einer sind, der aus der Gruppe ausgewählt ist, die aus Tonhöhe, Dauer und Klangvolumen des Phonems besteht.
Verfahren zum Erzeugen einer Randbedingungsinformation nach Anspruch 5, bei welchem bei dem Schritt (S3) zum Erzeugen einer Randbedingungsinformation eine Randbedingungsinformation zum Halten der Parameter der prosodischen Daten in einem Abschnitt erzeugt wird, der die prosodischen Merkmale enthält, falls die Parameter nicht geändert werden sollten.
Verfahren zum Erzeugen einer Randbedingungsinformation nach Anspruch 5, bei welchem bei dem Schritt (S3) zum Erzeugen einer Randbedingungsinformation eine Randbedingungsinformation zum Halten der Größenrelation, der Differenz oder des Verhältnisses der Parameterwerte in einem Abschnitt erzeugt wird, der die prosodischen Merkmale enthält.
Verfahren zum Erzeugen einer Randbedingungsinformation nach Anspruch 5, bei welchem bei dem Schritt zum Erzeugen einer Randbedingungsinformation eine Randbedingungsinformation zum Halten des Parameterwerts in einem Abschnitt, der die prosodischen Merkmale enthält, innerhalb eines vorbestimmten Bereichs liegt.
Verfahren zum Erzeugen einer Randbedingungsinformation nach einem der Ansprüche 5 bis 8, bei welchem das prosodische Merkmal die Position eines Akzentkerns einer Akzentphrase ist, die in dem geäußerten Text enthalten ist; und bei welchem bei dem Schritt (S3) zum Erzeugen einer Randbedingungsinformation die Information erzeugt wird, welche die Position des Akzentkerns angibt.
Verfahren zum Erzeugen einer Randbedingungsinformation nach einem der Ansprüche 5 bis 8, bei welchem das prosodische Merkmal ein kontinuierlich ansteigendes Tonhöhenmuster oder ein kontinuierlich abfallendes Tonhöhenmuster in der Nachbarschaft des hinteren Endes des geäußerten Texts oder der Nachbarschaft der Grenze eines in dem geäußerten Text enthaltenen Absatzes ist; und wobei bei dem Schritt (S3) zum Erzeugen einer Randbedingungsinformation die das Muster angebende Information erzeugt wird.
Verfahren zum Erzeugen einer Randbedingungsinformation nach einem der Ansprüche 5 bis 8, bei welchem das prosodische Merkmal die Zeitdauer eines spezifizierten Phonems ist, falls die Bedeutung und der Inhalt eines Worts, das in dem geäußerten Text enthalten ist, durch die Differenz der Zeitdauer der spezifizierten Phoneme geändert werden; und bei welchem bei dem Schritt zum Erzeugen einer Randbedingungsinformation die Information erzeugt wird, welche die obere und/oder die untere Grenze der Zeitdauer der spezifizierten Melodie angibt.
Verfahren zum Erzeugen einer Randbedingungsinformation nach einem der Ansprüche 5 bis 8, bei welchem das prosodische Merkmal eine Betonungsposition eines in einem geäußerten Text enthaltenen Worts ist, falls die Bedeutung und der Inhalt eines Worts durch die Betonungsposition geändert werden; und bei welchem bei dem Schritt (S3) zum Erzeugen einer Randbedingungsinformation die Information erzeugt wird, welche die Betonungsposition angibt.
Verfahren zum Erzeugen einer Randbedingungsinformation nach einem der Ansprüche 5 bis 8, bei welchem das prosodische Merkmal die relative Intensität unter jeweiligen Wörtern ist, die in dem geäußerten Text enthalten sind, wenn die Bedeutung und der Inhalt des geäußerten Texts durch die relative Intensität unter den jeweiligen Wörtern geändert werden; und bei welchem bei dem Schritt zum Erzeugen einer Randbedingungsinformation die Information erzeugt wird, welche die relative Intensität angibt.
Sprachsyntheseverfahren, das eine Information über die Emotion empfängt, um Sprache zu synthetisieren, und das folgendes umfasst: einen Schritt (S2) des Bildens prosodischer Daten zum Bilden von prosodischen Daten aus einer Folge von Aussprachemakierungen, die auf einem geäußerten Text basiert, der als Sprache geäußert wird; den Schritt (S3) zum Erzeugen einer Randbedingungsinformation nach einem der vorhergehenden Ansprüche, um eine Randbedingungsinformation zu erzeugen, die zum Aufrechterhalten prosodischer Merkmale des geäußerten Texts verwendet wird; einen Parameteränderungsschritt (S4) zum Ändern der prosodischen Daten unter Berücksichtigung der Randbedingungsinformation in Reaktion auf die Information zu der Emotion; und einen Sprachsyntheseschritt (S5) zum Syntethisieren von Sprache auf der Basis der prosodischen Daten, deren Parameter bei dem Parameteränderungsschritt geändert worden sind.
Sprachsyntheseverfahren nach Anspruch 14, bei welchem bei dem Parameteränderungsschritt (S4) die Parameter der prosodischen Daten in einem die prosodischen Merkmale enthaltenden Abschnitt nicht geändert werden.
Sprachsyntheseverfahren nach Anspruch 14, bei welchem bei dem Parameteränderungsschritt (S4) die Parameter der prosodischen Daten geändert werden, während die Größenrelation, Differenz oder das Verhältnis der Parameterwerte in einem die prosodischen Merkmale enthaltenden Abschnitt aufrechterhalten wird.
Sprachsyntheseverfahren nach Anspruch 14, bei welchem bei dem Parameteränderungsschritt (S4) die Parameter der prosodischen Daten geändert werden, so daß der Parameterwert in einem die prosodischen Merkmale enthaltenden Abschnitt innerhalb eines vorbestimmten Bereichs liegt.
Sprachsyntheseverfahren nach einem der Ansprüche 14 bis 17, bei welchem die Parameter wenigstens einer sind, der aus der Gruppe ausgewählt ist, die aus Tonhöhe, Dauer und Klangvolumen des Phonems besteht, wobei der Parameteränderungschritt (S4) wie nach den Ansprüchen 5 und 9 ist; und wobei bei dem Parameteränderungsschritt die Tonhöhe in den prosodischen Daten geändert wird, falls die Position des Akzents geändert werden sollte.
Sprachsyntheseverfahren nach einem der Ansprüche 14 bis 17, bei welchem die Parameter wenigstens einer sind, der aus der Gruppe ausgewählt ist, die aus Tonhöhe, Dauer und Klangvolumen des Phonems besteht, wobei das prosodische Merkmal ein kontinuierlich ansteigendes Tonhöhenmuster oder ein kontinuierlich abfallendes Tonhöhenmuster in der Nachbarschaft des hinteren Endes des geäußerten Texts oder eines in dem geäußerten Text enthaltenen Absatzes ist; wobei bei dem Schritt (S3) zum Erzeugen einer Randbedingungsinformation die das Muster angebende Information erzeugt wird; und wobei bei dem Parameteränderungsschritt (S4) die Tonhöhe in den prosodischen Daten geändert wird, falls das Muster geändert werden sollte.
Sprachsyntheseverfahren nach einem der Ansprüche 14 bis 17, bei welchem die Parameter wenigstens einer sind, der aus der Gruppe ausgewählt ist, die aus Tonhöhe, Dauer und Klangvolumen des Phonems besteht, wobei das prosodische Merkmal die Zeitdauer eines speziellen Phonems ist, falls die Bedeutung und der Inhalt eines in einem geäußerten Text enthaltenen Worts aufgrund der Differenz in der Dauer des speziellen Phonems in dem Wort geändert werden; wobei bei dem Schritt (S3) zum Erzeugen einer Randbedingungsinformation die Information erzeugt wird, die eine obere Grenze und/oder eine untere Grenze der Zeitdauer des speziellen Phonems spezifiziert; und wobei bei dem Parameteränderungsschritt (S4) die Zeitdauer in den prosodischen Daten geändert wird, um der oberen und/oder der unteren Grenze der Zeitdauer zu genügen.
Sprachsyntheseverfahren nach einem der Ansprüche 14 bis 17, bei welchem die Parameter wenigstens einer sind, der aus der Gruppe ausgewählt ist, die aus Tonhöhe, Dauer und Klangvolumen des Phonems besteht, wobei das prosodische Merkmal die Akzentposition in dem Wort ist, falls die Bedeutung und der Inhalt eines in einem geäußerten Text enthaltenen Worts mit der Akzentposition geändert werden; wobei bei dem Schritt (S3) zum Erzeugen einer Randbedingungsinformation die die Akzentposition angebende Information erzeugt wird; und wobei bei dem Parameteränderungsschritt (S4) das Klangvolumen prosodischen Daten geändert wird, falls die Akzentposition geändert werden sollte.
Sprachsyntheseverfahren nach einem der Ansprüche 14 bis 17, bei welchem die Parameter wenigstens einer sind, der aus der Gruppe ausgewählt ist, die aus Tonhöhe, Dauer und Klangvolumen des Phonems besteht, wobei das prosodische Merkmal die relative Intensität unter mehreren in dem geäußerten Text enthaltenden Wörtern ist, wenn die Bedeutung und der Inhalt des geäußerten Texts durch die relative Intensität geändert werden; wobei bei dem Schritt (S3) zum Erzeugen einer Randbedingungsinformation die die relative Intensität repräsentiertende Information erzeugt wird; und wobei bei dem Parameteränderungsschritt (S4) das Klangvolumen in den prosodischen Daten geändert wird, falls die relative Intensität geändert werden sollte.
Sprachsyntheseverfahren nach einem der Ansprüche 14 bis 17, bei welchem die Parameter wenigstens einer sind, der aus der Gruppe ausgewählt ist, die aus Tonhöhe, Dauer und Klangvolumen des Phonems besteht, wobei mehrere Phonemsymbole vorgesehen sind, die Emotiontszuständen für ein Phonem entsprechen; und wobei bei dem Parameteränderungsschritt (S4) wenigstens ein Teil der Phonemsymbole in Reaktion auf Emotionszustände geändert wird, die in dem Diskriminierungsschritt diskriminiert wurden.
Sprachsyntheseverfahren nach Anspruch 14, bei welchem bei dem Parameteränderungsschritt (S4) wenigstens ein Teil der Phonemsymbole in andere Phonemsymbole geändert wird.
Sprachsyntheseverfahren nach Anspruch 24, bei welchem von einem Phonem in dem geäußerten Text zu einem anderen, von einem Wort in dem geäußerten Text zu einem anderen, von eine Absatz in dem geäußerten Text zu einem anderen, von einer Akzentphrase zu einer anderen oder von einem geäußerten Text zu einem anderen spezifiziert wird, ob die Phonemsymbole geändert werden oder nicht.
Sprachsyntheseverfahren nach einem der Ansprüche 14 bis 25, bei welchem die prosodischen Daten der Folge von Aussprachemarkierungen hinzugefügt werden.
Sprachsyntheseverfahren, das Informationen über die Emotion empfängt, um Sprache zu synthetisieren, das folgendes umfaßt: einen Dateneingabeschritt zu Eingeben von prosodischen Daten, die auf dem als Sprache geäußerten Text basieren, und zum Eingeben einer Randbedingingsinformation zum Aufrechterhalten prosodischer Merkmale des geäußerten Texts; wobei die Randbedingungsinformation der Änderung der Parameter der prosodischen Daten Begrenzungen auferlegt, auf der Basis: i) einer Information über die Position der Akzente der Folge von Aussprachemarkierungen, oder ii) einer Wortgrenze, oder iii) der Zeitdauer eines Phonems, oder iv) der Betonung auf einem Wort, einen Parameteränderungsschritt (S4) zum Ändern von Parametern der prosodischen Daten unter Berücksichtigung der Randbedingungsinformation in Reaktion auf die Emotion; und einen Sprachsyntheseschritt (S5) zum Synthetisieren von Sprache auf der Basis der prosodischen Daten, deren Parameter in dem Parameteränderungsschritt geändert worden sind.
Sprachsyntheseverfahren nach Anspruch 27, bei welchem die Randbedingungsinformation den prosodischen Daten hinzugefügt wird.
Sprachsyntheseverfahren nach einem der Ansprüche 14 bis 28, bei welchem die Parameter wenigstens einer sind, der aus der Gruppe ausgewählt ist, die aus Tonhöhe, Dauer und Klangvolumen des Phonems besteht.
Programmprodukt mit einem Ausführungs-Code, um einen Computer ein Sprachsyntheseverfahren nach einem der Ansprüche 14 bis 29 ausführen zu lassen.
Maschinenlesbares Aufzeichnungsmedium, auf welchem ein Programm aufgezeichnet ist, um einen Computer die Verarbeitung der empfangenen Information über die Emotion ausführen zu lassen, um Sprache zu synthetisieren, wobei der Computer das Sprachsyntheseverfahren nach einem der Ansprüche 14 bis 29 ausführt.
Vorrichtung zum Erzeugen einer Randbedingungsinformation zur Sprachsynthese, die folgendes umfaßt: Mittel zum Speisen eines Schritts (S3) zum Erzeugen einer Randbedingungsinformation mit einer Folge von Aussprachemarkierungen, die einen als Sprache geäußerten Text spezifizieren, Mittel zum Erzeugen (203) einer Randbedingungsinformation, die der Änderung der Parameter der prosodischen Daten Begrenzungen auferlegt, auf der Basis: i) einer Information über die Position der Akzente der Folge von Aussprachemarkierungen, oder ii) einer Wortgrenze, oder iii) der Zeitdauer eines Phonems, oder iv) der Betonung auf einem Wort, wobei die Randbedingungsinformation prosodische Merkmale des geäußerten Texts aufrechterhält, wenn Parameter prosodischer Daten geändert werden, die aus der Folge von Aussprachemarkierungen nach der Parameteränderungssteuerinformation vorbereitet sind.
Vorrichtung zum Erzeugen einer Randbedingungsinformation nach Anspruch 32, bei welcher die Parameteränderungssteuerinformation die Emotionszustandsinformation oder die Charakterinformation ist.
Vorrichtung zum Erzeugen einer Randbedingungsinformation nach Anspruch 32 oder 33, bei welcher die Parameter wenigstens einer sind, der aus der Gruppe ausgewählt ist, die aus Tonhöhe, Dauer und Klangvolumen des Phonems besteht.
Sprachsynthesevorrichtung (200), die Informationen über die Emotion empfängt, um Sprache zu synthetisieren, folgendes aufweisend: Mittel (202) zum Erzeugen prosodischer Daten aus einer Folge von Aussprachemarkierungen, die auf einem als Sprache geäußerten Text basieren; eine Vorrichtung (203) zum Erzeugen einer Randbedingungsinformation nach einem der Ansprüche 32 bis 34, die dazu geeignet ist, prosodische Merkmale des geäußerten Texts aufrechtzuerhalten; Parameteränderungsmittel (204) zum Ändern von Parametern der prosodischen Daten unter Berücksichtigung der Randbedingungsinformation in Reaktion auf die Emotion; und Sprachsynthesemittel (205) zum Synthetisieren von Sprache auf der Basis der prosodischen Daten, deren Parameter von den Parameteränderungsmitteln geändert worden sind.
Autonome Robotervorrichtung (1), die auf der Basis der zu ihr gelieferten Eingabeinformation eine Bewegung durchführt und folgendes aufweist: ein Emotionsmodell, das der Bewegung zuzuschreiben ist; Emotionsdiskriminierungsmittel zum Diskriminieren des Emotionszustands des Emotionsmodells; eine Sprachsynthesevorrichtung (200) nach Anspruch 35.
Autonome Robotervorrichtung nach Anspruch 36, bei welcher der geäußerte Text in einer spezifischen Sprache ist.
Autonome Robotervorrichtung nach Anspruch 36 oder 37, bei welcher die Randbedingungsinformation den prosodischen Daten beigefügt ist.
Autonome Robotervorrichtung nach einem der Ansprüche 36 bis 38 mit einer Sprachsynthesevorrichtung, die eine Vorrichtung zum Erzeugen einer Randbedingungsinformation nach Anspruch 34 aufweist, wobei die Parameteränderungseinrichtung die Parameter der prosodischen Daten in einem die prosodischen Merkmale enthaltenden Abschnitt nicht ändert.
Autonome Robotervorrichtung nach einem der Ansprüche 36 bis 38 mit einer Sprachsynthesevorrichtung, die eine Vorrichtung zum Erzeugen einer Randbedingungsinformation nach Anspruch 34 aufweist, wobei die Parameteränderungseinrichtung (204) die Parameter der prosodischen Daten ändert und die Größenrelation, die Differenz oder das Verhältnis der Parameterwerte in einem die prosodischen Merkmale enthaltenden Abschnitt aufrechterhält.
Autonome Robotervorrichtung nach einem der Ansprüche 36 bis 38 mit einer Sprachsynthesevorrichtung, die eine Vorrichtung zum Erzeugen einer Randbedingungsinformation nach Anspruch 34 umfaßt, wobei die Parameteränderungseinrichtung (204) die Parameter der prosodischen Daten derart ändert, daß der Parameterwert in einem die prosodischen Merkmale enthaltenden Abschnitt innerhalb eines vorbestimmten Bereichs liegt.
Autonome Robotervorrichtung nach einem der Ansprüche 36 bis 41 mit einer Sprachsynthesevorrichtung, die eine Vorrichtung zum Erzeugen einer Randbedingungsinformation nach Anspruch 34 umfaßt, bei welcher das prosodische Merkmal die Position eines Akzentkerns einer Akzentphrase ist, die in dem geäußerten Text enthalten ist; und wobei in der Einrichtung (203) zum Erzeugen einer Randbedingungsinformation die Information erzeugt wird, welche die Position des Akzentkerns angibt; und wobei in der Parameteränderungseinrichtung (204) die Tonhöhe in den prosodischen Daten geändert wird, falls die Position des Akzentkerns geändert werden sollte.
Autonome Robotervorrichtung nach einem der Ansprüche 36 bis 41 mit einer Sprachsynthesevorrichtung, die eine Vorrichtung zum Erzeugen einer Randbedingungsinformation nach Anspruch 34 umfaßt, bei welcher das prosodische Merkmal ein kontinuierliche ansteigendes Tonhöhenmuster oder ein kontinuierlich absteigendes Tonmuster in der Nachbarschaft des hinteren Endes des geäußerten Texts oder der Nachbarschaft der Grenze eines in dem geäußerten Text enthaltenen Absatzes ist; wobei in der Einrichtung zum Erzeugen einer Randbedingungsinformation die Information erzeugt wird, welche das Muster angibt; und wobei in der Parameteränderungseinrichtung (204) die Tonhöhe in den prosodischen Daten geändert wird, falls das Muster geändert werden sollte.
Autonome Robotervorrichtung nach einem der Ansprüche 36 bis 41 mit einer Sprachsynthesevorrichtung, die eine Vorrichtung zum Erzeugen einer Randbedingungsinformation nach Anspruch 34 umfaßt, bei welcher das prosodische Merkmal die Zeitdauer eines speziellen Phonems ist, falls die Bedeutung und der Inhalt eines in einem geäußerten Texts enthaltenen Worts aufgrund der Differenz in der Dauer des speziellen Phonems in dem Wort geändert werden; wobei in der Einrichtung (203) zum Erzeugen einer Randbedingungsinformation die Information erzeugt wird, die eine obere Grenze und/oder eine untere Grenze der Zeitdauer des speziellen Phonems spezifiziert; und wobei in der Parameteränderungseinrichtung (204) die Zeitdauer in den prosodischen Daten geändert wird, so daß der oberen und/oder unteren Grenze der Zeitdauer genügt wird.
Autonome Robotervorrichtung nach einem der Ansprüche 36 bis 41 mit einer Sprachsynthesevorrichtung, die eine Vorrichtung zum Erzeugen einer Randbedingungsinformation nach Anspruch 34 umfaßt, bei welcher das prosodische Merkmal die Betonungsposition ist, falls die Bedeutung und der Inhalt eines in dem geäußerten Text enthaltenen Worts mit einer Betonungsposition in dem Wort geändert werden; wobei in der Einrichtung (203) zum Erzeugen einer Randbedingungsinformation die Information erzeugt wird, welche die Betonungsposition angibt; und wobei in der Parameteränderungseinrichtung (204) das Klangvolumen in den prosodischen Daten geändert wird, falls die Betonungsposition geändert werden sollte.
Autonome Robotervorrichtung nach einem der Ansprüche 36 bis 41 mit einer Sprachsynthesevorrichtung, die eine Vorrichtung zum Erzeugen einer Randbedingungsinformation nach Anspruch 34 umfaßt, bei welcher das prosodische Merkmal die relative Intensität unter mehreren in dem geäußerten Text enthaltenen Wörtern ist, wenn die Bedeutung und der Inhalt des geäußerten Texts durch die relative Intensität geändert werden; wobei in der Einrichtung (203) zum Erzeugen einer Randbedingungsinformation die Information erzeugt wird, welche die relative Intensität repräsentiert; und wobei in der Parameteränderungseinrichtung (204) das Klangvolumen in den prosodischen Daten geändert wird, falls die relative Intensität geändert werden sollte.
Autonome Robotervorrichtung nach einem der Ansprüche 36 bis 46, die ferner Emotionsmodelländerungsmittel zum Bestimmen der Bewegung durch Ändern des Zustands des Emotionsmodells auf der Basis der Eingabeinformation aufweist.
Sprachsynthesevorrichtung, die Informationen über die Emotion empfängt, um Sprache zu synthetisieren, und folgendes aufweist: Dateneingabemittel zum Eingeben von prosodischen Daten, die auf dem als Sprache geäußerten Text basieren, und zum Eingeben einer Randbedingungsinformation zum Aufrechterhalten prosodischer Merkmale des geäußerten Texts; wobei die Randbedingungsinformation der Änderung der Parameter der prosodischen Daten Begrenzungen auferlegt, auf der Basis: i) einer Information über die Position von Akzenten der Folge von Aussprachemarkierungen, oder ii) einer Wortgrenze, oder iii) der Zeitdauer eines Phonems, oder iv) der Betonung auf einem Wort, Parameteränderungsmittel (204) zum Ändern von Parametern der prosodischen Daten unter Berücksichtigung der Randbedingungsinformation in Reaktion auf die Emotion; und Sprachsynthesemittel (205) zum Synthetisieren von Sprache auf der Basis der prosodischen Daten, deren Parameter in dem Parameteränderungsschritt geändert worden sind.
Sprachsynthesevorrichtung nach Anspruch 48, bei welcher die Parameter wenigstens einer sind, der aus der Gruppe ausgewählt ist, die aus Tonhöhe, Dauer und Klangvolumen des Phonems besteht.
Autonome Robotervorrichtung, die eine Bewegung auf der Basis der zu ihr gelieferten Eingabeinformation durchführt, die folgendes aufweist: ein Emotionsmodell, das der Bewegung zuzuschreiben ist; Emotionsdiskriminierungsmittel zum Diskriminieren des Emotionszustands des Emotionsmodells; eine Sprachsynthesevorrichtung nach Anspruch 48 oder 49.
Autonome Robotervorrichtung nach Anspruch 50, bei welcher die Randbedingungsinformation den prosodischen Daten beigefügt ist.