-
HINTERGRUND DER ERFINDUNG
-
1. Gebiet der Erfindung
-
Die
vorliegende Erfindung betrifft die virtuelle Fernsehtelefon-Kommunikation
unter Verwendung einer Kommunikationsendgerätvorrichtung mit einem Anzeigegerät, damit
ein Teilnehmer ein Gespräch
in einer visuellen Umgebung über
virtuelle dreidimensionale computergrafische Figuren (CG-Figuren)
führen
kann.
-
2. Beschreibung des Standes
der Technik
-
Herkömmlich ist
das, was als Fernsehtelefonvorrichtung bezeichnet wird, eine Vorrichtung
zum Führen
eines Gesprächs
mit einem Partner über
ein Telefongerät
mit einer Kamera und einem Anzeigegerät, bei dem man das von der
Kamera aufgenommene Bild des Gesichts des Partners sieht. Um die Übertragungsdatenmenge
zu verringern, werden die Gesichtsbilddaten in der Regel komprimiert,
mit den Sprachdaten gemultiplext und an einen Empfänger gesendet.
Auf der Empfangsseite werden die gemultiplexten Daten in die Sprachdaten
und die komprimierten Bilddaten geteilt, die Bilddaten werden dekomprimiert,
und dann wird die Sprache ausgegeben und das Bild wird synchron
mit der Sprache angezeigt. Vor kurzem ist ein Mobiltelefon mit der
Bezeichnung „Videophone" für die Mobilkommunikation
der nächsten
Generation (IMT-2000) nach dem Bildkompressionsstandard MEPG-4 (Fachgruppe
Bewegtbild, Phase 4) entwickelt worden (siehe Nikkei Electronics,
01.11.1999, Nr. 756, S. 99–117).
-
Um
das vorgenannte gemultiplexte Bild zu senden, sind ein Kommunikationsstandard
für Breitband über den
Rahmen der herkömmlichen
Sprachkommunikation hinaus und eine Infrastruktur zum Realisieren
dieser Breitbandkommunikation erforderlich. Daher gibt es eine Erfindung,
die eine Funktion ähnlich
einem Fernsehtelefon nur über
Sprachdatenkommunikation (siehe
Japanische
Offenlegungsschrift Nr. S62-274962 ) und nicht mit den vorgenannten
Bildkompressionsverfahren künstlich
realisieren will. Nach dieser Erfindung hält das Telefon vorher ein statisches
Bild des Gesichts eines Partners, das zu einem Gesicht ohne Mund
verarbeitet wird, sowie statische Bilder von Mündern, die zu Formen des Aussprechens
von Vokallauten, wie etwa a, i und u im Japanischen, verarbeitet
werden. Die Vokale, die in den von dem Partner gesendeten Sprachdaten
enthalten sind, werden unter Verwendung einer Spracherkennungstechnologie
analysiert, und die auf dem Analysenergebnis beruhenden Mundformdaten werden
zu dem Gesichtsbild gemischt und immer dann angezeigt, wenn es erforderlich
ist, um das Erscheinungsbild des Partners, der gerade spricht, anzuzeigen.
Der Vorteil dieser Erfindung besteht darin, dass sie eine künstliche
Fernsehtelefon- Kommunikation
im Rahmen der normalen Sprachkommunikation realisieren kann. Es
bestehen jedoch Zweifel daran, ob nicht der Teilnehmer ein Bild,
das keine Bewegung, sondern einen Mund zeigt, für unnatürlich hält oder ob der Teilnehmer Lust
haben kann, mit dem Partner zu sprechen.
-
Über den
Rahmen der Sprachkommunikation hinaus gibt es eine weitere Erfindung,
die eine Bild-Erkennungstechnologie verwendet, um die Datenmenge
zu verringern, anstatt das Bild selbst zu senden (siehe
Japanische Offenlegungsschrift
Nr. H05-153581 ). Bei dieser Erfindung werden Gesichtsausdrücke und
Mundformen unter Verwendung der Bild-Erkennungstechnologie erkannt, in Parameter umgewandelt
und zusammen mit den Sprachdaten gesendet. Der Empfänger, der
vorher das dreidimensionale Modell des Partners hält, wandelt
das dreidimensionale Modell aufgrund der empfangenen Parameter um
und zeigt es bei der Ausgabe der Sprache an.
-
Die
drei vorgenannten Erfindungen dienen alle dazu, ein Gespräch mit einem
Partner zu führen und
dabei sein Gesicht zu sehen, und nicht dazu, mehr Vergnügen an dem
Gespräch
zu haben.
-
Diese
Erfindungen betreffen die sogenannte Telefontechnologie. Die Verbreitung
des Internets ermöglicht
es uns, ein Gespräch über einen
Personal Computer zu führen,
auch wenn es hauptsächlich
ein textgestütztes
Gespräch
ist. Es gibt eine Erfindung, bei der unter diesen Umständen ein
Teilnehmer eine CG-Figur hat, die ihn als Teilnehmer in einem gemeinsamen
virtuellen Raum darstellt, um ein Gespräch mit einer Figur zu führen, die
einen anderen Teilnehmer in diesem Raum darstellt (siehe
US-Patent Nr. 5.880.731 ).
Das Ziel dieser Erfindung ist es, ein Gespräch mit einem Partner anonym
zu führen und
den Teilnehmer unabhängig
von seiner eigenen Realität
an dem Gespräch
teilnehmen zu lassen, sodass er oft ein imaginäres Gespräch mit Fiktionen führt. Die
CG-Figur, die den Teilnehmer darstellt, wird als Avatar bezeichnet,
da sie für
den Teilnehmer agiert, der die Figur wählt. Der Teilnehmer selbst wählt diesen
Avatar, und sein Gesprächspartner kann
die Figur des Avatars nicht ändern.
Und da dieser Avatar nur dazu dient, dass die anderen Teilnehmer
den Partner identifizieren können,
muss er auch nicht geändert
werden. Für
die Realisierung dieser Erfindung wird außer den Endgerätrechnern
der Teilnehmer (Client-Rechner) auch ein Server-Rechner zum Verwalten
des gemeinsamen virtuellen Raums für die Teilnehmer und zum Steuern
ihrer Zustände benötigt.
-
Eine
Technologie zum Führen
eines Gesprächs
mit einer virtuellen CG-Figur wird beispielsweise von der Extempo
Systems Inc. auf ihrer Internet-Webseite beschrieben. Sie betrifft
ein textgestütztes
Gespräch
mit Fach-Figuren im Internet, keine Sprachkommunikation.
-
In
technischer Hinsicht will diese Erfindung ein Gespräch zwischen
einer CG-Figur und einer Person dadurch herstellen, dass ein Konversationswörterbuch,
das vorher in Schlüsselwörter unterteilt wird,
erstellt wird, die Übereinstimmung
zwischen dem Gesprächsinhalt
des Partners und den unterteilten Schlüsselwörtern analysiert wird und der
am besten passende Gesprächssatz
angezeigt wird. Das Gespräch
an sich wird wegen des guten Vermögens des Menschen, ein Gespräch zu verstehen,
auch mit einem mehrdeutigen Satz hergestellt, aber die wiederholte
Anzeige des gleichen Satzes wird während des Gesprächs schrittweise
erhöht,
da die Anzahl der registrierten Gesprächssätze begrenzt ist. Diese Erfindung
ermöglicht
eine neuartige Unterhaltung durch Führen eines Gesprächs mit
einer virtuellen CG-Figur, aber ein solches Gespräch unterscheidet
sich hinsichtlich Flexibilität,
Vielfalt, Angemessenheit und Individualität stark von dem Gespräch mit einem
echten Menschen. Das Ziel dieser Technologie ist die Art und Weise,
sich dem Gesprächsvermögen eines echten
Menschen zu nähern.
-
Der
vorstehende Stand der Technik hat folgende Merkmale. Die ersten
drei Erfindungen wurden auf die Forderung hin entwickelt, ein Gespräch zu führen und
dabei das Gesicht des Partners zu sehen, und ihr Ziel war es, ein
Gespräch
zu führen
und dabei den Ausdruck und das Erscheinungsbild des Partners zu
ermitteln. Sie sind nicht dazu bestimmt, durch Bearbeiten des angezeigten
Bilds und der Sprache durch eine Art eigene Aktion des Empfängers das
Gespräch
angenehmer machen, und die Technologie für diesen Zweck wird nicht beschrieben.
-
Der
vierte Stand der Technik wurde entwickelt, um eine CG-Figur zu haben,
die von einem Teilnehmer in einem gemeinsamen virtuellen Raum anonym
gewählt
wird, und um ein direktes und offenes Gespräch oder ein imaginäres und
fiktives Gespräch aufgrund
dieser Anonymität
zu führen.
Daher soll die CG-Figur des Gesprächspartners nur den Partner identifizieren
und nicht dazu dienen, die Unterhaltung dadurch angenehmer zu machen,
dass die CG-Figur und ihre Sprache irgendetwas tun. Der fünfte Stand der
Technik hat einen Aspekt des Vergnügens an einem Gespräch mit einer
virtuellen CG-Figur, die eine künstlich
intelligente Gesprächsfunktion
hat, aber ein solches Gespräch
unterscheidet sich hinsichtlich Flexibilität, Angemessenheit und Individualität ziemlich stark
von einem Gespräch
mit einem echten Menschen.
-
Die
Patentanmeldung
JP
2001 087559 A beschreibt eine virtuelle Fernsehtelefonvorrichtung
mit: einer Kommunikationseinheit, die so betreibbar ist, dass sie
eine Sprachkommunikation durchführt;
einer Figurenauswähleinheit,
die so betreibbar ist, dass sie CG-Figurengestaltdaten für einen
Teilnehmer und/oder einen Kommunikationspartner auswählt; einer
Spracheingabeeinheit, die so betreibbar ist, dass sie die Sprache
des Teilnehmers erfasst; einer Sprachausgabeeinheit, die so betreibbar
ist, dass sie die Sprache des Kommunikationspartners ausgibt; einem
Organismussensor, der so betreibbar ist, dass er Organismusdaten,
wie etwa Pulsfrequenz oder Perspiration des Teilnehmers, misst;
einer Emotionsmutmaßungseinheit,
die so betreibbar ist, dass sie unter Verwendung eines Ergebnisses
aus Organismusdaten von dem Organismussensor einen Emotionszustand
des Teilnehmers mutmaßt;
einer Bewegungssteuereinheit, die so betreibbar ist, dass sie eine Bewegung
der CG-Figur des Teilnehmers aufgrund der Mutmaßung durch die Emotionsmutmaßungseinheit
steuert; einer Bild-Erzeugungseinheit, die so betreibbar ist, dass
sie ein Bild unter Verwendung der CG-Figurengestaltdaten und von
Bewegungsdaten des Teilnehmers erzeugt, die aufgrund von von der
Bewegungssteuereinheit erzeugten Steuerinformationen erzeugt werden;
und einer Anzeigeeinheit, die so betreibbar ist, dass sie das Bild anzeigt,
das von der Bild-Erzeugungseinheit erzeugt wird.
-
KURZE DARSTELLUNG DER ERFINDUNG
-
Um
die vorgenannten Probleme zu lösen,
ist es Ziel der vorliegenden Erfindung, ein Kommunikationsendgerät mit einer
Anzeigefunktion zur Verfügung
zu stellen, das einen Kommunikationspartner als virtuelle dreidimensionale
CG-Figur anzeigt, die von einem Kommunikationsempfänger ausgewählt wird
und es dem Empfänger
ermöglicht,
ein Gespräch
mit der virtuellen dreidimensionalen CG-Figur unter Verwendung des
Gesprächs
mit dem Partner zu führen.
Erfindungsgemäß kann ein
neuartiges Kommunikationsendgerät
mit einem amüsanteren Gespräch mit einem
anderen Ansatz als den Funktionen „Sehen des Gesichts eines
Kommunikationspartners oder Sehen eines visuellen Bilds, das dem Gesicht
des Partners ähnlich
ist" und „Agieren
als virtuelle Figur" realisiert
werden.
-
Ein
weiteres Ziel der vorliegenden Erfindung ist es, eine Telefonvorrichtung
mit einem Anzeigegerät
zur Verfügung
zu stellen, das ein Gespräch
in einem virtuellen Raum ohne ein Gerät wie ein Server realisiert,
der für
den vorgenannten Stand der Technik verwendet wird.
-
Ein
weiteres Ziel der vorliegenden Erfindung ist es, eine neuartige
Telefonvorrichtung zur Verfügung
zu stellen, bei der eine 3-D-CG-Figur Emotionen entsprechend dem
Telefongespräch
ausdrückt.
-
Um
die vorgenannten Ziele zu erreichen, weist die erfindungsgemäße virtuelle
Fernsehtelefonvorrichtung Folgendes auf: eine Kommunikationseinheit,
die so betreibbar ist, dass sie eine Sprachkommunikation durchführt; eine
Figurenauswähleinheit, die
so betreibbar ist, dass sie CG-Figurengestaltdaten für einen
Teilnehmer und/oder einen Kommunikationspartner auswählt; eine
Spracheingabeeinheit, die so betreibbar ist, dass sie die Sprache
des Teilnehmers erfasst; eine Sprachausgabeeinheit, die so betreibbar
ist, dass sie die Sprache des Kommunikationspartners ausgibt; eine
Sprachanalysiereinheit, die so betreibbar ist, dass sie Sprachdaten
des Kommunikationspartners, die mit der Kommunikationseinheit empfangen
werden, oder sowohl Sprachdaten des Kommunikationspartners als auch
Sprachdaten des Teilnehmers analysiert; eine Emotionsmutmaßungseinheit,
die so betreibbar ist, dass sie unter Verwendung eines Ergebnisses
der Sprachanalyse mit der Sprachanalysiereinheit einen Emotionszustand
des Kommunikationspartners oder Emotionszustände des Kommunikationspartners
und des Teilnehmers mutmaßt;
eine Bewegungssteuereinheit, die so betreibbar ist, dass sie eine
Bewegung der CG-Figur aufgrund der Mutmaßung mit der Emotionsmutmaßungseinheit
steuert; eine Bild-Erzeugungseinheit, die so betreibbar ist, dass
sie ein Bild unter Verwendung der CG-Figurengestaltdaten und von
Bewegungsdaten erzeugt, die aufgrund von von der Bewegungssteuereinheit
erzeugten Steuerinformationen erzeugt werden; und eine Anzeigeeinheit, die
so betreibbar ist, dass sie das Bild anzeigt, das von der Bild-Erzeugungseinheit
erzeugt wird.
-
Bei
der erfindungsgemäßen virtuellen
Fernsehtelefonvorrichtung teilt die Emotionsmutmaßungseinheit
der Bewegungssteuereinheit ein Ergebnis der Mutmaßung mit
der Emotionsvermutungseinheit mit, und die Bewegungssteuereinheit
erzeugt die Bewegungsdaten aufgrund der Mitteilung.
-
Die
vorliegende Erfindung kann nicht nur als die vorstehende virtuelle
Fernsehtelefonvorrichtung, sondern auch als virtuelles Fernsehtelefon-Kommunikationsverfahren
mit Schritten, die von den in dieser virtuellen Fernsehtelefonvorrichtung
enthaltenen Einheiten ausgeführt
werden, oder als virtuelles Fernsehtelefonsystem, das diese Schritte
verwendet, realisiert werden.
-
Außerdem kann
die vorliegende Erfindung auch als Programm realisiert werden, das
einen Computer das vorgenannte virtuelle Fernsehtelefon-Kommunikationsverfahren
realisieren lässt,
und das Programm kann über
ein Aufzeichnungsmedium, wie etwa eine CD-ROM, und ein Übertragungsmedium,
wie etwa ein Kommunikationsnetzwerk, verteilt werden.
-
Der
Inhalt der
Japanischen Offenlegungsschrift
Nr. 2001-387424 , die am 20.12.2001 eingereicht wurde, gilt
hiermit im Rahmen dieser Anmeldung vollumfänglich als geoffenbart.
-
KURZE BESCHREIBUNG DER ZEICHNUNGEN
-
Diese
und weitere Ziele, Vorzüge
und Merkmale der Erfindung dürften
aus der nachstehenden Beschreibung in Verbindung mit den beigefügten Zeichnungen
hervorgehen, die spezielle Ausführungsformen
der Erfindung zeigen. In den Zeichnungen sind:
-
1 ein
Blockdiagramm, das den Aufbau einer virtuellen Fernsehtelefonvorrichtung
nach einer ersten Ausführungsform
der vorliegenden Erfindung zeigt;
-
2 ein
Blockdiagramm, das den Aufbau einer virtuellen Fernsehtelefonvorrichtung
nach einer zweiten Ausführungsform
der vorliegenden Erfindung zeigt;
-
3 eine
erläuternde
Darstellung einer CG-Figurendaten-Verwaltungstabelle und eines CG-Figuren-Auswahlbildschirms
nach der vorliegenden Erfindung;
-
4A eine
erläuternde
Darstellung einer Kommunikationspartner-Verwaltungstabelle, einer CG-Daten-Verwaltungstabelle
und einer Sprach-/Musik-Verwaltungstabelle nach der vorliegenden
Erfindung;
-
4B ein
Ablaufdiagramm, das die erfindungsgemäße Einstelloperation zeigt;
-
5A eine
erläuternde
Darstellung einer Sprachintensitätsanalyse
und einer Lippenbewegungsoperation nach der vorliegenden Erfindung;
-
5B eine
erläuternde
Darstellung einer Phonem-Analyse und einer Lippenbewegungsoperation
nach der vorliegenden Erfindung;
-
6A eine
erläuternde
Darstellung des Übergangs
von Ausdrücken
nach der vorliegenden Erfindung;
-
6B eine
erläuternde
Darstellung des Übergangs
von Körperbewegungen
nach der vorliegenden Erfindung;
-
7 eine
erläuternde
Darstellung einer Pipeline-Verarbeitung und einer Anzeige nach der vorliegenden
Erfindung;
-
die 8A und 8B schematische
Darstellungen der vorliegenden Erfindung;
-
9 ein
Ablaufdiagramm, das die Verarbeitungsschritte eines Emotionsmutmaßungsverfahrens zeigt,
das ein Frequenzsignal verwendet;
-
10A eine Referenzdarstellung, die eine weitere
Nutzungsweise für
die erste und zweite Ausführungsform
der vorliegenden Erfindung zeigt;
-
10B eine Referenzdarstellung, die eine weitere
Nutzungsweise für
die erste und zweite Ausführungsform
der vorliegenden Erfindung zeigt;
-
11 ein
Blockdiagramm, das eine Sensoreinheit zeigt, die in der erfindungsgemäßen virtuellen
Fernsehtelefonvorrichtung zusätzlich
verwendet wird;
-
12A eine Darstellung, die ein Beispiel dafür zeigt,
wie ein Mobiltelefon mit verschiedenen Sensoreinheiten zur Emotionsmutmaßung verwendet
wird; und
-
12B eine Referenzdarstellung, die ein Mobiltelefon
mit verschiedenen Sensoreinheiten zur Emotionsmutmaßung zeigt.
-
BESCHREIBUNG DER BEVORZUGTEN
AUSFÜHRUNGSFORMEN
-
Erste Ausführungsform
-
Nachstehend
wird eine virtuelle Fernsehtelefonvorrichtung nach der ersten Ausführungsform
der vorliegenden Erfindung unter Bezugnahme auf die Zeichnungen
erläutert.
-
1 zeigt
den Aufbau der virtuellen Fernsehtelefonvorrichtung nach der ersten
Ausführungsform
der vorliegenden Erfindung. Die virtuelle Fernsehtelefonvorrichtung
weist Folgendes auf: eine Kommunikationseinheit 1, eine
Figurenhintergrundauswahl-Eingabeeinheit 2, eine Datenverwaltungseinheit 3,
eine Sprach-/Musikauswahl-Eingabeeinheit 4, eine Sprach-/Musik-Verarbeitungseinheit 5, eine
Sprach-/Musik-Umwandlungseinheit 6, eine Sprach-/Musik-Ausgabeeinheit 7,
eine Spracheingabeeinheit 8, eine Sprachanalysiereinheit 9,
eine Emotionsmutmaßungseinheit 10,
eine Lippenbewegungs-Steuereinheit 11, eine Körperbewegungs-Steuereinheit 12,
eine Gesichtsausdrucks-Steuereinheit 13, eine 3-D-Bild-Zeicheneinheit 14,
eine Anzeige-Einheit 15; eine Bewegungs-/Ausdrucks-Eingabeeinheit 16,
eine Aufnahmeortänderungs-Eingabeeinheit 17,
eine Figurengestaltdaten-Speichereinheit 18, eine Figurenbewegungsdaten-Speichereinheit 19,
eine Hintergrunddaten-Speichereinheit 20, eine Texturdaten-Speichereinheit 21 und
eine Musikdaten-Speichereinheit 22.
-
Nachstehend
wird die wie vorstehend gestaltete virtuelle Fernsehtelefonvorrichtung
nach der ersten Ausführungsform
der vorliegenden Erfindung näher
erläutert.
Die erste Ausführungsform
der vorliegenden Erfindung wird in zwei Operationen unterteilt: Einstelloperation
und Ankommender/abgehender-Ruf-Operation. Bevor diese Operationen
nacheinander erläutert
werden, werden die in den Geräten gespeicherten
Daten und deren Verwaltung als gemeinsamer Gegenstand dieser Operationen
erläutert.
-
Gespeicherte Daten und deren Verwaltung
-
In
der Figurengestaltdaten-Speichereinheit 18 werden Formdaten
einer CG-Figur und die entsprechenden Daumennageldaten (Bilddaten,
die das Erscheinungsbild der CG-Figur zeigen) gespeichert und mit
ihren Adressen verwaltet. Die Figurengestaltdaten umfassen Körperteile,
wie etwa Kopf, obere Gliedmaßen,
Rumpf, untere Gliedmaßen,
und jeder Teil umfasst außerdem
Unterteile, wie etwa Augen, Nase, Mund und Haare am Kopf und Hände, Unterarme
und Oberarme an den oberen Gliedmaßen. Für eine noch detailliertere
Figurengestalt umfassen die Unterteile weitere Unterteile, wie etwa
Finger und Handteller an den Händen.
Diese hierarchische Struktur zeigt die Struktur der Figurengestalt
und wird allgemein als Ansichtszeichnung bezeichnet. Jeder Teil
und Unterteil wird normalerweise durch einen Satz von Flächen dargestellt,
der durch Polygonnäherung
einer Objektfläche
erhalten wird, was als Flächenmodell
bezeichnet wird. Sie bestehen aus Daten in einem dreidimensionalen
Raum, wie etwa Scheitelkoordinaten, normalen Vektor-Elementen an
den Scheiteln (die für
die Berechnung der Lichtquellenhelligkeit wichtig sind), Stroke-Daten,
die durch Indexieren von Textur-Koordinaten erhalten werden (die für die Textur-Abbildung
wichtig sind) und topologischen Daten, die die Verbindung zwischen
diesen Daten darstellen (sie stellen beispielsweise ein Dreieck
dar, dessen Spitzen Punkte 1, 2 und 3 sind, wenn die Spitzen-Indices
in der Reihenfolge 1, 2 und 3 angegeben sind), und sie umfassen
außerdem
Attributdaten, wie etwa die Reflexionsraten jeder Oberfläche (Streureflexionsrate
und Spiegelreflexionsrate), Umgebungslichtintensität und Objektfarbe.
Wenn die Bekleidung der CG-Figur durch Texturabbildung dargestellt
wird, wird die Adresse in der Texturdaten-Speichereinheit 21 für die zu
verwendende Textur oder der entsprechende Identifikator in dem entsprechenden
Teil in den Formdaten der CG-Figur angegeben.
-
In
der Figurenbewegungsdaten-Speichereinheit 19 werden Bewegungsdaten
des Körpers
der CG-Figur und Körperbewegungsmusterdaten,
das heißt, Übergangsgraph-Daten
der Körperbewegung, Ausdrucksdaten
und Ausdrucksmusterdaten sowie Lippenbewegungsdaten und Lippenbewegungsmusterdaten
gespeichert und mit ihren Adressen verwaltet.
-
Wie
es bei der CG-Figurenanimation üblich ist,
sind die Körperbewegungsdaten
Zeitreihendaten einer Parallelbewegungsstrecke, die die gesamte Körperbewegung
entlang einer Route darstellt, die aus folgenden Elementen besteht:
typische Punkte des Körpers
im dreidimensionalen Raum; Drehwinkel entlang der drei Koordinatenachsen
im dreidimensionalen Raum, der die Lage des gesamten Körpers darstellt,
oder Drehwinkel entlang dem Vektor des Vektor-Elements, das die
Mittelachse der Drehung darstellt; und Drehwinkel entlang den Koordinatenachsen
des lokalen Koordinatensystems, der von jeder Verbindung definiert
wird. Die CG-Figurengestaltdaten werden von dem Transformationssystem
des lokalen Koordinatensystems an diesen Routenpositionen und Verbindungen
transformiert, der Standort und die Richtung der CG-Figur und die
Haltung des CG-Figurenkörpers
zu jedem Zeitpunkt werden erzeugt, und aufgrunddessen wird eine
Verarbeitung zu einer dreidimensionalen Zeichnung durchgeführt. Diese
Operationen werden kontinuierlich ausgeführt, um die CG-Animation zu realisieren.
Wenn die Technologie der Schlüsselrahmen-Animation
verwendet wird, werden zur Durchführung der Interpolationsberechnung
der Bewegungen während
eines Zeitraums nicht die Körperbewegungsdaten
aller Frames verwendet, sondern es werden die diskreten Zeitreihendaten
verwendet. Daher sind die Körperbewegungsdaten
in diesem Fall die diskreten Zeitreihendaten der vorgenannten Parallelbewegungsstrecke
und des Winkels.
-
Die
Körperbewegungsmusterdaten
sind Endzustandsgraph-Daten, wie in 6B gezeigt,
die aus der Beziehung zwischen einer Bewegung und einer anderen
Bewegung, in die die Bewegung von dieser Bewegung übergehen
kann, und Entitätsbewegungsinformationen
(Bewegungs-ID, Datentyp, Adresse und Frame-Nummer der Körperbewegung jeder
Entität
und Wahrscheinlichkeit für
jeden Übergang)
bestehen. Beispielsweise zeigt 6B, dass ein Übergang
von den Körperbewegungsdaten,
die den Normalzustand darstellen, zu der Bewegung A, Bewegung C,
Bewegung D oder Bewegung E möglich
ist. Wenn im Normalzustand ein festgelegtes Ereignis auftritt, wird
eine der Bewegungen A, C, D und E entsprechend der Wählverarbeitung
aufgrund der in den Entitätsbewegungsinformationen
angegebenen Übergangswahrscheinlichkeit
ausgewählt,
und die Entität
der Bewegung wird mit der Adresse erfasst. Bei der vorliegenden
Ausführungsform
werden die Körperbewegungsmusterdaten
nach Beginn des Gesprächs
unter der Voraussetzung erläutert, dass der Übergang
von einem Ereignis ausgelöst
wird, das heißt,
dem Ergebnis, das von der Emotionsmutmaßungseinheit 10 gemutmaßt wird,
wie etwa ein normaler Zustand, lachender Zustand, weinender Zustand,
wütender
Zustand, besorgter Zustand und überzeugter
Zustand, und dem Ergebnis, das von der Bewegungs-/Ausdrucks-Eingabeeinheit 16 eingegeben
wird, aber die vorliegende Erfindung kann auch dann ausgeführt werden,
wenn der Übergang
von einem Ereignis, das durch ein komplizierteres Mutmaßungsergebnis
aufgetreten ist, oder einer anderen Eingabe ausgelöst wird.
Da die Körperbewegungen von
der Struktur der Gestaltdaten (Knochenbau und hierarchische Struktur)
abhängen
(beispielsweise kann eine Bewegung eines sechsbeinigen Insekts nicht
auf eine Bewegung eines zweibeinigen Menschen angewendet werden)
und nicht immer alle Körperbewegungen
für die
Gestaltdaten verwendet werden können,
werden die Körperbewegungen
aufgrund der Entitätsbewegungsinformationen
in nutzbare und nichtnutzbare Daten klassifiziert. Und wenn neue
Körperbewegungsmusterdaten,
die auf der oberen Hierarchie der vorgenannten Körperbewegungsmusterdaten bereitgestellt
werden, die Adressen von Entitäten
von einer Vielzahl von Körperbewegungsmusterdaten
verwalten, können
die vorgenannten Körperbewegungsmusterdaten
in die neuen Körperbewegungsmusterdaten
der höheren
Ebene integriert werden. Beispielsweise ist es sehr effektiv, wenn
das Körperbewegungsmuster
wie ein Szenenwechsel geändert
wird.
-
Die
Ausdrucksdaten sind Daten zum Erzeugen von Gesichtsausdrücken der
CG-Figur, wie in 6A gezeigt. Die Ausdrücke werden
unter Verwendung eines üblichen
Gesichtsanimationsverfahrens, wie etwa eines Verfahrens zum Ändern der
Gestalt des Gesichts oder der Textur des Gesichts, erzeugt. Wenn
die Gestalt des Gesichts geändert
wird, sind die Zeitreihendaten der Bewegungsstrecken der Scheitelkoordinaten,
die den Endpunkten, wie etwa Augenbraue, Auge und Mund, zum Erzeugen
von Ausdrücken
entsprechen, unter den Gesichtsgestaltdaten die Ausdrucksdaten.
Diese Bewegungsstrecken können
aufgrund eines Gesichtsmuskelmodells durch Simulation berechnet
werden. Wenn sich die Scheitel für
die Transformation über
mehrere Transformationssysteme hinweg erstrecken, wird auch ein Hüllkurvenverfahren
verwendet, um die Scheitel für jede
Transformation zu gewichten, dann die gewichteten Scheitel in jedem
Transformationssystem zu transformieren, um mehrere Scheitel zu
berechnen, und um sie zu Koordinaten zu transformieren, deren Mittelwert
unter Berücksichtigung
der Gewichtung ermittelt wird. In 6A ist
jede Emotion durch Ändern der
Augenform, Nasengröße, Ohrenform,
Gesichtsform usw. dargestellt. Und wenn die Textur geändert wird,
umfassen die Ausdrucksdaten die Textur des Ausdrucks, wie etwa Lachen
und Weinen, oder die Textur in dem Prozess des Umwandelns in diese Ausdrücke. Die
Ausdrucksmusterdaten sind Übergangsgraphdaten
dieser Ausdrucksdaten, wie bei den Übergangsgraphdaten der Körperbewegungsdaten,
und enthalten einen Endzustandsgraphen, in dem bestimmte Ausdrucksdaten
in andere Ausdrucksdaten und Entitätsausdrucksinformationen (Ausdrucks-ID,
Datentyp, Adresse und Frame-Nummer aller Entitätsausdrucksinformationen und
Wahrscheinlichkeit jedes Übergangs) übergehen
können. 6A zeigt
beispielsweise, dass das normale Gesicht für den Übergang in ein anderes Gesicht
nicht umgangen werden kann, und der Ausdruck nach dem Übergang
wird aufgrund der Übergangswahrscheinlichkeit
der Entitätsausdrucksinformationen ausgewählt. Aufgrund
des Datentyps der Entitätsausdrucksinformationen
wird wie bei der Körperbewegung
ermittelt, ob es sich um einen Ausdruck oder eine Textur handelt,
und die verwendbare Gestalt wird ermittelt. Beispielsweise wird
als Gestaltidentifikationszahl eine zwei- oder mehrstellige Zahl
zugewiesen, wobei die erste Stelle des Datentyps zur Unterscheidung
zwischen dem Ausdruck und der Textur verwendet wird. Eine Vielzahl
von Ausdrucksmusterdaten kann zu einem einzigen Element zusammengefasst
werden, indem die Ausdrucksmusterdaten wie bei dem Körperbewegungsmusterdaten
an die obere Hierarchie der vorgenannten Ausdrucksmusterdaten gestellt
werden.
-
Bei
der vorliegenden Ausführungsform
werden die Ausdrucksmusterdaten nach Beginn des Gesprächs unter
der Voraussetzung erläutert,
dass der Übergang
von einem Ereignis ausgelöst
wird, das heißt,
dem Ergebnis, das von der Emotionsmutmaßungseinheit 10 gemutmaßt wird,
wie etwa ein normaler Zustand, lachender Zustand, weinender Zustand,
wütender
Zustand, besorgter Zustand und überzeugter
Zustand, und dem Ergebnis, das von der Bewegungs-/Ausdrucks-Eingabeeinheit 16 eingegeben
wird, aber die vorliegende Erfindung kann auch dann ausgeführt werden,
wenn der Übergang
von einem Ereignis, das durch ein komplizierteres Mutmaßungsergebnis
aufgetreten ist, oder eine andere Eingabe ausgelöst wird.
-
Für die Lippenbewegungsdaten
wird wie bei den Ausdrucksdaten und den Ausdrucksmusterdaten ein
Verfahren zum Ändern
der Mundform oder der Textur verwendet. Die Lippenbewegungsdaten
hängen
von dem Inhalt der Sprachanalysenverarbeitung ab, und wenn die Lippenbewegung
aufgrund des Ergebnisses der Sprachintensitätsanalyse, die später beschrieben
wird, erzeugt wird, werden die Bewegungsdaten, die nur vom Umfang
der Mundöffnung abhängen, gespeichert
(siehe 5A). Wenn Phoneme analysiert
werden können,
wenn beispielsweise Vokale und der Laut „n" (die Aussprache von „n") analysiert werden
können,
werden die Gestaltänderungsdaten
zum Erzeugen der Lippengestalt, die diesem Laut entspricht, und
die Texturdaten der Lippen als Bewegungsdaten gespeichert (siehe 5B). Die
Lippenmusterdaten stellen eine Gruppe von mehreren Typen der vorgenannten
Lippenbewegungsdaten dar, unter anderem die Entitätslippen-Informationen
(ID jeder Lippe, Datentyp, Adresse und Frame-Nummer der Lippenbewegung
jedes Objekts). Der Lippen-ID jeder Entität ist ein Identifikator, der
dem Grad der Sprachintensität
entspricht, der beispielsweise aufgrund der Sprachintensität gesteuert
wird, wie in 5A gezeigt. Diese Identifikatoren sind
0, 1 ... 3 für
den Grad 0, 1 ... 3 oder 0 und 1 ... 5 für die Laute „n", „a" ... „o", die aufgrund des
Phonems gesteuert werden, wie in 5B gezeigt.
Ferner können
Sprachintensitätsanalyse
und Phonem-Analyse miteinander kombiniert werden. Es können Varianten
des Lauts „a", beispielsweise „a" mit hoher Intensität und „a" mit niedriger Intensität, festgelegt
werden. In diesem Fall wird der Lippen-ID als zweidimensionaler
Identifikator definiert, und verschiedene in 5A gezeigte
Grade für
jeden in 5B gezeigten Laut folgen in
vertikaler Richtung.
-
Die
Hintergrunddaten-Speichereinheit 20 speichert und verwaltet
die Adressen der Gestaltdaten oder die Bilder des Hintergrunds und
die entsprechenden Daumennagelbilder als Hintergrunddaten zum Anzeigen
der CG-Figur. Die Gestaltdaten des Hintergrunds sind wie bei den
Gestaltdaten der CG-Figur ein Gegenstand, der der Hintergrund als Gestalt
sein soll. Die Bilddaten des Hintergrunds sind beispielsweise Bilddaten
des Himmels oder einer entfernten Landschaft und können in
Kombination mit einem Hintergrund-Objekt verwendet werden. Wenn
die Gestaltdaten des Hintergrund-Objekts durch Textur-Abbildung
strukturiert werden, wird die Adresse der Textur in der Texturdaten-Speichereinheit 21 oder
der ID des entsprechenden Identifikators angegeben.
-
Die
Texturdaten-Speichereinheit 21 speichert und verwaltet – mit den
Adressen – die
Bilddaten der Textur der Bekleidung und dergleichen für die CG-Figur
und die Bilddaten für
die Textur-Abbildung des Hintergrund-Objekts, die verwendet werden, wenn
die 3-D-Bild-Zeicheneinheit 14 die
Textur-Abbildung durchführt.
-
Die
Musikdaten-Speichereinheit 22 speichert und verwaltet Musikdaten
mit Adressen. Die Musikdaten werden als Einsatzzeichen verwendet,
indem Musik ertönen
gelassen wird, wenn ein Anruf von einem Partner empfangen wird.
-
Die
Datenverwaltungseinheit 3 verwaltet die gespeicherten Daten,
speichert und verwaltet die Einstelldaten und teilt die Einstelldaten
mit. Zunächst wird
die Verwaltung von Daten erläutert,
die in der Figurengestaltdaten-Speichereinheit 18, der
Figurenbewegungsdaten-Speichereinheit 19, der Hintergrunddaten-Speichereinheit 20,
der Texturdaten-Speichereinheit 21 und der Musikdaten-Speichereinheit 22 gespeichert
werden. 3 ist eine der in der Datenverwaltungseinheit 3 gespeicherten
Tabellen, und zwar die CG-Figurendaten-Verwaltungstabelle 3a.
Die CG-Figurendaten bestehen aus: dem Namen der CG-Figur; der Adresse
der Entität
der CG-Figurengestaltdaten in der Figurengestaltdaten-Speichereinheit 18;
der Adresse der Bekleidungstexturdaten vor dem Ändern der Bekleidungstextur
in der Texturdaten-Speichereinheit 21; der oder den Adressen
der Bekleidungstexturdaten nach dem Ändern, wenn die Textur der
Bekleidung oder dergleichen, die in den CG-Figurengestaltdaten angegeben
ist, aufgrund der Angaben des Teilnehmers geändert wird; den beiden Adressen
der Ausdrucksmusterdaten, die vor und nach dem Beginn des Gesprächs in der
Figurenbewegungsdaten-Speichereinheit 19 gespeichert werden;
der Adresse des Lippenbewegungsmusters; und der Adresse des in der Figurengestaltdaten-Speichereinheit 18 gespeicherten
Daumennagelbilds. Die CG-Figurendaten-Verwaltungstabelle 3a wird
durch Einordnen dieser Namen und Adressen in eine Tabelle mit den
Identifikatoren der CG-Figuren-IDs erhalten.
-
Es
gibt noch drei weitere Typen von Tabellen, und zwar eine Hintergrunddaten-Verwaltungstabelle, eine
Bewegungsmuster-Verwaltungstabelle und eine Sprach-/Musik-Verwaltungstabelle,
das heißt,
mit der CG-Figurendaten-Verwaltungstabelle 3a gibt es insgesamt
vier Typen von Tabellen. Die Hintergrunddaten-Verwaltungstabelle
wird durch Einordnen der Namen der Hintergrund-Objekte und der Bilddaten
der entfernten Landschaft und ihrer Adressen in der Hintergrunddaten-Speichereinheit 20 in
eine Tabelle mit den Identifikatoren der Hintergrund-IDs erhalten,
die Bewegungsmuster-Verwaltungstabelle wird durch Einordnen der
Namen der Körperbewegungsmusterdaten
und ihrer Adressen in der Figurenbewegungsdaten-Speichereinheit 19 in
eine Tabelle mit den Identifikatoren der Bewegungsmuster-IDs erhalten, und
die Sprach-/Musik-Verwaltungstabelle wird durch Einordnen der Namen
der Musikdaten und ihrer Adressen in der Musikdaten-Speichereinheit 22 in eine
Tabelle mit den Identifikatoren der Musik-IDs erhalten.
-
Einstelloperation
-
Die
Kommunikationseinheit 1 speichert eine Kommunikationspartner-Verwaltungstabelle 1a,
die in 4A gezeigt ist. Die Kommunikationspartner-Verwaltungstabelle 1a ist
eine Tabelle zum Verwalten der Kommunikationspartner mit den IDs,
Telefonnummern, Namen und Anzeigemodi der Partner. Es gibt drei
Arten von Anzeigemodi, und zwar einen Nichtanzeigemodus für eine normale
Sprachkommunikation ohne Anzeige einer CG-Figur, einen Partneranzeigemodus
für ein
virtuelles Fernsehtelefon und einen Teilnehmer-/Partneranzeigemodus für ein virtuelles
Fernsehtelefon mit Anzeige nicht nur des Partners, sondern auch
des Teilnehmers selbst. Diese Modi werden mit den Identifikatoren
verwaltet. Bei der vorliegenden Ausführungsform sind die Identifikatoren
0, 1 und 2 dem Nichtanzeigemodus, dem Partneranzeigemodus bzw. dem
Teilnehmer-/Partneranzeigemodus zugeordnet. Man beachte, dass die Zahl „0" des Partner-ID in
einer CG-Daten-Verwaltungstabelle als Angabe des Teilnehmers festgelegt wird.
Da die vorliegende Ausführungsform
auf der Telefonkommunikation beruht, erfolgt die folgende Erläuterung
unter der Voraussetzung, dass die Kommunikation mit den Telefonnummern
verwaltet wird. Sie kann jedoch auch mit den IP-Adressen aufgrund des TCP/IP oder mit
den E-Mail-Adressen der Partner erfolgen, wenn die Kommunikation über das
Internet durchgeführt
wird. Da diese die Identifikatoren zum Festlegen der Kommunikationspartner
sind, die in Abhängigkeit
von der Kommunikationsinfrastruktur bestimmt werden, können alle
Identifikatoren verwendet werden, die diese Bedingungen erfüllen.
-
Die
CG-Daten-Verwaltungstabelle 3b in 4A ist
eine Tabelle, die in der Datenverwaltungseinheit 3 zum
Speichern und Verwalten der CG-Daten für den Kommunikationspartner
gespeichert ist. Sie verwaltet Elemente, die den CG-Figuren-ID in
der CG-Figurendaten-Verwaltungstabelle 3a, den Hintergrund-ID
in der Hintergrunddaten-Verwaltungstabelle und
den Körperbewegungsmuster-ID
vor und nach dem Beginn des Gesprächs in der Bewegungsmuster-Verwaltungstabelle
umfassen, die jeweils für
den Kommunikationspartner festgelegt sind, mit dem Partner-ID.
-
Die
in 4A gezeigte Sprach-/Musik-Verwaltungstabelle 3c ist
ebenfalls eine in der Datenverwaltungseinheit 3 gespeicherte
Tabelle zum Verwalten von Elementen, unter anderem des Sprachumwandlungswertparameters
und des Musikdaten-ID für
die Klingelmelodie, mit dem Partner-ID. Der Sprachumwandlungswertparameter
wird in der Sprach-/Musik-Umwandlungseinheit 6 verwendet und
ist ein Identifikator, der jedem Bandfilter zugewiesen wird, wenn
Sprache von dem Bandfilter umgewandelt wird. Beispielsweise werden
die Identifikatoren den Bandfiltern so zugewiesen, dass „0" keinem Filter zugewiesen
wird, „1" einem Filter von
1 kHz oder weniger zugewiesen wird, „2" einem Filter von 1–5 kHz zugewiesen wird und „3" einem Filter von
5 kHz oder mehr zugewiesen wird. Da die Identifikatoren den Parametern
zugewiesen werden, die für
das Gespräch
benötigt
werden, hängen
die Parameter nicht von dem Umwandlungsverfahren ab (auch wenn Sprache
beispielsweise durch Tonhöhenumwandlung
umgewandelt wird, brauchen nur Identifikatoren einer Gruppe von
Parametern, die für
die Umwandlung benötigt
werden, zugewiesen zu werden). Man beachte, dass der Sprachumwandlungswertparameter
ein Identifikator zum Bestimmen der Sprachtonhöhe ist und durch die Änderung
der Einstellung des Teilnehmers die Wirkung eines Sprachwechslers
hat. Die Musikdaten-ID ist ein Identifikator zum Bestimmen einer
Klingelmelodie.
-
Die
Einstelloperation wird nachstehend unter Bezugnahme auf 4B erläutert. Wenn
ein Teilnehmer eine Einstellzustandsänderungs-Eingabeeinheit in
der Figurenhintergrundauswahl-Eingabeeinheit 2 betätigt, wird
der Datenverwaltungseinheit 3 mitgeteilt, dass der Zustand
in einen einstellbaren Zustand wechselt. Die Datenverwaltungseinheit 3 liest
den Inhalt der in der Kommunikationseinheit 1 gespeicherten
Kommunikationspartner-Verwaltungstabelle 1a aus und sendet
ihn an die 3-D-Bild-Zeicheneinheit 14 (S401).
Aufgrund von vorgespeicherten Einstellbildschirmdaten erzeugt die
3-D-Bild-Zeicheneinheit 14 einen Einstellbildschirm, auf
dem der Inhalt der Kommunikationspartner-Verwaltungstabelle 1a dargestellt
wird, und sie zeigt den Einstellbildschirm an der Anzeige-Einheit 15 an.
Die Figurenhintergrundauswahl-Eingabeeinheit 2 wählt einen
Kommunikationspartner aus (S402) und gibt den Anzeigemodus entsprechend
dem vorgenannten Identifikator für
den Partner ein. Wenn eine „0" gewählt wird,
die den Nichtanzeigemodus angibt (S403), wird die Einstellung beendet.
-
Wenn
der Anzeigemodus „1" ist, um nur den Partner
als CG-Figur anzuzeigen, oder "2" ist, um den Partner
und den Teilnehmer als CG-Figuren anzuzeigen, wird der Kommunikationseinheit 1 und
der 3-D-Bild-Zeicheneinheit 14 der gewählte Anzeigemodus über die
Datenverwaltungseinheit 3 mitgeteilt. Die Kommunikationseinheit 1 gibt
den gewählten
Anzeigemodus in der Kommunikationspartner-Verwaltungstabelle 1a an
und speichert ihn dort. Die 3-D-Bild-Zeicheneinheit 14 erzeugt
nacheinander einen CG-Figuren-Auswahl-Einstellbildschirm, einen Bekleidungstextur-Einstellbildschirm
und einen Körperbewegungsmuster-Einstellbildschirm,
die vorgegeben sind, wie in 3 gezeigt,
und zeigt sie an der Anzeige-Einheit 15 an. Auf dem Figurenauswahl-Bildschirm
erscheinen die Bilder und Namen der in 3 gezeigten
CG-Figuren aufgrund der Daumennagel-Adressen und der CG-Figuren-Namen,
die in der CG-Daten-Verwaltungstabelle 3a angegeben sind.
Der CG-Figuren-Auswahl-Einstellbildschirm, der Bekleidungstextur-Einstellbildschirm
und der Körperbewegungsmuster-Einstellbildschirm
werden nacheinander angezeigt. Die Voreinstellungen, die über die
Figurenhintergrundauswahl-Eingabeeinheit 2 gewählt und
eingegeben werden, und das Ergebnis der CG-Figuren für spezielle
Kommunikationspartner und das Ergebnis der Körperbewegungsmuster, die auf
dem CG-Figuren-Auswahl-Einstellbildschirm
und dem Körperbewegungsmuster-Einstellbildschirm
gewählt
werden, werden in den entsprechenden Feldern der in der Datenverwaltungseinheit 3 gespeicherten
CG-Daten-Verwaltungstabelle 3b als entsprechende IDs registriert.
Die Auswahl auf dem Bekleidungstextur-Einstellbildschirm wird in den
entsprechenden Feldern der in der Datenverwaltungseinheit 3 gespeicherten
CG-Figurendaten-Verwaltungstabelle 3a registriert. Bei
den Körperbewegungsmustern
können
zwei Arten von Mustern vor und nach dem Beginn des Gesprächs gewählt werden,
und ihre Bezeichnungen, die in der Bewegungsmuster-Verwaltungstabelle
angegeben sind, können auf
dem Einstellbildschirm angezeigt werden. Diese Anzeige erleichtert
es einem Teilnehmer, die Körperbewegung
auszuwählen,
da er das Bild in seinem Kopf abbilden kann. Zu diesen Bewegungsmustern gehören beispielsweise
Mambo, Walzer, die Bewegung eines Moderators und die Bewegung einer
beliebten TV-Persönlichkeit
(S404).
-
Die
Sprach-/Musikauswahl-Eingabeeinheit 4 legt in der gleichen
Weise Sprachumwandlungsparameter und Musikdaten fest und gibt sie
ein. Wenn ein Teilnehmer die von der Sprachauswahleinheit 4 festgelegte
Einstellzustandsänderungs-Eingabeeinheit betätigt, wird
der 3-D-Bild-Zeicheneinheit 14 die Änderung des Eingabemodus über die
Kommunikationseinheit 1 und die Datenverwaltungseinheit 3 mitgeteilt.
Die 3-D-Bild-Zeicheneinheit 14 erzeugt
einen festgelegten Einstellbildschirm und zeigt ihn an der Anzeige-Einheit 15 an.
Auf dem angezeigten Einstellbildschirm wählt der Teilnehmer die Sprachumwandlungsparameter
und die Musikdaten und gibt sie über die
Sprach-/Musikauswahl-Eingabeeinheit 4 ein.
Das eingegebene Auswahl-Ergebnis wird in der in der Datenverwaltungseinheit 3 gespeicherten
Sprach-/Musik-Verwaltungstabelle 3c registriert (S404).
-
Wenn
der Partneranzeigemodus gewählt wird,
geht der Prozess zur Hintergrund-Auswahleinstellung
(S405). Wenn der Teilnehmer-/Partneranzeigemodus gewählt wird,
wählt der
Teilnehmer die CG-Figur, die Bekleidungstextur und das Bewegungsmuster
für den
Teilnehmer und gibt sie über
die Figurenhintergrundauswahl-Eingabeeinheit 2 in der vorstehend
beschriebenen Weise ein (S406), und der Prozess geht dann zu der
Hintergrund-Auswahl.
-
Bei
der Hintergrund-Auswahl wird ein vorgegebener Hintergrund-Einstellbildschirm
angezeigt, und der Teilnehmer wählt
den Hintergrund über
die Figurenhintergrundauswahl-Eingabeeinheit 2 (S407).
Das Auswahl-Ergebnis wird in der in der Datenverwaltungseinheit 3 gespeicherten
CG-Daten-Verwaltungstabelle 3b gespeichert.
-
Wenn
schließlich
die vorgenannte CG-Figur und das Körperbewegungsmuster festgelegt
werden, werden der Bewegungs-/Ausdrucks-Eingabeeinheit 16 die
Adresse der festgelegten Ausdrucksdaten von den Ausdrucksmusterdaten
und die Adresse der festgelegten Körperbewegungsdaten von den
Körperbewegungsmusterdaten
mitgeteilt. Die Bewegungs-/Ausdrucks-Eingabeeinheit 16 hält die mitgeteilten
Adressen der Körperbewegungsdaten
und der Ausdrucksdaten und verknüpft
sie mit den in der Bewegungs-/Ausdrucks-Eingabeeinheit 16 vorgegebenen
Eingabe-Schaltflächen.
Wenn der Teilnehmer die Eingabe-Schaltfläche betätigt, wird der Datenverwaltungseinheit 3 die
verknüpfte
Adresse der Körperbewegungsdaten
oder der Ausdrucksdaten mitgeteilt. Dann wird der Körperbewegungs-Steuereinheit 12 die
Adresse der Körperbewegungsdaten
mitgeteilt, und der Gesichtsausdrucks-Steuereinheit 13 wird
die Adresse der Ausdrucksdaten mitgeteilt. Mehrere Eingabe-Schaltflächen bieten
mehrere Adressen der Körperbewegungsdaten
und Ausdrucksdaten an, die gespeichert werden sollen. Außerdem sind
die Adressen vor und nach dem Beginn des Gesprächs und die Adressen der Ausdrucksdaten
klar angegeben. Bei der vorliegenden Ausführungsform ist zwar die Schaltflächen-Eingabe
beschrieben, aber es kann jede Eingabeeinheit verwendet werden,
die die Adressen festlegen kann (wie etwa eine Tastatur und eine
Maus). Somit kann der Teilnehmer nicht nur seine eigene Figur, sondern
auch die Figur seines Kommunikationspartners auswählen. Das
Teilnehmer-Endgerät
hat alle Daten, die für
eine virtuelle Fernsehtelefon-Kommunikation benötigt werden, und dadurch kann
der Teilnehmer eine virtuelle Fernsehtelefon-Kommunikation auch
dann durchführen, wenn
der Partner die virtuelle Fernsehtelefonvorrichtung nicht verwendet.
-
Man
beachte, dass die vorgenannte grafische Einstellung in der Regel
in PCs verwendet wird und mit der vorhandenen Software-Technologie
realisiert werden kann.
-
Ankommender/abgehender-Ruf-Operation
-
Wenn
ein Teilnehmer eine Telefonnummer unter Verwendung der Kommunikationseinheit 1 eingibt,
um einen Anruf zu tätigen,
wird die Telefonnummer mit dem Inhalt des in der gespeicherten Kommunikationspartner-Verwaltungstabelle 1a registrierten Telefonnummernfelds
verglichen, um den Partner-ID und den Anzeigemodus festzulegen.
Da die Telefonnummer des Anrufers vor dem Beginn des Gesprächs angezeigt
wird, wenn ein Anruf empfangen wird, wird die Telefonnummer mit
dem Inhalt des in der Kommunikationspartner-Verwaltungstabelle 1a registrierten
Telefonnummernfelds verglichen, um den ID des Anrufers (Partners)
und den Anzeigemodus festzulegen. Es wird unterstellt, dass die
Kommunikationseinheit 1 eine normale Funktion für Sprachkommunikation
(eine sogenannte Breitband-Verarbeitung für ein Mobiltelefon und dergleichen)
hat.
-
Wenn
der Nichtanzeigemodus festgelegt wird, wird die normale Gesprächsverarbeitung
durchgeführt.
Insbesondere wenn die Sprachdaten von dem Anrufer gesendet werden,
nachdem das Gespräch
mit dem Anrufer angenommen worden ist, führt die Sprach-/Musik-Verarbeitungseinheit 5 die normale
Sprachverarbeitung, wie etwa Decodieren, durch und sendet die Sprache über die
Sprach-/Musik-Umwandlungseinheit 6 an die Sprach-/Musik-Ausgabeeinheit 6,
um die Sprache auszugeben. Wenn der Teilnehmer seine eigene Sprache
in die Spracheingabe-Einheit 8 eingibt, führt die Sprach-/Musik-Verarbeitungseinheit 5 die
normale Sprachverarbeitung, wie etwa Komprimierung der Sprachdaten,
durch und sendet die Sprache über
die Kommunikationseinheit 1 an den Kommunikationspartner.
-
Nachstehend
werden die Operationen des Partneranzeigemodus erläutert, bei
dem nur der Partner als CG-Figur angezeigt wird. Es gibt zwei Arten
von Operationen, und zwar vor und nach dem Beginn des Gesprächs, und
die Kommunikationseinheit 1 teilt der Datenverwaltungseinheit 3 den
Kommunikationsbeginn mit.
-
Da
die Telefonnummer des Partners vor dem Gespräch beim Senden und Empfangen
eines Anrufs angegeben werden kann, gibt die Kommunikationseinheit 1 den
Partner-ID aus der Kommunikationspartner-Verwaltungstabelle 1a an
und sendet den angegebenen ID an die Datenverwaltungseinheit 3. Die
Datenverwaltungseinheit 3 gibt den CG-Figuren-ID, den Hintergrund-ID
und die beiden Bewegungsmuster-IDs (IDs der Körperbewegungsmuster vor und
nach dem Beginn des Gesprächs)
an, die dem Partner-ID aus der gespeicherten CG-Daten-Verwaltungstabelle 3b entsprechen.
Wenn es in der CG-Daten-Verwaltungstabelle 3b keinen ID
gibt, der dem Partner-ID entspricht, gibt die Datenverwaltungseinheit 3 den
voreingestellten CG-Figuren-ID und Hintergrund-ID und die beiden
voreingestellten Bewegungsmuster-IDs (IDs der Körperbewegungsmuster vor und
nach dem Beginn des Gesprächs)
an. Die Datenverwaltungseinheit 3 gibt aufgrund des angegebenen
CG-Figuren-ID die Adresse der CG-Figurengestaltdaten, die Adresse
der Bekleidungstextur vor dem Ändern,
die Adresse der Bekleidungstextur nach dem Ändern, die beiden Adressen
der Ausdrucksmusterdaten vor und nach dem Beginn des Gesprächs und
die Adresse des Lippenbewegungsmusters aus der CG-Figurendaten-Verwaltungstabelle 3a an.
Die Datenverwaltungseinheit 3 gibt aufgrund des angegebenen
Hintergrund-ID die Adresse der Hintergrunddaten aus der gespeicherten
Hintergrunddaten-Verwaltungstabelle an. Die Datenverwaltungseinheit 3 gibt
außerdem
aufgrund der Bewegungsmuster-IDs (IDs der Körperbewegungsmuster vor und
nach dem Beginn des Gesprächs)
die beiden Adressen der Körperbewegungsmuster
vor und nach dem Beginn des Gesprächs aus der gespeicherten Bewegungsmuster-Verwaltungstabelle
an.
-
Die
Datenverwaltungseinheit 3 teilt der 3-D-Bild-Zeicheneinheit 14 die
angegebene Adresse der CG-Figurengestaltdaten, die Adressen der
Bekleidungstextur vor und nach dem Ändern und die Adresse der Hintergrunddaten
mit. Aufgrund der angegebenen Adressen der beiden Körperbewegungsmusterdaten
vor und nach dem Beginn des Gesprächs, der Adressen der beiden
Ausdrucksmusterdaten vor und nach dem Beginn des Gesprächs und der
Adresse der Lippenbewegungsmusterdaten liest die Datenverwaltungseinheit 3 aus
der Figurenbewegungsdaten-Speichereinheit 19 auch die beiden
Körperbewegungsmusterdaten
vor und nach dem Beginn des Gesprächs, die beiden Ausdrucksmusterdaten
vor und nach dem Beginn des Gesprächs und die Lippenbewegungsmusterdaten
aus und sendet sie an die Körperbewegungs-Steuereinheit 12,
die Gesichtsausdrucks-Steuereinheit 13 bzw. die Lippenbewegungs-Steuereinheit 11.
-
Die
Lippenbewegungs-Steuereinheit 11 wählt die Adresse der entsprechenden
Lippenbewegungsdaten aus den Lippenbewegungsmusterdaten und teilt
der 3-D-Bild-Zeicheneinheit 14 die
Adresse und alle Frames der Reihe nach ab dem Frame Nr. 0 mit. Die
Adresse der entsprechenden Lippenbewegungsdaten kann aus den Lippenbewegungsmusterdaten
unter Verwendung von Zufallszahlen, der gleichen Wahrscheinlichkeit
oder durch Gewichten der Lippenbewegungen ausgewählt werden. Diese Verarbeitung
wird wiederholt, bis das Gespräch
beginnt. Ein fester Übergang
kann ohne Verwendung von Zufallszahlen vordefiniert werden, um der
3-D-Bild-Zeicheneinheit 14 die Adresse der Lippenbewegungsdaten
und die Frame-Nummer entsprechend der Reihenfolge des Übergangs
mitzuteilen. In diesem Fall sieht ein Teilnehmer die normalen Lippenbewegungen
mehrfach. Beispielsweise kann die Lippenbewegung synchron mit dem
Wort „Telefon" mehrfach angezeigt
werden.
-
Die
Körperbewegungs-Steuereinheit 12 teilt zunächst der
3-D-Bild-Zeicheneinheit 14 die Adresse der Körperbewegungsdaten,
die dem normalen Zustand entsprechen, und alle Frames der Reihe
nach ab dem Frame Nr. 0 aus den Körperbewegungsmusterdaten vor
Beginn des Gesprächs
mit, wie in 6B gezeigt. Nach dem Mitteilen
aller Frames erzeugt sie eine Zufallszahl aufgrund jeder Übergangswahrscheinlichkeit,
um die nächsten
Körperbewegungsdaten
auszuwählen,
und sie teilt der 3-D-Bild-Zeicheneinheit 14 die Adresse
der Körperbewegungsdaten
nach dem Übergang
und alle Frames ab Nr. 0 mit. Nach Beendigung der Mitteilung erzeugt
sie eine Zufallszahl aufgrund jeder Übergangswahrscheinlichkeit,
um den Übergang
durchzuführen.
Die Körperbewegungs-Steuereinheit 12 wiederholt
diese Verarbeitung, bis das Gespräch beginnt. Ein fester Übergang kann
ohne Verwendung einer Zufallszahl vordefiniert werden, um der 3-D-Bild-Zeicheneinheit 14 die
Adresse der Körperbewegungsdaten
und die Frame-Nummer entsprechend der Reihenfolge des Übergangs
mitzuteilen. In diesem Fall sieht ein Teilnehmer die normalen Körperbewegungen
mehrfach. Beispielsweise kann eine Körperbewegung, wie etwa „Abnehmen
des Telefonhörers
eines Telefons",
mehrfach angezeigt werden.
-
Die
Gesichtsausdrucks-Steuereinheit 13 teilt zunächst der
3-D-Bild-Zeicheneinheit 14 die Adresse der Ausdrucksdaten,
die dem normalen Gesicht entsprechen, und alle Frames der Reihe
nach ab dem Frame Nr. 0 aus den Ausdrucksmusterdaten vor Beginn
des Gesprächs
mit, wie in 6A gezeigt. Nach dem Mitteilen
aller Frames erzeugt sie eine Zufallszahl aufgrund jeder Übergangswahrscheinlichkeit, um
die nächsten
Ausdrucksdaten auszuwählen,
und sie teilt der 3-D-Bild-Zeicheneinheit 14 die Adresse der
Ausdrucksdaten nach dem Übergang
und alle Frames ab Nr. 0 mit. Nach Beendigung der Mitteilung erzeugt
sie erneut eine Zufallszahl aufgrund jeder Übergangswahrscheinlichkeit,
um den Übergang durchzuführen. Die
Gesichtsausdrucks-Steuereinheit 13 wiederholt diese Verarbeitung,
bis das Gespräch
beginnt. Ein fester Übergang
kann ohne Verwendung einer Zufallszahl für das Ausdrucksmuster vordefiniert
werden, um der 3-D-Bild-Zeicheneinheit 14 die Adresse der
Ausdrucksdaten und die Frame-Nummer entsprechend der Reihenfolge
des Übergangs
mitzuteilen. In diesem Fall sieht ein Teilnehmer den normalen Ausdruck
mehrfach. Beispielsweise kann ein Ausdruck, wie etwa „ein normales
Gesicht und ein besorgtes Gesicht", mehrfach angezeigt werden.
-
Nachstehend
wird die grundlegende 3-D-Bild-Zeichenoperation in der 3-D-Bild-Zeicheneinheit 14 erläutert. Aufgrund
der Adresse der CG-Figurengestaltdaten, der Adressen der Bekleidungstextur
vor und nach dem Ändern
und der Adresse der Hintergrunddaten, die von der Datenverwaltungseinheit 3 mitgeteilt
werden, lädt
die 3-D-Bild-Zeicheneinheit 14 die Gestaltdaten der zu
zeichnenden CG-Figur aus der Figurengestaltdaten-Speichereinheit 18, die
Bekleidungstexturdaten aus der Texturdaten-Speichereinheit 21 und
die Hintergrunddaten aus der Hintergrunddaten-Speichereinheit 20.
Dann empfängt
die 3-D-Bild-Zeicheneinheit 14 die Adresse und die Frame-Nummer
der Lippenbewegungsdaten, die von der Lippenbewegungs-Steuereinheit 11 mitgeteilt
werden, die Adresse und die Frame-Nummer der Körperbewegungsdaten, die von
der Körperbewegungs-Steuereinheit 12 mitgeteilt
werden, und die Adresse und Frame-Nummer der Ausdrucksdaten, die
von der Gesichtsausdrucks-Steuereinheit 13 mitgeteilt
werden. Aufgrund der empfangenen Adressen der Lippenbewegungsdaten,
der Körperbewegungsdaten
und der Ausdrucksdaten lädt
sie die Lippenbewegungsdaten, die Körperbewegungsdaten und die Ausdrucksdaten
aus der Figurenbewegungsdaten-Speichereinheit 19. Die 3-D-Bild-Zeicheneinheit 14 lädt diese
Daten nur am Beginn der Mitteilung, wenn die Adresse jeder Bewegung,
die von der Lippenbewegungs-Steuereinheit 11, der Körperbewegungs-Steuereinheit 12 und
der Gesichtsausdrucks-Steuereinheit 13 mitgeteilt wird,
nicht aktualisiert wird. Da die Figur, die dem speziellen Kommunikationspartner
entspricht, angezeigt wird, wenn ein Anruf empfangen wird, kann
ein Teilnehmer nur dann problemlos ermitteln, wer anruft, wenn er
die Figur sieht, die auf dem Bildschirm angezeigt wird.
-
Die
Bewegungsdaten der Frame-Nummer, die von der Lippenbewegungs-Steuereinheit 11 mitgeteilt
wird, werden aus den geladenen Lippenbewegungsdaten erzeugt. Wenn
die Lippengestalt geändert
wird, werden die Lippenbewegungsdaten durch Interpolation der Schlüsselbewegungsdaten
in der gleichen Weise wie bei der üblichen Schlüssel-Frame-Animationstechnologie
erzeugt, und bei der Textur wird die Lippenbewegung ebenfalls durch
Interpolation der Schlüsseltextur
erzeugt. Bei einer Gestalt-Änderung
wird die Mundgestalt der CG-Figurengestaltdaten unter Verwendung
der erzeugten Bewegungsdaten der Frame-Nummer geändert. Bei der Textur erfolgt
das Abbilden auf den Mund unter Verwendung der üblichen Textur-Abbildungstechnologie. Dieses
Abbilden wird bei der 3-D-Bild-Zeichenverarbeitung
durchgeführt.
-
Für die Ausdrucksdaten
werden die Bewegungsdaten der mitgeteilten Frame-Nummer erzeugt,
und die Gesichtsgestalt wird bei einer Gestalt-Änderung in der gleichen Weise
aufgrund dieser Bewegungsdaten geändert. Bei der Textur wird
das Gesicht durch Textur-Abbildung
gezeichnet. Diese Textur-Abbildung wird für die 3-D-Bild-Zeichenverarbeitung
durchgeführt.
Auch die Bewegungsdaten für die
Körperbewegungsdaten
der mitgeteilten Frame-Nummer werden durch Interpolation der Schlüssel-Körperbewegungsdaten
erzeugt, und die vorgenannte Umwandlung wird an der CG-Figur aufgrund dieser
Körperbewegungsdaten
durchgeführt,
um die Haltung und den Körperzustand
der CG-Figur zu ermitteln.
-
Wenn
dann die Hintergrunddaten, die Bekleidungstexturdaten und die Lippenbewegungsdaten Texturen
sind und wenn die Ausdrucksdaten eine Textur darstellen, wird mit
der üblichen
3-D-Bild-Zeichenverarbeitung unter Verwendung ihrer Texturen ein
Bild erzeugt (die 3-D-Bild-Zeichenverarbeitung wird in der Reihenfolge
Modellierungstransformation, Sichtbarkeitstransformation, Perspektiventransformation,
Bildschirmtransformation und Pixelverarbeitung auf dem Bildschirm
durchgeführt,
während
die Textur-Abbildung durchgeführt
wird, wenn die Pixelverarbeitung auf dem Bildschirm durchgeführt wird). Für diese
Verarbeitung werden zunächst
die voreingestellten Kamera-Daten (Standort, Richtung und Bildwinkel
der Kamera, die für
die Sichtbarkeitstransformation und die Bildschirmtransformation
benötigt werden)
verwendet. Beispielsweise wird das Bild so eingestellt, dass die
CG-Figur nach vorn zeigt, und der Körper wird in die Mitte des
Bilds gesetzt. Um das Bild wie vorstehend einzustellen, wird der
minimale rechteckige Festkörper,
der die CG-Figur enthält,
ermittelt, und der Bildwinkel wird so eingestellt, dass der Schwerpunkt
des Festkörpers
auf der optischen Achse entgegengesetzt zu der Richtung liegt, die
der Vorderseite des Routenrichtungsvektors der CG-Figur entspricht,
und jeder Scheitel auf dem Bildschirm angegeben ist.
-
Wenn
die Aufnahmeortänderungs-Eingabeeinheit 17 die
Kameradaten eingibt, diese Daten der 3-D-Bild-Zeicheneinheit 14 mitteilt
und die 3-D-Bild-Zeichenverarbeitung aufgrund dieser Kameradaten
durchführt,
kann ein von einem anderen Aufnahmeort aus gesehenes Bild erzeugt
werden. Außerdem
werden die Kameradaten, die in der Aufnahmeortänderungs-Eingabeeinheit 17 voreingestellt
sind, der 3-D-Bild-Zeicheneinheit 14 mitgeteilt, um den
Aufnahmeort zu ändern.
-
Wenn
ein Teilnehmer die vorgenannte Voreinstellungseingabe-Schaltfläche betätigt, teilt
die Bewegungs-/Ausdrucks-Eingabeeinheit 16 der Körperbewegungs-Steuereinheit 12 und
der Gesichtsausdrucks-Steuereinheit 13 die Adresse der
Körperbewegungsdaten
bzw. die Adresse der Ausdrucksdaten über die Datenverwaltungseinheit 3 mit.
Wenn die Körperbewegungs-Steuereinheit 12 die
Adresse der Körperbewegungsdaten
empfängt,
wählt sie
normalerweise die nächsten
Körperbewegungsdaten,
wie vorstehend dargelegt, nachdem sie der 3-D-Bild-Zeicheneinheit 14 die
letzte Frame-Nummer der aktuellen Körperbewegungsdaten mitgeteilt
hat, und teilt der 3-D-Bild-Zeicheneinheit 14 die Adresse
und die Frame-Nummer der Körperbewegungsdaten
mit, die zwangsläufig
von der Datenverwaltungseinheit 3 mitgeteilt wurden. Ebenso
teilt die Gesichtsausdrucks-Steuereinheit 13, nachdem sie
die aktuellen Ausdrucksdaten mitgeteilt hat, der 3-D-Bild-Zeicheneinheit 14 die
Adresse und die Frame-Nummer
der Ausdrucksdaten mit, die zwangsläufig von der Datenverwaltungseinheit 3 mitgeteilt
wurden. Dadurch werden die Körperbewegungsdaten
und die Ausdrucksdaten normalerweise automatisch für eine Animation ausgewählt, aber
der Teilnehmer kann auch seine eigene gewählte Bewegung zwangsläufig anzeigen.
-
Das
Bild, das in der vorstehend beschriebenen Weise erzeugt und durch
3-D-Bild-Zeichenverarbeitung
verarbeitet wird, wird an die Anzeige-Einheit 15 gesendet
und dort angezeigt.
-
Die
3-D-Bild-Zeicheneinheit 14 führt die 3-D-Bild-Zeichenverarbeitung
normalerweise mit der Bildwiederholfrequenz der Anzeige-Einheit 15 durch. Die
Adressen und die Frame-Nummern
der Bewegungen werden während
der 3-D-Bild-Zeichenverarbeitung von der Lippenbewegungs-Steuereinheit 11, der
Körperbewegungs-Steuereinheit 12 und
der Gesichtsausdrucks-Steuereinheit 13 mitgeteilt und als Daten
festgelegt, die als nächste
verwendet werden. Wenn die 3-D-Bild-Zeichenverarbeitung für das nächste Frame
durchgeführt
wird, werden diese Adresse und diese Frame-Nummer der einzelnen Bewegungsdaten
verwendet. Die Mitteilungen von der Lippenbewegungs-Steuereinheit 11,
der Körperbewegungs-Steuereinheit 12 und
der Gesichtsausdrucks-Steuereinheit 13 werden synchron
gesteuert.
-
Nachstehend
werden die Musikdaten erläutert.
Die Datenverwaltungseinheit 3 gibt den Wert der Sprachumwandlungswertparameter
und den Musikdaten-ID, die dem Partner-ID entsprechen, laut der Sprach-/Musik-Verwaltungstabelle 3c an.
Wenn es keinen Wert oder ID gibt, der dem Partner-ID in der Sprach-/Musik-Verwaltungstabelle 3c entspricht,
gibt die Datenverwaltungseinheit 3 den voreingestellten Sprachumwandlungswertparameter
und den voreingestellten Musikdaten-ID an. Sie ermittelt die Adresse
der Musikdaten aus der Sprach-/Musik-Verwaltungstabelle
aufgrund des Musikdaten-ID. Sie lädt die Musikdaten aufgrund
der ermittelten Adresse der Musikdaten aus der Musikdaten-Speichereinheit 22 und
sendet sie an die Sprach-/Musik-Verarbeitungseinheit 5.
Die Sprach-/Musik-Verarbeitungseinheit 5 dekomprimiert
die Musikdaten, wenn sie komprimiert sind, und führt eine Ton-Erzeugungsverarbeitung
aus den gespeicherten Tonquellendaten, wie etwa MIDI-Daten, durch,
wenn die Musikdaten codiert sind, und gibt dann die Musik von der
Sprach-/Musik-Ausgabeeinheit 7 über die
Sprach-/Musik-Umwandlungseinheit 6 aus. Wenn ein Anruf
empfangen wird, wird eine Klingelmelodie, die mit der Figur des
Kommunikationspartners verknüpft
ist, von der Sprach-/Musik-Ausgabeeinheit 7 ausgegeben,
um problemlos zu identifizieren, wer anruft.
-
Mit
der vorstehenden Operation ist es möglich, die CG-Figur während des
Einschaltens der Musik anzuzeigen, aber die Musik und die Bewegung der
CG-Figur sind grundsätzlich
nicht miteinander synchron (da sie miteinander synchronisiert werden können, wenn
die Bewegungsdaten erzeugt werden, um vorher mit den Musikdaten
synchronisiert zu werden, kann zumindest ihre Anfangsausgabe synchronisiert
werden).
-
Nachstehend
wird die Synchronisation einer Musik und einer CG-Figur erläutert. Daten,
die Zeitverwaltungsdaten enthalten, die einem Zeitstempel entsprechen,
der für
Bilddaten verwendet wird, werden hier für die Musikdaten verwendet.
Ein Audio nach MEPG-4 (Fachgruppe Bewegtbild, Phase 4) enthält Zeitstempel,
und bei den MIDI-Daten kann der Zeitstempel durch die Deltazeit
ersetzt werden, die durch Integrieren von Zeitinkrementdaten erhalten
wird. Wenn die Musikdaten an die Sprach-/Musik-Ausgabeeinheit 7 gesendet
werden, verwaltet die Sprach-/Musik-Verarbeitungseinheit 5 die
Zeitstempel und sendet die Musikdaten unter Verwendung des Zeitstempels
für die
Ausgabe der nächsten
Musik als zeitsynchrones Signal an die Lippenbewegungs-Steuereinheit 11,
die Körperbewegungs-Steuereinheit 12 und
die Gesichtsausdrucks-Steuereinheit 13. Es werden die Lippenbewegungsdaten,
die Ausdrucksdaten und die Körperbewegungsdaten verwendet,
die die Zeitstempel enthalten, die bei 0 beginnen. Die Zeitstempel
werden vorher entsprechend der Musik zugewiesen. Die Lippenbewegungs-Steuereinheit 11,
die Körperbewegungs-Steuereinheit 12 und
die Gesichtsausdrucks-Steuereinheit 13 vergleichen diese
gesendeten Zeitstempel mit den Zeitstempelnummern der Bewegungsdaten,
die von ihr gesteuert werden, unter Verwendung des Umstands, dass
die Summe aus der kumulativen Anzahl der Zeitstempel der Bewegungsdaten,
die für
das 3-D-Bild-Zeichnen verwendet worden sind, und der Anzahl der
Zeitstempel, die in jeder Bewegung enthalten sind, den Zeitstempeln
der Musik entspricht. Die Frame-Nummer und die Adresse der Bewegungsdaten,
die als Ergebnis des Vergleichs mit den Musikdaten übereinstimmen,
werden gleichzeitig an die 3-D-Bild-Zeicheneinheit 14 gesendet.
Dadurch kann die Bewegung synchron mit den Musikdaten gesteuert
werden.
-
Nachstehend
werden die Operationen nach dem Beginn des Gesprächs erläutert. Die Kommunikationseinheit 1 ermittelt,
dass die Kommunikation mit dem Partner begonnen hat. Bei einem normalen Telefongespräch wird
quittiert, dass die Verbindung hergestellt worden ist, wenn der
Partner durch Abheben des Telefonhörers ein Quittungszeichen sendet, wenn
ein Teilnehmer anruft, und wenn der Teilnehmer durch Abheben des
Telefonhörers
ein Quittungszeichen sendet, wenn der Partner anruft. Es kann im Wesentlichen
nach dem gleichen Mechanismus auch bei einer drahtlosen Kommunikation,
wie etwa mit einem Mobiltelefon, oder bei einer Kommunikation, wie etwa über das
Internet, quittiert werden, dass die Kommunikation begonnen hat.
Die Kommunikationseinheit 1 teilt der Datenverwaltungseinheit 3 mit,
dass die Verbindung hergestellt worden ist.
-
Wenn
die Datenverwaltungseinheit 3 die Mitteilung empfängt, dass
die Verbindung hergestellt worden ist, unterbricht sie die Übertragung
der Musikdaten an die Sprach-/Musik-Verarbeitungseinheit 5 und
teilt ihr den Gesprächsbeginn
mit. Die Datenverwaltungseinheit 3 liest außerdem den
Sprachumwandlungswertparameter aus der Sprach-/Musik-Verwaltungstabelle 3c und
teilt ihn der Sprach-/Musik-Umwandlungseinheit 6 über die Sprach-/Musik-Verarbeitungseinheit 5 mit.
Gleichzeitig teilt sie der Lippenbewegungs-Steuereinheit 11, der
Körperbewegungs-Steuereinheit 12 und
der Gesichtsausdrucks-Steuereinheit 13 mit, dass das Gespräch beginnen
wird.
-
Wenn
die Lippenbewegungs-Steuereinheit 11, die Körperbewegungs-Steuereinheit 12 und
die Gesichtsausdrucks-Steuereinheit 13 die Mitteilung empfangen,
unterbrechen sie die Übertragung
an die 3-D-Bild-Zeicheneinheit 14. Die Lippenbewegungs-Steuereinheit 11 sendet
an die 3-D-Bild-Zeicheneinheit 14 die Adresse und die Frame-Nummer der
Lippenbewegungsdaten in dem Grad-0-Zustand, der in 5A gezeigt
ist, an die 3-D-Bild-Zeicheneinheit 14,
wenn die Sprachanalysiereinheit 9 nur die Sprachintensität analysiert,
und die Adresse und die Frame-Nummer der Lippenbewegungsdaten in
dem in 5B gezeigten Zustand des Aussprechens
von „n", wenn die Sprachanalysiereinheit 9 nur
das Phonem analysiert oder die Sprachintensität und das Phonem analysiert.
Die Körperbewegungs-Steuereinheit 12 sendet
die Adresse und die Frame-Nummer der Körperbewegungsdaten für den normalen Zustand
der Körperbewegungsmusterdaten
nach dem Beginn des Gesprächs
an die 3-D-Bild-Zeicheneinheit 14. Die Gesichtsausdrucks-Steuereinheit 13 sendet
die Adresse und die Frame-Nummer der Ausdrucksdaten für das normale
Gesicht mit den Ausdrucksmusterdaten nach dem Beginn des Gesprächs an die
3-D-Bild-Zeicheneinheit 14. Wenn die 3-D-Bild-Zeicheneinheit 14 die
Adressen und die Frame-Nummern der Bewegungsdaten empfängt, die von
der Lippenbewegungs-Steuereinheit 11, der Körperbewegungs-Steuereinheit 12 und
der Gesichtsausdrucks-Steuereinheit 13 gesendet werden,
führt sie
die 3-D-Bild-Zeichenverarbeitung in der vorstehenden beschriebenen
Weise durch und sendet das erzeugte Bild an die Anzeige-Einheit 15,
um es anzuzeigen.
-
Wenn
die Sprach-/Musik-Verarbeitungseinheit 5 die Mitteilung
des Gesprächsbeginns
empfängt,
führt sie
die Sprachverarbeitung (wie etwa Decodieren der Sprachdaten und
Rauschunterdrückung)
entsprechend einem von der Kommunikationseinheit 1 gesendeten
Kommunikationsmedium durch und sendet die verarbeiteten Daten an
die Sprach-/Musik-Umwandlungseinheit 6 und
die Sprachanalysiereinheit 9.
-
Die
Sprach-/Musik-Umwandlungseinheit 5 wandelt die Sprache
aufgrund der gesendeten Sprache oder des Wertparameters um (beispielsweise führt sie
einer Filterung bei der vorgenannten Filterverarbeitung durch) und
sendet sie an die Sprach-/Musik-Ausgabeeinheit 7.
Daher wird die Sprache der Person, die über das Telefon spricht, in eine
andere Sprache umgewandelt und ausgegeben.
-
Die
Sprachanalysiereinheit 9 analysiert die Intensität oder das
Phonem der gesendeten Sprachdaten oder beides. Die Sprachintensität wird so
analysiert, dass der Absolutwert der Sprachdaten-Amplitude eine
vorgegebene Zeit lang (wie etwa eine Anzeigeratenzeit) integriert
wird (die Abtastwerte werden addiert), wie in 5A gezeigt,
und die Größe des integrierten
Werts aufgrund eines vorgegebenen Werts für diesen Zeitraum ermittelt
wird. Das Phonem wird so analysiert, dass die Verarbeitung für die normale
Spracherkennung durchgeführt
wird und die Phoneme in „n", „a", „i", „u", „e" oder „o" klassifiziert werden
oder der Anteil jedes Phonems ausgegeben wird. Im Grunde wird eine
Dokumentvorlage, die durch Normalisieren der Sprachdaten der statistisch erfassten
Phoneme „n", „a", „i", „u", „e" oder „o" erhalten wird, mit
den eingegebenen Sprachdaten abgeglichen, die in Phoneme aufgelöst werden
und normalisiert werden, die am besten passenden Daten werden ausgewählt, oder
das Verhältnis
der Übereinstimmungsgrade
wird ausgegeben. Für
den Übereinstimmungsgrad
werden die Daten mit dem kleinsten Abstand gewählt, der mit einer entsprechenden
vorgegebenen Abstandsfunktion (wie etwa Euklid-Abstand, Hilbert-Abstand
und Maharanobis-Abstand) gemessen wird, oder der Wert wird als Verhältnis dadurch
berechnet, dass jeder Abstand durch die Summe der gemessenen Abstände aller
Phoneme „n", „a", „i", „u", „e" und „o" dividiert wird.
Dieses Ergebnis der Sprachanalyse wird an die Emotionsmutmaßungseinheit 10 gesendet.
Außerdem
wird der Lippen-ID wie vorstehend aufgrund des Ergebnisses der Sprachanalyse
ermittelt, und der ermittelte Lippen-ID wird an die Lippenbewegungs-Steuereinheit 11 gesendet.
-
Die
Lippenbewegungs-Steuereinheit 11 ermittelt die Adresse
der Lippenbewegungsdaten, die den Lippenbewegungsmusterdaten entsprechen, aufgrund
des von der Sprachanalysiereinheit 9 gesendeten Lippen-ID
und sendet die Adresse und die Frame-Nummer der Lippenbewegungsdaten an die 3-D-Bild-Zeicheneinheit 14.
-
Die
Emotionsmutmaßungseinheit 10 speichert
vorher das von der Sprachanalyse 9 gesendete Sprachanalyse-Ergebnis
eine vorgegebene Zeit lang und mutmaßt den Emotionszustand der
Person, die über
das Telefon spricht, aufgrund des gespeicherten Ergebnisses. Die
Emotionstypen werden beispielsweise in „normal", „lachend", „wütend", „weinend" und „besorgt" eingeteilt. Für den Sprachintensitätsgrad hält die Emotionsmutmaßungseinheit 10 die Gradmuster
eine bestimmte Zeit lang als Dokumentvortagen für jede Emotion. Angenommen,
der bestimmte Zeitraum entspricht einer dreimaligen Sprachanalyse,
so zeigen die Dokumentvorlagen, dass „Grad 2, Grad 2, Grad 2" „normal" ist, „Grad 3, Grad 2, Grad 3" „lachend" ist, „Grad 3, Grad 3, Grad 3" „wütend" ist, „Grad 1, Grad 2, Grad 1" „weinend" ist und „Grad 0, Grad 1, Grad 0" „besorgt" ist. Für das gespeicherte Ergebnis
der dreimaligen Analyse für diese
Dokumentvorlagen wird die Summe der Absolutwerte der Graddifferenzen
(Hilbert-Abstand) oder die Summe der Quadrate der Graddifferenzen
(Euklid-Abstand) berechnet, sodass der am besten genäherte Emotionszustand
als Emotionszustand zu diesem Zeitpunkt festgelegt wird. Oder der
Emotionszustand wird mit einem Verhältnis berechnet, das durch Dividieren
des Abstands für
jede Emotion durch die Summe der Abstände für alle Emotionen erhalten wird.
Wenn das Ergebnis der Phonem-Analyse gesendet wird, wird der Emotionszustand
durch Abgleichen der Dokumentvorlage mit einem Schlüsselwort als
Wörterbuch-Dokumentvorlage
erhalten. Da jedoch bei der vorliegenden Ausführungsform nur die Vokale analysiert
werden, wird das folgende Verfahren verwendet. Für die Emotion „wütend" werden Wörter, die
Wut angeben, wie etwa „ikatteiru" (wütend sein), „ikidori" (Entrüstung) und „naguru" (schlagen), in Vokalen
dargestellt, wie etwa „iaeiu", „iioi" und „auu", und unter Verwendung
ihrer ersten drei Zeichen wird ein Wörterbuch erstellt, wenn der
bestimmte Zeitraum der Zeitraum für das Ergebnis der dreimaligen
Sprachanalyse ist. In der gleichen Weise werden Wörterbücher für andere
Emotionszustände erstellt.
Natürlich
gibt es auch andere Wörter
mit der gleichen Vokal-Darstellung
in diesen Wörterbüchern. Ein
häufiger
verwendetes Wort wird aufgrund der Analyse der Umgangssprache in
das Wörterbuch aufgenommen,
um vorher eine Wörterbuch-Dokumentvorlage zu
erzeugen. Da es 216 Kombinationen von Vokalen gibt, wenn der bestimmte
Zeitraum der für
eine dreimalige Analyse ist, werden in dieser Wörterbuch-Dokumentvorlage 216 Wörter in
einzelne Emotionszustände
eingeteilt. Ein Dokumentvorlagen-Abgleich
wird zwischen dem gespeicherten Ergebnis der dreimaligen Phonem-Analyse
und der Wörterbuch-Dokumentvorlage
durchgeführt,
um den Emotionszustand zu ermitteln. Wenn bei der Kombination aus
Sprachintensitätsanalyse
und Phonem-Analyse bei beiden Analysen der gleiche Emotionszustand
ermittelt wird, wird dieser Emotionszustand als aktueller Emotionszustand
festgelegt. Wenn unterschiedliche Emotionszustände ermittelt werden, wird
einer der Emotionszustände
statistisch zufällig
als aktueller Emotionszustand gewählt. Der in der vorstehenden
Weise berechnete Emotionszustand wird an die Körperbewegungs-Steuereinheit 12 und
die Gesichtsausdrucks-Steuereinheit 13 gesendet.
-
Das
Gespräch
des Teilnehmers wird als Sprachdaten in die Spracheingabeeinheit 8 eingegeben
und dann an die Sprach-/Musik-Verarbeitungseinheit 5 gesendet.
Als Spracheingabeeinheit 8 wird ein Mikrofon verwendet.
Die Sprach-/Musik-Verarbeitungseinheit 5 führt die
Verarbeitung der Rauschunterdrückung
und der Echoentzerrung durch, die normalerweise für die eingegebenen
Sprachdaten durchgeführt
werden, und sendet die verarbeiteten Sprachdaten an die Sprachanalysiereinheit 9.
Die Verarbeitung wird in Abhängigkeit
von dem Kommunikationsverfahren, wie etwa Codierung und Umwandeln
in Ströme
oder Pakete, durchgeführt,
und die verarbeiteten Sprachdaten werden dann über die Kommunikationseinheit 1 an
den Kommunikationspartner gesendet. Die Sprachanalyse-Einheit 9 analysiert
auch die Intensität
und die Phoneme der eingegebenen Sprachdaten in der vorstehend beschriebenen
Weise und sendet sie zusammen mit dem Ergebnis der Analyse der eingegebenen
Sprache und dem Identifikator, der die eingegebene Sprache angibt,
an die Emotionsmutmaßungseinheit 10.
Die Emotionsmutmaßungseinheit 10 speichert
das Sprachanalyse-Ergebnis eine bestimmte Zeit in einem Speicherbereich
ausschließlich
für die
eingegebene Sprache, wie vorstehend dargelegt, und führt die
Emotionsmutmaßungsverarbeitung
des gespeicherten Ergebnisses in der vorstehend beschriebenen Weise
durch. Der dem Hörer
eigene Zustand, wie etwa der „überzeugte
Zustand", wird zu
dieser Emotionsmutmaßung
hinzugefügt.
Mit anderen Worten, das Emotionsmutmaßungsverfahren kann für die Sprachdaten
des Partners und die Sprachdaten des Teilnehmers unterschiedlich
sein. Das Emotionsmutmaßungsergebnis
wird an die Körperbewegungs-Steuereinheit 12 und
die Gesichtsausdrucks-Steuereinheit 13 gesendet.
-
Es
gibt noch ein weiteres Emotionsmutmaßungsverfahren, das ein Frequenzsignal
der Sprachdaten, wie etwa ein prosodisches Phonem, eine Amplitude
und eine Betonung, verwendet. 9 ist ein Ablaufdiagramm,
das den Verarbeitungsablauf für das
Emotionsmutmaßungsverfahren
unter Verwendung eines Frequenzsignals zeigt. Die nachstehende Erläuterung
dieses Emotionsmutmaßungsverfahrens beruht
auf der Annahme, dass vier Arten der wichtigsten Emotionen gemutmaßt werden,
und zwar „Wut", „Sorge", „Freude" und „normal".
-
Zunächst wird
die Sprache des Teilnehmers als Sprachdaten in die Spracheingabeeinheit 8 eingegeben
und an die Sprach-/Musik-Verarbeitungseinheit 5 gesendet,
und die Sprache des Partners wird über die Kommunikationseinheit 1 in
die Spracheingabeeinheit 5 eingegeben (S901). Die Sprach-/Musik-Verarbeitungseinheit 5 führt die
normale Verarbeitung der gesendeten Sprachdaten, wie etwa Rauschunterdrückung und
Echoentzerrung, durch und sendet die verarbeiteten Sprachdaten an die
Sprachanalysiereinheit 9.
-
Die
Sprachanalysiereinheit 9 ermittelt die typischen Kenngrößen durch
Verarbeitung unter Verwendung des Frequenzsignals der Sprachdaten,
wie etwa prosodisches Phonem, Amplitude und Betonung. Diese typischen
Kenngrößen beruhen
auf der Grundfrequenz, bei der die Differenz zwischen den einzelnen
Emotionen gut widergespiegelt wird, und es werden folgende Parameter
verwendet: F0max [Höchstwert (Hz) der Grundfrequenz
F0 beim Sprechen], Amax [Höchstwert
(Hz) der Amplitude beim Sprechen], T [Zeitlänge [s] vom Beginn bis zum
Ende des Sprechens], F0init [Grundfrequenz
(Hz) unmittelbar nach dem Beginn des Sprechens], F0range [höchste Grundfrequenz
minus niedrigste Grundfrequenz (Hz) beim Sprechen] und so weiter.
Weitere Parameter, wie etwa Kompensation des Geschlechtsunterschieds,
können
zu den typischen Kenngrößen hinzugefügt werden.
-
Die
Sprachanalysiereinheit 9 tastet die Grundfrequenz unter
Verwendung des DP-Abgleichverfahrens
unter Berücksichtigung
des Kontexts der gesamten Rede ab. Dieses Abtastverfahren wird nun kurz
erläutert.
Die in die Spracheingabeeinheit 8 eingegebenen Sprachdaten
werden mit der Sprachanalysiereinheit 9 einmal in Daten
im Frequenzbereich umgewandelt und werden dann noch einmal durch eine
vorgegebene Verarbeitung in Daten im Zeitbereich umgewandelt. Eine
vorgegebene Anzahl von Daten wird in der Reihenfolge der größeren Spitzenwerte
aus den Daten im Zeitbereich ausgewählt, und die Spitzenwerte der
ausgewählten
Daten werden so verbunden, dass die Grundfrequenz abgetastet wird (S902).
-
Dann
berechnet die Emotionsmutmaßungseinheit 10 die
Statistik aufgrund der von der Sprachanalysiereinheit 9 ermittelten
typischen Kenngrößen (S903),
um zu mutmaßen,
zu welcher Emotionsgruppe die einzelnen Sprachdaten gehören (S904).
Mit diesem Emotionsmutmaßungsverfahren
kann die Emotion des Sprechers mit einer hohen Wahrscheinlichkeit
gemutmaßt
werden. Dann sendet die Emotionsmutmaßungseinheit 10 das
Emotionsmutmaßungsergebnis
an die Lippenbewegungs-Steuereinheit 11, die Körperbewegungs-Steuereinheit 12 und die
Gesichtsausdrucks-Steuereinheit 13.
-
Somit
bewegt sich die auf dem Bildschirm der virtuellen Fernsehtelefonvorrichtung
angezeigte Figur aufgrund der Mutmaßung der Emotionen des Teilnehmers
und des Partners, sodass eine unterhaltsamere virtuelle Fernsehtelefonvorrichtung
realisiert werden kann.
-
Die
Körperbewegungs-Steuereinheit 12 legt die
Körperbewegungsdaten,
die dem gesendeten Emotionsmutmaßungsergebnis entsprechen,
als nächsten
Bewegungsübergang
(vorher) fest und sendet die Adresse und die Frame-Nummer der ermittelten
Körperbewegungsdaten
an die 3-D-Bild-Zeicheneinheit 14, nachdem sie das Senden
der Adresse und der Frame-Nummer der aktuellen Körperbewegungsdaten für alle Frames
beendet hat. Wenn sie die Festlegung des Übergangs der Körperbewegungsdaten
statistisch zufällig
steuert, vorbestimmt sie die Wahrscheinlichkeit, dass der Übergang
verursacht oder nicht verursacht wird, die dem Emotionsmutmaßungsergebnis
entspricht (wenn die eine Wahrscheinlichkeit bestimmt wird, wird
wegen der Binärverteilung
zwangsläufig
auch eine andere Wahrscheinlichkeit bestimmt), und bestimmt den Übergang
unter Verwendung von Zufallszahlen entsprechend dieser Verteilung.
Die Gesichtsausdrucks-Steuereinheit 13 bestimmt den Übergang in
der gleichen Weise und sendet die Adresse und die Frame-Nummer der
Ausdrucksdaten an die 3-D-Bild-Zeicheneinheit 14.
-
Die
3-D-Bild-Zeicheneinheit 14 erzeugt unter Verwendung der
Adresse und der Frame-Nummer der
Lippenbewegungsdaten, die von der Lippenbewegungs-Steuereinheit 11 gesendet
werden, der Adresse und der Frame-Nummer der Körperbewegungsdaten, die von
der Körperbewegungs-Steuereinheit 12 gesendet
werden, und der Adresse und der Frame-Nummer der Ausdruckssteuerdaten, die von
der Gesichtsausdrucks-Steuereinheit 13 gesendet werden,
ein Bild mit der gleichen Verarbeitung, die vor dem Beginn der Kommunikation
durchgeführt wurde,
und sendet das Bild an die Anzeige-Einheit 15. Die Anzeige-Einheit 15 zeigt
dieses Bild an.
-
Wenn
die Bewegungs-/Ausdrucks-Eingabeeinheit 16 oder die Aufnahmeortänderungs-Eingabeeinheit 17 Daten
eingibt, wirkt sich die Bewegung oder der Ausdruck, die/der dieser
Eingabe entspricht, auf die CG-Figur aus oder der Aufnahmeort wird
geändert,
wie in dem Fall vor Beginn der Kommunikation.
-
Die
Grundoperation des Teilnehmer-/Partneranzeigemodus ist die Gleiche
wie die vorstehend beschriebene Operation, unterscheidet sich aber
darin, dass die Daten für
den Teilnehmer addiert werden müssen.
Die Daten für
den Teilnehmer werden zu den Daten addiert, die von der Datenverwaltungseinheit 3 vor
und nach dem Beginn der Kommunikation mitgeteilt werden. Die Lippenbewegungs-Steuereinheit 11,
die Körperbewegungs-Steuereinheit 12 und die
Gesichtsausdrucks-Steuereinheit 13 senden die Adresse und
die Frame-Nummer der Bewegungsdaten der CG-Figur des Teilnehmers
sowie die Identifikatoren, die den Teilnehmer und den Partner angeben,
an die 3-D-Bild-Zeicheneinheit 14. Die 3-D-Bild-Zeicheneinheit 14 ermittelt
aufgrund der Identifikatoren den Körperzustand, den Ausdruck und
den Lippenzustand der CG-Figur des Partners und den Körperzustand,
den Ausdruck und den Lippenzustand der CG-Figur des Teilnehmers,
erzeugt Bilder durch die vorstehend beschriebene Verarbeitung und
sendet die erzeugten Bilder an die Anzeige-Einheit 15,
um sie anzuzeigen. Die Sprach-/Musik-Verarbeitungseinheit 5 sendet
die Sprachdaten zusammen mit dem Identifikator des Teilnehmers oder
des Partners an die Sprachanalysiereinheit 9. Die Sprachanalysiereinheit 9 führt die
vorstehend beschriebene Verarbeitung durch und sendet das Sprachanalyse-Ergebnis
zusammen mit dem Identifikator des Teilnehmers oder des Partners
an die Lippenbewegungs-Steuereinheit 11 und die Emotionsmutmaßungseinheit 10.
Die Lippenbewegungs-Steuereinheit 11 ermittelt die Adresse
und die Frame-Nummer der Lippenbewegungsdaten aufgrund des Übergangs
der Lippenbewegung und des Lippenbewegungsmusters des Teilnehmers
oder des Partners entsprechend dem Identifikator des Teilnehmers
oder des Partners. Die Emotionsmutmaßungseinheit 10 mutmaßt die Emotionen
des Teilnehmers bzw. des Partners in der vorstehend beschriebenen Weise
und sendet das Ergebnis zusammen mit dem Identifikator des Teilnehmers
oder des Partners an die Körperbewegungs-Steuereinheit 12 und
die Gesichtsausdrucks-Steuereinheit 13. Die Körperbewegungs-Steuereinheit 12 ermittelt
das Übergangsziel der
Körperbewegung
des Teilnehmers oder des Partners entsprechend dem Identifikator
des Teilnehmers oder des Partners und sendet die Adresse und die Frame-Nummer
der Körperbewegungsdaten
des Teilnehmers oder des Partners zusammen mit seinem Identifikator
an die 3-D-Bild-Zeicheneinheit 14. Die
Gesichtsausdrucks-Steuereinheit 13 ermittelt das Übergangsziel
des Ausdrucks des Teilnehmers oder des Partners in der gleichen
Weise und sendet die Adresse und die Frame-Nummer der Ausdrucksdaten
des Teilnehmers oder des Partners zusammen mit seinem Identifikator
an die 3-D-Bild-Zeicheneinheit 14.
-
Das
Gespräch
wird im Wesentlichen nacheinander ausgetauscht. Daher werden die
Emotionen des Teilnehmers und des Partners von der Emotionsmutmaßungseinheit 10 aufgrund
dessen gemutmaßt, was
der Partner gesagt hat, und das Mutmaßungsergebnis wird auf die
Körperbewegungen
und die Ausdrücke
der CG-Figuren des Teilnehmers und des Partners widergespiegelt.
Dann wird das Emotionsmutmaßungsergebnis,
das darauf beruht, was der Teilnehmer in Reaktion auf die Äußerung des
Partners gesagt hat, auf die Körperbewegungen
und die Ausdrücke
der CG-Figuren des Teilnehmers und des Partners widergespiegelt,
und diese Verarbeitung wird nacheinander wiederholt.
-
Wenn
die Aufnahmeortänderungs-Eingabeeinheit 17 die
Eingabe annimmt, wird in der vorstehend beschriebenen Weise ein
Bild mit geändertem Aufnahmeort
erzeugt und an der Anzeige-Einheit 15 angezeigt. Bei der
vorliegenden Ausführungsform sind
die Operationen der Bewegungs-/Ausdrucks-Eingabeeinheit 16 für das Ändern der
Bewegung und des Ausdrucks des Partners beschrieben worden. Wenn
jedoch ein Identifikator, der den Teilnehmer oder den Partner angibt,
angehängt
wird, wenn die Eingabe-Schaltfläche
für den
Teilnehmer oder den Partner betätigt
wird, können
außer
dieser von der Datenverwaltungseinheit 3 durchgeführten Verarbeitung
auch die CG-Figuren des Teilnehmers und des Partners entsprechend
der Eingabe in die Bewegungs-/Ausdrucks-Eingabeeinheit 16 geändert werden.
-
7 zeigt
eine Reihe von Pipeline-Operationen von der Spracheingabe bis zu
der Bild-Anzeige, die
vorstehend beschrieben wurden. Das Ergebnis der von der Sprach-/Musik-Verarbeitungseinheit 5 durchgeführten Verarbeitung
wird als Sprachumwandlungsausgabe dargestellt, und die Bilder werden
unter Verwendung von Doppelpuffern gezeichnet. Wie in 7 gezeigt,
wird die Lippenbewegung der CG-Figur als Sprachumwandlungsausgabe
nach einer 2-Frame-Verzögerung
mit der Anzeigerate angezeigt, aber die Verzögerung ist unsichtbar, da sie beispielsweise
bei einer Anzeigerate von 30 Frames/Sekunde nur etwa 66 ms beträgt. Auch
das Emotionsmutmaßungsergebnis
wird nach einer Verzögerung
von 1 Frame zusätzlich
zu der festgelegten Speicherzeit für das Sprachanalyse-Ergebnis
erzeugt. Wenn das Sprachanalyse-Ergebnis
für die Dauer
von 3 Frames gespeichert wird, wie in 7 gezeigt,
verursacht das eine Verzögerung
von 4 Frames (etwa 134 ms bei einer Anzeigerate von 30 Frames/Sekunde).
-
Ein
echter Mensch braucht jedoch ziemlich lange, um seine Emotion in
Reaktion darauf zu erzeugen, was der andere gesagt hat (vermutlich
mehrere hundert ms, nachdem er verstanden hat, was der andere gesagt
hat, obwohl das darauf ankommt, was er erkennt), und daher ist diese
Verzögerung nicht
signifikant, wenn die Speicherzeit nicht sehr lang ist.
-
Zweite Ausführungsform
-
Nachstehend
wird eine virtuelle Fernsehtelefonvorrichtung nach einer zweiten
Ausführungsform der
vorliegenden Erfindung unter Bezugnahme auf die Zeichnungen erläutert.
-
2 zeigt
den Aufbau der virtuellen Fernsehtelefonvorrichtung nach der zweiten
Ausführungsform
der vorliegenden Erfindung. Sie weist Folgendes auf: eine Kommunikationseinheit 101,
eine Daten-Download-Einheit 102, eine Übertragungsdaten-Ermittlungseinheit 103,
die Figurenhintergrundauswahl-Eingabeeinheit 2, eine Datenverwaltungseinheit 104,
die Sprach-/Musikauswahl-Eingabeeinheit 4, die Sprach-/Musik-Verarbeitungseinheit 5,
die Sprach-/Musik-Umwandlungseinheit 6, die Sprach-/Musik-Ausgabeeinheit 7,
die Spracheingabeeinheit 8, die Sprachanalysiereinheit 9,
die Emotionsmutmaßungseinheit 10,
die Lippenbewegungs-Steuereinheit 11, die Körperbewegungs-Steuereinheit 12,
die Gesichtsausdrucks-Steuereinheit 13, die 3-D-Bild-Zeicheneinheit 14,
die Anzeige-Einheit 15; die Bewegungs-/Ausdrucks-Eingabeeinheit 16,
die Aufnahmeortänderungs-Eingabeeinheit 17, die
Figurengestaltdaten-Speichereinheit 18, die Figurenbewegungsdaten-Speichereinheit 19,
die Hintergrunddaten-Speichereinheit 20, die Texturdaten-Speichereinheit 21 und
die Musikdaten-Speichereinheit 22.
-
Nachstehend
wird die wie vorstehend gestaltete virtuelle Fernsehtelefonvorrichtung
nach der zweiten Ausführungsform
der vorliegenden Erfindung näher
erläutert.
Da sie sich nur in ihrer Fähigkeit,
CG-Daten zu downloaden, von der ersten Ausführungsform unterscheidet, wird
nur die Operation des Downloadens von CG-Daten erläutert.
-
Bei
der vorliegenden Ausführungsform
werden die CG-Figurendaten (Gestaltdaten, Bekleidungstexturdaten,
Ausdrucksmusterdaten und Ausdrucksdaten, Lippenbewegungsmusterdaten
und Lippenbewegungsdaten und Daumennagelbilddaten), die Körperbewegungsmusterdaten
und die Körperbewegungsdaten,
die Hintergrunddaten und die Musikdaten gedownloadet, aber diese
Daten können in
der gleichen Weise auch einzeln gedownloadet werden.
-
Die
Daten-Download-Einheit 102 greift über die Kommunikationseinheit 101 auf
einen Server zum Speichern von Daten zu. Sie greift auf den Server
in der gleichen Weise wie beim normalen Downloaden von Daten auf
ein Mobiltelefon oder einen Personal Computer zu. Beispielsweise
wird der Server von der IP-Adresse angegeben, der Zugriff wird der
Server-Maschine
mitgeteilt, und das Verfahren läuft
nach TCP/IP ab. Dann wird die Liste mit den vorgenannten Daten,
die in dem Server gespeichert ist, nach HTTP oder FTP gesendet,
und die Daten-Download-Einheit 102 empfängt sie. Ein Teilnehmer wählt die
Daten, die er downloaden will, aus der Liste aus. Die Liste wird
beispielsweise über
die Kommunikationseinheit 101 an die Übertragungsdaten-Ermittlungseinheit 103 gesendet,
und die Übertragungsdaten-Ermittlungseinheit 103 ermittelt,
dass die Daten in der Liste enthalten sind, und sendet sie über die
Datenverwaltungseinheit 104 an die 3-D-Bild-Zeicheneinheit 14.
Die 3-D-Bild-Zeicheneinheit 14 bildet die Liste ab und
sendet sie an die Anzeige-Einheit 15, um sie anzuzeigen,
und der Teilnehmer kann den Inhalt der Liste prüfen.
-
Der
Teilnehmer wählt
die Daten über
die Daten-Download-Einheit 102 aus. Die Kommunikationseinheit 101 sendet
den Namen oder den Identifikator der ausgewählten Daten nach dem vorgenannten Protokoll
an den Server. Der Server sendet die Datei mit den ausgewählten Daten
nach dem vorgenannten Protokoll an die Kommunikationseinheit 101,
und die Übertragungsdaten-Ermittlungseinheit 103 ermittelt,
dass die Datendatei übertragen
wird, und sendet sie an die Datenverwaltungseinheit 104.
Die Datenverwaltungseinheit 104 ermittelt, dass die Daten CG-Figurendaten,
Körperbewegungsmusterdaten und
Körperbewegungsdaten,
Hintergrunddaten oder Musikdaten sind, und gibt die Datengröße an. Wenn die
Auswahl in der Daten-Download-Einheit 102 der Datenverwaltungseinheit 104 über die
Kommunikationseinheit 101 und die Übertragungsdaten-Ermittlungseinheit 103 mitgeteilt
wird, braucht die Datenverwaltungseinheit 104 nicht den
Daten-Inhalt zu ermitteln, da er bereits bekannt ist. Dann sucht
die Datenverwaltungseinheit 104 einen freien Platz zum Speichern
der Daten der Figurengestaltdaten-Speichereinheit 18, der
Figurenbewegungsdaten-Speichereinheit 19, der Hintergrunddaten-Speichereinheit 20,
der Texturdaten-Speichereinheit 21 oder der Musikdaten-Speichereinheit 22 in
Abhängigkeit
von dem Daten-Inhalt, und wenn es einen freien Platz in einer der
Speichereinheiten gibt, sendet sie die Datendatei an diese Speichereinheit.
Diese Speichereinheit speichert die Datendatei und sendet die Adresse
der Datendatei an die Datenverwaltungseinheit 104. Die
Datenverwaltungseinheit 104 fügt die in der Verwaltungstabelle
zu speichernde Datendatei in Abhängigkeit
von dem Daten-Inhalt zu der Verwaltungstabelle hinzu. Beispielsweise
wird bei den in 3 gezeigten CG-Figurendaten „4" als CG-Figuren-ID
hinzugefügt,
und die von der Speichereinheit zurückgesendete Adresse wird in
dem entsprechenden Feld angegeben. Andere Daten werden in der gleichen
Weise hinzugefügt
und angegeben. Nach Beendigung des Hinzufügens der Daten zu der Verwaltungstabelle
wird eine Beendigungsmitteilung über
die Übertragungsdaten-Ermittlungseinheit 103 und
die Kommunikationseinheit 101 an die Daten-Download-Einheit 102 gesendet,
und eine Mitteilung der Beendigung des Downloadens wird über die Kommunikationseinheit 101 an
den Server gesendet, und dadurch endet die Daten-Download-Verarbeitung.
-
Wenn
es keinen freien Platz zum Speichern von Daten gibt, wird die Daten-Download-Einheit 102 über die Übertragungsdaten-Ermittlungseinheit 103 und
die Kommunikationseinheit 101 benachrichtigt. Die Daten-Download-Einheit 102 benachrichtigt
den Teilnehmer, dass es keinen Speicherplatz gibt (beispielsweise
zeigt sie das an der Anzeige-Einheit 15 an). Die Mitteilung
der Beendigung des Downloadens der Daten wird über die Übertragungsdaten-Ermittlungseinheit 103 und
die Kommunikationseinheit 101 in der vorstehend beschriebenen
Weise an die Daten-Download-Einheit 102 gesendet, und die
Mitteilung der Beendigung des Downloadens der Daten wird über die
Kommunikationseinheit 101 an den Server gesendet, und dadurch
endet das Downloaden der Daten.
-
Wenn
Sprachdaten übertragen
werden, ermittelt die Übertragungsdaten-Ermittlungseinheit 103,
dass es sich um Sprachdaten handelt, und sendet sie an die Sprach-/Musik-Verarbeitungseinheit 5.
-
Die
erste und die zweite Ausführungsform der
vorliegenden Erfindung können
auch als Programm für
eine Vorrichtung mit einer Sprachkommunikationseinheit, einer Anzeige-Einheit,
einer Spracheingabe-/-ausgabe-Einheit, einer Zentraleinheit und
einem Speicher realisiert werden. Die Vorrichtung ist beispielsweise
ein Mobiltelefon, ein Taschencomputer, ein Auftisch-Telefon mit einer
Anzeige-Einheit, ein Fahrzeug-Endgerät mit einer Kommunikationsfunktion
oder ein Personal Computer. Die Vorrichtung mit einem speziellen
3-D-Bild-Verarbeitungsgerät,
einem Spracheingabe-/-ausgabegerät
und einem Sprachverarbeitungsgerät
kann die Verarbeitung mit einer höheren Geschwindigkeit durchführen. Es
ist effektiv, einen Personal Computer mit einer 3-D-Grafikkarte
und einer Soundblasterkarte zu verwenden. Als Anzeige-Einheit 15 kann
ungeachtet ihres Typs eine Katodenstrahlröhre, eine Flüssigkristallanzeige, ein
organisches EL oder dergleichen verwendet werden.
-
Die 8A und 8B zeigen
schematische Darstellungen der erfindungsgemäßen virtuellen Fernsehtelefonvorrichtung.
Mit der wie vorstehend gestalteten Vorrichtung kann ein Teilnehmer seine
ausgewählte
CG-Figur, die dem Kommunikationspartner entspricht, anzeigen, um
an dem Gespräch
mit der CG-Figur Spaß zu
haben. Mit einer anderen Vorrichtung kann der Teilnehmer auch seine eigene
CG-Figur anzeigen, um an dem Gespräch im virtuellen Raum Spaß zu haben.
Die CG-Figur, die die voreingestellte Bewegung macht, kann vor und nach
dem Beginn des Gesprächs
angezeigt werden.
-
10A ist eine Darstellung, die einen Personal Computer
(PC) 1001 mit der erfindungsgemäßen virtuellen Fernsehtelefonfunktion
zeigt. Der PC 1001 weist einen Lautsprecher 1002 und
ein Mikrofon 1003 auf.
-
Wenn
ein Teilnehmer mindestens eine Figur des Teilnehmers und des Partners
auswählt
und ein Gespräch
beginnt, mutmaßt
die Emotionsmutmaßungseinheit 10 die
Emotion aufgrund der bei dem Gespräch gemachten Äußerungen.
Die auf einem Bildschirm 1004 angezeigte CG-Figur ändert ihre
Bewegung und ihren Ausdruck entsprechend dieser Emotionsmutmaßung, sodass
eine noch unterhaltsamere virtuelle Fernsehtelefonvorrichtung realisiert werden
kann. Und da der Nutzer des PC 1001 die Figur und den Sprachton
des Partners frei wählen kann,
kann der PC 1001 mit der virtuellen Fernsehtelefonfunktion
mit einem noch höheren
Unterhaltungswert realisiert werden.
-
10B ist eine Darstellung, die ein Mobiltelefon 1005 mit
der erfindungsgemäßen virtuellen Fernsehtelefonfunktion
zeigt. Das Mobiltelefon 1005 hat eine Freisprechfunktion
und zeigt die ausgewählte
Figur, die eine Bewegung aufgrund der Emotionsmutmaßung macht,
auf einem Bildschirm 1006 an. Daher kann das Mobiltelefon 1005 mit
der virtuellen Fernsehtelefonfunktion mit einem noch höheren Unterhaltungswert
realisiert werden.
-
Um
die erfindungsgemäße Emotionsmutmaßungsfunktion
zu verbessern, kann in der virtuellen Fernsehtelefonvorrichtung
zusätzlich
eine neue Sensoreinheit verwendet werden. 11 ist
ein Blockdiagramm, das eine Sensoreinheit 1101 zeigt, die
in der in 1 oder 2 gezeigten
virtuellen Fernsehtelefonvorrichtung zusätzlich verwendet wird. Die Sensoreinheit 1101 ist
eine Verarbeitungseinheit zum Erkennen von Änderungen der Körpertemperatur und
des Herzschlags des Teilnehmers, der Kraft, mit der er das Mobiltelefon
hält, und
dergleichen und sendet die Änderungen
an die Emotionsmutmaßungseinheit 10.
Es ist anzunehmen, dass wenn beispielsweise die Sensoreinheit 1101 über einen
Thermistor eine Änderung
der Temperatur des Teilnehmers erkennt und sie an die Emotionsmutmaßungseinheit 10 sendet,
die Emotionsmutmaßungseinheit 10 die
Emotion zuverlässiger
mutmaßt,
wenn sie die Temperaturänderung
als neuen Parameter für
die Emotionsmutmaßung
verwendet.
-
12A ist eine Darstellung, die ein Beispiel dafür zeigt,
wie ein Mobiltelefon mit verschiedenen Sensoreinheiten für die Emotionsmutmaßung verwendet
werden kann. Das Mobiltelefon weist eine Greifmesseinheit 1201 zum
Erkennen einer Greif-Änderung
des Teilnehmers auf. 12B ist eine Referenzdarstellung,
die ein Mobiltelefon mit verschiedenen Sensoreinheiten für die Emotionsmutmaßung zeigt.
Das Mobiltelefon weist die Greifmesseinheit 1201 und einen
Thermistor 1202 zum Messen einer Temperaturänderung
des Teilnehmers auf. Es wird angenommen, dass bei diesem Mobiltelefon
die Emotion dadurch zuverlässiger
gemutmaßt
wird, dass zusätzlich
zu den vorstehenden Sprachdaten ein neuer Parameter verwendet wird.
-
Die
vorliegende Erfindung ist nicht auf die einzelnen vorstehenden Ausführungsformen
beschränkt,
sondern kann in ihrem Anwendungsbereich ausgeführt werden. Bei den vorliegenden
Ausführungsformen
ist die virtuelle Fernsehtelefonvorrichtung unter der Voraussetzung
erläutert
worden, dass die Figur des Teilnehmers und/oder des Kommunikationspartners
auf dem Bildschirm angezeigt wird. Sie kann jedoch auch als virtuelle
Fernsehtelefonvorrichtung realisiert werden, die Emotionen über eine
Kommunikation unter mehreren Personen, wie etwa eine PC-Kommunikation,
mutmaßt
und mehrere Figuren in Verbindung mit der Emotionsmutmaßung anzeigt.
-
Es
ist auch vorstellbar, das Ergebnis der Emotionsmutmaßung in
Musikdaten widerzuspiegeln und die Ausdrücke und Körperbewegungen der CG-Figur
durch Ausgeben der entsprechenden Musik, wie etwa einer düsteren,
heiteren, angenehmen und rhythmischen Musik, zu steuern.
-
Mit
der vorstehenden Gestaltung zeigt die vorliegende Erfindung einen
Kommunikationspartner als virtuelle 3-D-CG-Figur an, die von einem
Teilnehmer-Empfänger
ausgewählt
wird, und verwendet die Äußerungen
des Partners so, dass ein Gespräch
mit der virtuellen 3-D-CG-Figur realisiert werden kann. Dadurch
kann ein neues Kommunikationsendgerät mit einem amüsanteren
Gespräch
mit einem anderen Ansatz als den Funktionen „Sehen des Gesichts eines
Kommunikationspartners oder Sehen eines visuellen Bilds, das dem
Gesicht des Partners ähnlich
ist" und „Agieren
als virtuelle Figur" realisiert
werden. Außerdem
kann die vorliegende Erfindung eine Telefongesprächsvorrichtung mit einem Anzeigegerät realisieren,
die ein Gespräch
in einem virtuellen Raum ohne Verwendung eines Servers oder dergleichen realisiert,
der für
den vorgenannten Stand der Technik verwendet wird. Und da Daten
in die erfindungsgemäße Vorrichtung
gedownloadet werden können, können die
CG-Daten aktualisiert werden. Der Teilnehmer kann Spaß an einem
Gespräch
mit verschiedenen CG-Figuren haben, indem er die CG-Figur und die
Sprache ein und desselben Partners ändert.
-
Da
der Teilnehmer-Empfänger
seine eigene Figur sowie die Figur des Partners wählen kann
und die Figuren ihre Emotionen bei dem Telefongespräch aufgrund
der Emotionsmutmaßungsfunktion
ausdrücken
lassen kann, kann eine neue virtuelle Fernsehtelefonvorrichtung
mit einem höheren
Unterhaltungswert realisiert werden.
-
Wie
vorstehend dargelegt, ist anzunehmen, dass die vorliegende Erfindung
eine enorme Wirkung zeitigt, das heißt, neues Vergnügen und
Freude an einem Gespräch über die
Sprachunterhaltungsvorrichtung.