JP2004519787A

JP2004519787A - 顔の感情を取り入れたテキスト視覚音声化システム及び方法

Info

Publication number: JP2004519787A
Application number: JP2002578253A
Authority: JP
Inventors: キランエスチャッラパリ
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2001-03-29
Filing date: 2002-03-19
Publication date: 2004-07-02
Also published as: WO2002080107A1; CN1460232A; US20020194006A1; EP1374179A1; KR20030007726A

Abstract

エモーティコンを表示可能な動画化された顔の画像上の顔の表情に変換する視覚音声システム。前記システムは（１）所定の顔の表情に関連する少なくとも１つのエモーティコンの文字列を含むテキストデータを受信するデータ読み込みシステムと、（２）前記所定の顔の表情に対応する少なくとも１つの顔の動きをシミュレートすることができる、表示可能な動画化された顔の画像を生成するテキスト動画化システムとを有する。前記システムは好ましくは、オンラインチャット環境においてのように、ネットワークに渡ってリモートに実装される。

Description

【０００１】
【発明の属する技術分野】
本発明はテキスト視覚音声化（ｔｅｘｔｔｏｖｉｓｕａｌｓｐｅｅｃｈ）システムに関し、より詳細には顔の画像中の感情を生成するためエモーティコン（ｅｍｏｔｉｃｏｎ）を利用するシステム及び方法に関する。
【０００２】
【従来の技術】
インターネット及び他のネットワーク環境の出現に伴い、離れた場所におけるユーザは、ｅメール及びオンラインチャット（例えばチャットルーム）を介してのように、種々の形態で互いに通信することが可能である。オンラインチャットはとりわけ多くの場面において有用である。なぜなら、共通のメッセージウィンドウに互いに向けて交互にテキストのメッセージをタイプすることにより、ユーザがリアルタイムでネットワークに渡って通信することを可能にするからである。オンラインチャットの議論をより擬人化されたものにするため、メッセージ中の感情及び／又は顔の表情を暗示するために「エモーティコン（ｅｍｏｔｉｃｏｎ）」がしばしばタイプ入力される。一般に利用されるエモーティコンの例は、にこにこした顔を表す：−）、不機嫌を表す：−（、ウィンクを表す；−）、ショックを表す：−ｏ、悲しみを表す：−＜を含む（エモーティコンのより網羅的なリストは添付した付録に見出される）。不運にも、エモーティコンの広く普及した利用をもってしても、オンラインチャットは感情を表さない傾向があり、ユーザが各メッセージを自力で読み解釈することを必要とする。
【０００３】
高速コンピューティング及びブロードバンドシステムの出現に伴い、通信のより進んだ形態がオンライン上にやって来ている。かような例の１つは、声と顔の動画の自動的な生成を扱う、音響視覚音声合成システムを含む。典型的なシステムは、処理されることができる顔の特徴（例えば唇）を持つ、コンピュータで生成された顔の画像を提供する。前記顔の画像は典型的に、前記顔の画像が話しているような印象を与えるため、話されている語と共に動画化される、メッシュモデルに基づく顔オブジェクトを有する。この技術を利用しているアプリケーションは、耳の不自由な人のためのツールから、話される多様なエージェントベースのユーザインタフェースまでに及び得る。
【０００４】
音響視覚音声合成システムの大きな利点は、動画化された顔の画像のビューが、特に品質が悪化された音響状況下において、自然の及び合成の音声の両方の明瞭さをかなり改善することができるという点にある。更に、顔の画像はコンピュータで生成されるため、感情を示すために顔の表情を処理することが可能であり、このことは数ある中でも音声に強調を追加し対話の状況におけるインタラクションを支援することが可能である。
【０００５】
【発明が解決しようとする課題】
「テキスト視覚音声化」システムは、テキストを入力するためにキーボードなどを利用し、次いで前記テキストを口語のメッセージに変換し、前記口語のメッセージを動画化された顔の画像と共に放送する。テキスト音声化システムの制限の１つは、メッセージの著者が単にテキストをタイプしているだけであるため、出力（即ち動画化された顔及び口語のメッセージ）が感情及び顔の表情を欠くという点である。従って、テキスト視覚音声化システムは、人間対人間の通信の幾分無味乾燥な形態を提供する傾向がある。
【０００６】
従って、感情が容易に対話に取り入れられることができる、進んだオンライン通信システムを提供するニーズが存在する。
【０００７】
【課題を解決するための手段】
本発明は、動画化された顔に表現された感情が、エモーティコンの入力によって生成されることができる視覚音声システムを提供することにより、上述の問題に対処する。第１の態様において本発明は、言葉の文字列及びエモーティコンの文字列を含むテキストデータを受信するデータ読み込みシステムと、前記受信された言葉の文字列及び前記受信されたエモーティコンの文字列に対応する顔の動きを再生することができる、表示可能な動画化された顔の画像を生成するテキスト動画化システムと、を有する視覚音声システムを提供する。
【０００８】
第２の態様において本発明は、記録可能な媒体に保存された、実行時に視覚音声システムを提供するプログラムであって、言葉の文字列及びエモーティコンの文字列を含むテキストデータを受信するデータ読み込みシステムと、前記受信された言葉の文字列及び前記受信されたエモーティコンの文字列に対応する顔の動きを再生することができる、表示可能な動画化された顔の画像を生成するテキスト動画化システムと、
を有するプログラムを提供する。
【０００９】
第３の態様において本発明は、視覚音声機能を持つオンラインチャットシステムであって、言葉の文字列及びエモーティコンの文字列を含むテキストデータを受信する第１のデータ読み込みシステム、並びに前記テキストデータをネットワークに送信するデータ送り出しシステムを持つ、ネットワークに接続された第１のクライアントと、前記ネットワークから前記テキストデータを受信する第２のデータ読み込みシステム、及び前記テキストデータ中に含まれた受信された前記言葉の文字列及び受信された前記エモーティコンの文字列に対応する顔の動きを再生する表示可能な動画化された顔の画像を生成するテキスト動画化システムを持つ、ネットワークに接続された第２のクライアントと、を有するオンラインチャットシステムを提供する。
【００１０】
第４の態様において本発明は、表示可能な動画化された顔の画像を持つシステム上で視覚音声を実行する方法であって、言葉の文字列及びエモーティコンの文字列を含むテキストデータをキーボードに入力するステップと、前記言葉の文字列を音響音声に変換するステップと、前記言葉の文字列を前記表示可能な動画化された顔の画像上の口の動きに変換し、前記口の動きが前記音響音声に対応するようにするステップと、前記エモーティコンの文字列を前記表示可能な動画化された顔の画像上の顔の動きに変換し、前記顔の動きが前記入力されたエモーティコンの文字列に関連する表現される感情に対応するようにするステップと、前記音響音声の放送と共に前記動画化された顔の画像を表示するステップと、を有する方法を提供する。
【００１１】
第５の態様において本発明は、所定の顔の表情と関連するエモーティコンを含むテキストデータを受信するデータ読み込みシステムと、前記所定の顔の表情に対応する少なくとも１つの顔の動きをシミュレートすることができる、表示可能な動画化された顔の画像を生成するテキスト動画化システムと、を有する視覚音声システムを提供する。
【００１２】
【発明の実施の形態】
本発明の好適な実施例は、添付された図と共に以下に説明される。ここで同様な名称は同様の要素を示す。
【００１３】
図１を参照すると、視覚音声システム１０が図示されている。図示されている実施例において、視覚音声システム１０は、ネットワーク４０を介して互いに通信している第１のクライアントシステム１２及び第２のクライアントシステム４２を有する。本実施例は複数のクライアントシステムに実装されて示されているが、本発明はネットワークに接続されてもされてなくても良い単一のコンピュータシステム上に実装されることもできることは理解されるべきである。しかしながら、図１に示されるような複数のクライアントシステムは、第１のクライアントシステム１２におけるユーザが第２のクライアントシステム４２におけるユーザと通信するオンラインチャットのアプリケーションにおいてはとりわけ有用である。
【００１４】
各クライアントシステム（例えばクライアントシステム１２）は、メモリ、プロセッサ、入／出力などのような構成要素を含む又は該構成要素にアクセスを持ついずれのタイプのコンピュータシステムによって実装されても良い。コンピュータの前記構成要素は単一の物理的位置に存在しても良いし、種々の形態（例えばクライアント及びサーバ）で複数の物理的システムに渡って分散されていても良い。従って、クライアントシステム１２は、コンピュータプログラムを実行することが可能なスタンドアロンのパーソナルコンピュータ、サーバを介して利用可能なアプリケーションへアクセスを持つブラウザプログラム、サーバと通信するダム端末などから成っても良い。
【００１５】
各クライアントシステムに保存されるものは（又は各クライアントシステムにアクセス可能なものは）、Ｉ／Ｏシステム２０とテキスト音声ビデオ化システム３０とを含む実行可能なプロセッサである。Ｉ／Ｏシステム２０及びテキスト音声ビデオ化システム３０は、処理ユニット上で実行可能なソフトウェアプログラムとして実装されても良い。各クライアントシステムはまた、（１）テキストデータを入力するためのキーボード、マウス、ハンドヘルド装置、携帯電話、音声認識システム等のような入力システム１４と、（２）例えばＣＲＴディスプレイ１６及び音響スピーカ１８から成る音響視覚出力システム、とを含む。
【００１６】
視覚音声システム１０の動作の例は以下に説明される。クライアントシステム１２及び４２におけるユーザ間のオンラインチャットのアプリケーションにおいて、クライアントシステム１２における第１のユーザは入力システム１４を介してテキストデータを入力することができ、対応する動画化された顔の画像及び付随する音響音声が生成され、クライアントシステム４２のディスプレイ４６及びスピーカ４８に出現する。同様に、クライアントシステム４２における第２のユーザは入力システム４４を介してテキストデータを入力することにより応答することが可能であり、第２の対応する動画化された顔の画像及び付随する音響音声が生成され、クライアントシステム１２のディスプレイ１６及びスピーカ１８に出現する。かくして、前記入力されたテキストデータは音声をシミュレートする動く動画化された顔の画像から成るリモートの音響視覚放送に変換される。それ故、単にテキストメッセージを受信するのではなく、ユーザは前記メッセージを含むビデオ音声の放送を受信することになる。
【００１７】
しかしながら、前記システムをより強固なものにするために、前記メッセージを送る前記ユーザは単語を入力するだけでなく、顔の表情及び感情を取り入れるために、表示される動画化された画像を引き起こすエモーティコンの文字列を入力することもできる（本開示の目的のため、「顔の表情」及び「感情」という語は交換可能に利用され、いずれの非言語的な顔の動きを含んでも良い）。例えば、クライアントシステム１２におけるユーザが入力された言葉の文字列と共に喜び又は幸せを示したい場合、前記ユーザは適切なエモーティコン、即ちにこにこした顔：−）もタイプすることができる。その結果のディスプレイ４６上の動画化された画像は、前記第１のクライアントシステムにおいて入力された言葉を話している間笑顔になる。他の感情はウィンク、悲しい顔、笑い、驚き等を含んでも良い。
【００１８】
添付された付録において提供されるものは、チャットルーム、ｅメール及びオンライン通信の他の形態において感情などを示すためにしばしば利用されるエモーティコンの比較的網羅的なリストである。これらのエモーティコンのそれぞれは、ここに列挙されていない他のものと同様に、表示可能な動画化された顔の画像に取り入れられることができる顔の応答を持っても良い。前記顔の表情及び／又は感情の応答はいずれの話された語の前又は後に出現しても良く、好ましくは各メッセージについてスムーズな遷移を提供するため前記話された語に又は該語と共にモーフィングされても良い。
【００１９】
図２及び図３は、異なる感情の又は顔の表情を持つ、表示可能な動画化された顔の画像の２つの例を示す。図２において、画題は中間の顔の表情（入力されたエモーティコンがない）で描かれている。一方で図３は画題を（怒りのエモーティコン＞：−＜に起因する）怒りの顔の表情で描いている。図２及び図３には示されていないが、前記動画化された顔の画像は、感情の表示と共に発話しながらモーフィングしても良い。
【００２０】
図２及び図３の動画化された顔の画像は、三角形メッシュベースの３Ｄオブジェクトとしてモデル化される顔の幾何を有しても良い。画像及び測光データは、顔の画像を得るために前記幾何に重畳されても良いしされなくとも良い。表情及び感情をシミュレートするために顔の動きを実現するため、前記顔の画像は眉、目、口等のような複数の動作単位に分割されたオブジェクトとして扱われる。各感情に対応して、１以上の動作単位が所定の組み合わせ及び度合いに従ってシミュレートされることができる。
【００２１】
ここで図１に戻ると、視覚音声システム１０の動作が更に詳細に示される。最初に、テキストデータが入力システム１４を介して第１のクライアントシステム１２に入力される。既に述べたように、前記テキストデータは言葉の文字列とエモーティコンの文字列の両方を有しても良い。前記データはＩ／Ｏシステム２０のデータ読み込みシステム２６によって受信される。この点において、前記テキストデータはクライアントシステム１２のディスプレイ１６（即ちローカルに）おける表示のために処理されても良く、及び／又はリモート表示のためにクライアントシステム４２に送られても良い。オンラインチャットの場合においては、例えば前記テキストデータはネットワーク４０を通してクライアントシステム４２に送られ、クライアントシステム４２で前記データが処理され音響視覚音声として出力される。クライアントシステム１２は、前記テキストデータをネットワーク４０に送り出すデータ送り出しシステム２８を利用して前記テキストデータを送る。クライアントシステム４２は次いでデータ読み込みシステム２７を利用して前記データを読み込むことができる。前記読み込まれたデータは次いでテキスト音声ビデオ化システム３１に処理のために送られることができる。
【００２２】
テキスト音声ビデオ化システム３１は２つの主な機能を持つ。第１に、前記テキストデータを音響音声に変換する機能と、第２に、表示可能な顔の動きに対応する動作単位に前記テキストデータを変換する機能である。前記テキストデータの音声への変換は、テキスト音響化（ｔｅｘｔ−ｔｏ−ａｕｄｉｏ）システム３３によって扱われる。テキストを音声に変換するシステムは本分野においては良く知られている。テキストデータを顔の動きに変換する処理は、テキスト動画化（ｔｅｘｔ−ｔｏ−ａｎｉｍａｔｉｏｎ）システム３５によって扱われる。テキスト動画化システム３５は、言葉文字列プロセッサ３７とエモーティコン文字列プロセッサ３９との２つの構成要素を持つ。言葉文字列プロセッサ３７は主に話された語として放送されることになる言葉の文字列に関連する口の動きを担当する。従って、言葉文字列プロセッサ３７は主に、表示可能な顔の画像における口から成る顔の動作単位を制御する。
【００２３】
エモーティコン文字列プロセッサ３９は、前記受信されたエモーティコン文字列を処理することと該文字列を対応する顔の表情に変換することとを担当する。従って、エモーティコン文字列プロセッサ３９は、適切な顔の応答を達成するために全ての顔の動作単位の制御を担当する。顔の動きのいずれのタイプ、組み合わせ及び度合いが所望の表情を生成するために利用されても良いことは理解されるべきである。
【００２４】
テキスト動画化システム３５はかくして、音声を表す口の動きと表情を表す調和した顔の動きとの両方から成る完全な動画化された顔の画像を生成する。付随する動画化された顔の画像は、前記言葉の文字列と関連する音声である。ディスプレイ４６及びスピーカ４８に音響及び視覚の情報を生成するためにディスプレイドライバ２３及びオーディオドライバ２５が利用されることができる。
【００２５】
理解されるように、各クライアントシステムは本質的に通信及び視覚的な音声の生成のための同一のソフトウェアを含んでも良い。従って、クライアントシステム４２がクライアントシステム１２に応答メッセージを送り返す場合には、上述のものと同一の処理ステップが、Ｉ／Ｏシステム２０及びテキスト音声ビデオ化システム３０によってクライアントシステム１２に実装される。
【００２６】
ここで説明されたシステム、機能、メカニズム及びモジュールは、ハードウェア、ソフトウェア又はハードウェアとソフトウェアとの組み合わせで実装されることができることが理解される。これらは、ここで説明された方法を実行するように構成された、いずれのタイプのコンピュータシステム又は他の機器によって実装されても良い。ハードウェアとソフトウェアとの典型的な組み合わせは、ロードされ実行されるときに、コンピュータシステムがここで説明された方法を実行するように該コンピュータシステムを制御するコンピュータプログラムを持つ汎用コンピュータシステムである。代わりに、本発明の１以上の機能的なタスクを実行する特殊化されたハードウェアを含む専用のコンピュータが利用されることができる。本発明は、ここで説明された方法及び機能の実装を可能にする全ての特徴を有し、コンピュータシステムにロードされたときにこれらの方法及び機能を実行することができるコンピュータプログラムに埋め込まれることもできる。本文脈におけるコンピュータプログラム、ソフトウェアプログラム、プログラム、プログラム製品又はソフトウェアとは、特定の機能を直接に、又は（ａ）他の言語、コード又は表記法への変換と（ｂ）異なるマテリアル形式での再生とのいずれか若しくは両方の後に実行するための情報処理能力をシステムに持たせることを意図された命令のセットのいずれの言語、コード又は表記法によるいずれの表現をも意味する。
【００２７】
本発明の好適な実施例の上述の説明は、例示及び説明の目的で提示された。これらは網羅的であること又は開示されたそのままの形式に本発明を限定するものであることを意図しておらず、上述の開示に照らして多くの変更及び変形が明らかに可能である。当業者には明確なかような変更及び変形は、添付する請求項によって規定される本発明の範囲内に含まれることを意図されている。
【００２８】
付録：
＃：−ｏショックを受けた
％−（混乱している
％−）ぼおっとしている、又はばかげた
＞＞：−＜＜怒り狂っている
＞−＞ウィンクする悪魔
＞−＜怒り狂っている
＞−）悪魔のようなウィンク
＞：）子供の悪魔
＞：−＞とてもいたずら好きな悪魔
＞：−＜怒った
＞：−＜立腹した
＞：−（困っている
＞：−）いたずら好きな悪魔
＞＝＾Ｐオエッ
＜：＞悪魔のような表情
＜：−＞悪魔のような表情
＜：−（のろま
＜：−）無邪気にばかな質問をしている
（：＆怒った
（：−＆怒った
（：−（笑っていない
（：−）にこにこ顔の変形
（：−＊キス
（：−＼とても悲しい
＊キス
∧∧∧ 笑い
８）目を見開いた、又は眼鏡をかけた
８−）目を見開いた、又は眼鏡をかけた
８−ｏショックを受けた
８−Ｏ驚いた
８−Ｐオエッ！
８−［神経がすり減った、緊張しすぎた
８−］ワオ！
８−｜目を見開いた驚き
：（悲しい
：）笑顔
：［退屈した、悲しい
：｜退屈した、悲しい
：（）おしゃべり、いつも話している、叫び
：＊キス
：＊＊：繰り返しのキス
：，（泣いている
：−＞幸せ又は皮肉の笑い
：−＞＜キスのために口をすぼめる
：−＜とても悲しい
：−（眉をひそめる
：−）古典的なにこにこ顔
：−＊キス
：−，作り笑い
：−／歪んだ顔
：−６へとへと
：−９唇を舐める
：−？唇を舐める、又は冗談の
：−＠叫ぶ
：−Ｃ驚いた
：−ｃとても不幸
：−Ｄ笑っている
：−ｄ￣ヘビースモーカー
：−ｅ失望した
：−ｆ舌を出した
：−Ｉ熟考中、公平な
：−ｉ苦笑、又は半笑い
：−ｊ偏った笑い
：−ｋ当惑
：−ｌ偏った笑い
：−Ｏぽかんとした、驚いた
：−ｏ驚いた様子、又はあくび
：−Ｐ舌を出した
：−ｐ舌を出した
：−Ｑ嫌気で出した舌、又は喫煙者
：−Ｑ￣タバコを吸う
：−ｒ舌を出した
：−ｓ何？！
：−ｔ笑っていない
：−Ｖ叫び
：−Ｘ私の唇は封印された、又はキス
：−ｘキス、又は私の唇は封印された
：−Ｙひそひそ話
：−［笑っていないのろま、批評
：−＼’｜鼻声
：−］笑っているのろま、皮肉
：−｛｝口ひげのある笑い
：−｛｝｝口ひげとあごひげのある笑い
：−｛｝投げキッス
：−｜無関心、退屈、うんざり
：−｜｜とても怒っている
：−｝いたずらな笑い
：．（泣いている
：Ｃ驚いた
：ｅ失望した
：Ｐ舌を出した
；）ウィンク
；−）ウィンク
＾＾＾くすくす笑い
｀：−）つり上がった眉
｜−＜＞キスのために口をすぼめた
｜−Ｄ大笑い
｜−Ｏあくび
｜Ｉ眠っている
・｜＾ｏいびき
｝−）苦笑
｝：［怒り、欲求不満
￣：−（かっとなった
【図面の簡単な説明】
【図１】本発明の好適な実施例による視覚音声システムのブロック図を示す。
【図２】本発明の動画化された顔の画像の例を示す。
【図３】本発明の動画化された顔の画像の例を示す。

Claims

言葉の文字列及びエモーティコンの文字列を含むテキストデータを受信するデータ読み込みシステムと、
前記受信された言葉の文字列及び前記受信されたエモーティコンの文字列に対応する顔の動きを再生することができる、表示可能な動画化された顔の画像を生成するテキスト動画化システムと、
を有する視覚音声システム。
テキストデータをタイプ入力するためのキーボードを更に有する、請求項１に記載の視覚音声システム。
前記受信された言葉の文字列に対応して放送される音響音声を生成することができるテキスト音響化システムを更に有する、請求項１に記載の視覚音声システム。
前記放送される音響音声と共に前記表示可能な動画化された顔の画像を表示する音響視覚インタフェースを更に有する、請求項３に記載の視覚音声システム。
前記テキスト動画化システムは、各エモーティコンの文字列を表現される感情と関連付け、前記表現される感情は少なくとも１つの顔の動きと共に前記動画化された顔の画像上に再生される、請求項１に記載の視覚音声システム。
前記テキスト動画化システムは各言葉の文字列を話される言葉に関連付け、前記話される言葉は少なくとも１つの口の動きと共に前記動画化された顔の画像上に再生される、請求項５に記載の視覚音声システム。
前記少なくとも１つの顔の動きは前記少なくとも１つの口の動きを伴ってモーフィングされる、請求項６に記載の視覚音声システム。
ネットワークによってテキストデータを受信する及び送信する入力／出力システムを更に有する、請求項１に記載の視覚音声システム。
記録可能な媒体に保存された、実行時に視覚音声システムを提供するプログラムであって、
言葉の文字列及びエモーティコンの文字列を含むテキストデータを受信するデータ読み込みシステムと、
前記受信された言葉の文字列及び前記受信されたエモーティコンの文字列に対応する顔の動きを再生することができる、表示可能な動画化された顔の画像を生成するテキスト動画化システムと、
を有するプログラム。
入力された前記エモーティコンの文字列は、表現される感情として前記動画化された顔の画像上に再生される、請求項９に記載のプログラム。
入力された前記言葉の文字列は口の動きによって前記動画化された顔の画像上に再生される、請求項１０に記載のプログラム。
前記表現される感情は、前記口の動きを伴いモーフィングされる、請求項１１に記載のプログラム。
視覚音声機能を持つオンラインチャットシステムであって、
言葉の文字列及びエモーティコンの文字列を含むテキストデータを受信する第１のデータ読み込みシステム、並びに前記テキストデータをネットワークに送信するデータ送り出しシステムを持つ、ネットワークに接続された第１のクライアントと、
前記ネットワークから前記テキストデータを受信する第２のデータ読み込みシステム、及び前記テキストデータ中に含まれた受信された前記言葉の文字列及び受信された前記エモーティコンの文字列に対応する顔の動きを再生する表示可能な動画化された顔の画像を生成するテキスト動画化システムを持つ、ネットワークに接続された第２のクライアントと、
を有するオンラインチャットシステム。
各前記エモーティコンの文字列は、表現される感情として前記動画化された顔の画像上に再生される、請求項１３に記載のオンラインチャットシステム。
各前記言葉の文字列は、口の動きによって前記動画化された顔の画像上に再生される、請求項１４に記載のオンラインチャットシステム。
前記表現される感情は前記口の動きを伴ってモーフィングされる、請求項１５に記載のオンラインチャットシステム。
表示可能な動画化された顔の画像を持つシステム上で視覚音声を実行する方法であって、
言葉の文字列及びエモーティコンの文字列を含むテキストデータをキーボードに入力するステップと、
前記言葉の文字列を音響音声に変換するステップと、
前記言葉の文字列を前記表示可能な動画化された顔の画像上の口の動きに変換し、前記口の動きが前記音響音声に対応するようにするステップと、
前記エモーティコンの文字列を前記表示可能な動画化された顔の画像上の顔の動きに変換し、前記顔の動きが前記入力されたエモーティコンの文字列に関連する表現される感情に対応するようにするステップと、
前記音響音声の放送と共に前記動画化された顔の画像を表示するステップと、を有する方法。
前記口の動き及び顔の動きは同時にモーフィングされる、請求項１７に記載の方法。
前記音響音声の放送と共に前記動画化された顔の画像を表示するステップは、ネットワークに渡ってリモートで実行される、請求項１７に記載の方法。
所定の顔の表情と関連する少なくとも１つのエモーティコンを含むテキストデータを受信するデータ読み込みシステムと、
前記所定の顔の表情に対応する少なくとも１つの顔の動きをシミュレートすることができる、表示可能な動画化された顔の画像を生成するテキスト動画化システムと、
を有する視覚音声システム。