JP2004519787A - 顔の感情を取り入れたテキスト視覚音声化システム及び方法 - Google Patents

顔の感情を取り入れたテキスト視覚音声化システム及び方法 Download PDF

Info

Publication number
JP2004519787A
JP2004519787A JP2002578253A JP2002578253A JP2004519787A JP 2004519787 A JP2004519787 A JP 2004519787A JP 2002578253 A JP2002578253 A JP 2002578253A JP 2002578253 A JP2002578253 A JP 2002578253A JP 2004519787 A JP2004519787 A JP 2004519787A
Authority
JP
Japan
Prior art keywords
character string
face image
text
animated
movement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2002578253A
Other languages
English (en)
Inventor
キラン エス チャッラパリ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of JP2004519787A publication Critical patent/JP2004519787A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Processing Or Creating Images (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

エモーティコンを表示可能な動画化された顔の画像上の顔の表情に変換する視覚音声システム。前記システムは(1)所定の顔の表情に関連する少なくとも1つのエモーティコンの文字列を含むテキストデータを受信するデータ読み込みシステムと、(2)前記所定の顔の表情に対応する少なくとも1つの顔の動きをシミュレートすることができる、表示可能な動画化された顔の画像を生成するテキスト動画化システムとを有する。前記システムは好ましくは、オンラインチャット環境においてのように、ネットワークに渡ってリモートに実装される。

Description

【0001】
【発明の属する技術分野】
本発明はテキスト視覚音声化(text to visual speech)システムに関し、より詳細には顔の画像中の感情を生成するためエモーティコン(emoticon)を利用するシステム及び方法に関する。
【0002】
【従来の技術】
インターネット及び他のネットワーク環境の出現に伴い、離れた場所におけるユーザは、eメール及びオンラインチャット(例えばチャットルーム)を介してのように、種々の形態で互いに通信することが可能である。オンラインチャットはとりわけ多くの場面において有用である。なぜなら、共通のメッセージウィンドウに互いに向けて交互にテキストのメッセージをタイプすることにより、ユーザがリアルタイムでネットワークに渡って通信することを可能にするからである。オンラインチャットの議論をより擬人化されたものにするため、メッセージ中の感情及び/又は顔の表情を暗示するために「エモーティコン(emoticon)」がしばしばタイプ入力される。一般に利用されるエモーティコンの例は、にこにこした顔を表す:−)、不機嫌を表す:−(、ウィンクを表す;−)、ショックを表す:−o、悲しみを表す:−<を含む(エモーティコンのより網羅的なリストは添付した付録に見出される)。不運にも、エモーティコンの広く普及した利用をもってしても、オンラインチャットは感情を表さない傾向があり、ユーザが各メッセージを自力で読み解釈することを必要とする。
【0003】
高速コンピューティング及びブロードバンドシステムの出現に伴い、通信のより進んだ形態がオンライン上にやって来ている。かような例の1つは、声と顔の動画の自動的な生成を扱う、音響視覚音声合成システムを含む。典型的なシステムは、処理されることができる顔の特徴(例えば唇)を持つ、コンピュータで生成された顔の画像を提供する。前記顔の画像は典型的に、前記顔の画像が話しているような印象を与えるため、話されている語と共に動画化される、メッシュモデルに基づく顔オブジェクトを有する。この技術を利用しているアプリケーションは、耳の不自由な人のためのツールから、話される多様なエージェントベースのユーザインタフェースまでに及び得る。
【0004】
音響視覚音声合成システムの大きな利点は、動画化された顔の画像のビューが、特に品質が悪化された音響状況下において、自然の及び合成の音声の両方の明瞭さをかなり改善することができるという点にある。更に、顔の画像はコンピュータで生成されるため、感情を示すために顔の表情を処理することが可能であり、このことは数ある中でも音声に強調を追加し対話の状況におけるインタラクションを支援することが可能である。
【0005】
【発明が解決しようとする課題】
「テキスト視覚音声化」システムは、テキストを入力するためにキーボードなどを利用し、次いで前記テキストを口語のメッセージに変換し、前記口語のメッセージを動画化された顔の画像と共に放送する。テキスト音声化システムの制限の1つは、メッセージの著者が単にテキストをタイプしているだけであるため、出力(即ち動画化された顔及び口語のメッセージ)が感情及び顔の表情を欠くという点である。従って、テキスト視覚音声化システムは、人間対人間の通信の幾分無味乾燥な形態を提供する傾向がある。
【0006】
従って、感情が容易に対話に取り入れられることができる、進んだオンライン通信システムを提供するニーズが存在する。
【0007】
【課題を解決するための手段】
本発明は、動画化された顔に表現された感情が、エモーティコンの入力によって生成されることができる視覚音声システムを提供することにより、上述の問題に対処する。第1の態様において本発明は、言葉の文字列及びエモーティコンの文字列を含むテキストデータを受信するデータ読み込みシステムと、前記受信された言葉の文字列及び前記受信されたエモーティコンの文字列に対応する顔の動きを再生することができる、表示可能な動画化された顔の画像を生成するテキスト動画化システムと、を有する視覚音声システムを提供する。
【0008】
第2の態様において本発明は、記録可能な媒体に保存された、実行時に視覚音声システムを提供するプログラムであって、言葉の文字列及びエモーティコンの文字列を含むテキストデータを受信するデータ読み込みシステムと、前記受信された言葉の文字列及び前記受信されたエモーティコンの文字列に対応する顔の動きを再生することができる、表示可能な動画化された顔の画像を生成するテキスト動画化システムと、
を有するプログラムを提供する。
【0009】
第3の態様において本発明は、視覚音声機能を持つオンラインチャットシステムであって、言葉の文字列及びエモーティコンの文字列を含むテキストデータを受信する第1のデータ読み込みシステム、並びに前記テキストデータをネットワークに送信するデータ送り出しシステムを持つ、ネットワークに接続された第1のクライアントと、前記ネットワークから前記テキストデータを受信する第2のデータ読み込みシステム、及び前記テキストデータ中に含まれた受信された前記言葉の文字列及び受信された前記エモーティコンの文字列に対応する顔の動きを再生する表示可能な動画化された顔の画像を生成するテキスト動画化システムを持つ、ネットワークに接続された第2のクライアントと、を有するオンラインチャットシステムを提供する。
【0010】
第4の態様において本発明は、表示可能な動画化された顔の画像を持つシステム上で視覚音声を実行する方法であって、言葉の文字列及びエモーティコンの文字列を含むテキストデータをキーボードに入力するステップと、前記言葉の文字列を音響音声に変換するステップと、前記言葉の文字列を前記表示可能な動画化された顔の画像上の口の動きに変換し、前記口の動きが前記音響音声に対応するようにするステップと、前記エモーティコンの文字列を前記表示可能な動画化された顔の画像上の顔の動きに変換し、前記顔の動きが前記入力されたエモーティコンの文字列に関連する表現される感情に対応するようにするステップと、前記音響音声の放送と共に前記動画化された顔の画像を表示するステップと、を有する方法を提供する。
【0011】
第5の態様において本発明は、所定の顔の表情と関連するエモーティコンを含むテキストデータを受信するデータ読み込みシステムと、前記所定の顔の表情に対応する少なくとも1つの顔の動きをシミュレートすることができる、表示可能な動画化された顔の画像を生成するテキスト動画化システムと、を有する視覚音声システムを提供する。
【0012】
【発明の実施の形態】
本発明の好適な実施例は、添付された図と共に以下に説明される。ここで同様な名称は同様の要素を示す。
【0013】
図1を参照すると、視覚音声システム10が図示されている。図示されている実施例において、視覚音声システム10は、ネットワーク40を介して互いに通信している第1のクライアントシステム12及び第2のクライアントシステム42を有する。本実施例は複数のクライアントシステムに実装されて示されているが、本発明はネットワークに接続されてもされてなくても良い単一のコンピュータシステム上に実装されることもできることは理解されるべきである。しかしながら、図1に示されるような複数のクライアントシステムは、第1のクライアントシステム12におけるユーザが第2のクライアントシステム42におけるユーザと通信するオンラインチャットのアプリケーションにおいてはとりわけ有用である。
【0014】
各クライアントシステム(例えばクライアントシステム12)は、メモリ、プロセッサ、入/出力などのような構成要素を含む又は該構成要素にアクセスを持ついずれのタイプのコンピュータシステムによって実装されても良い。コンピュータの前記構成要素は単一の物理的位置に存在しても良いし、種々の形態(例えばクライアント及びサーバ)で複数の物理的システムに渡って分散されていても良い。従って、クライアントシステム12は、コンピュータプログラムを実行することが可能なスタンドアロンのパーソナルコンピュータ、サーバを介して利用可能なアプリケーションへアクセスを持つブラウザプログラム、サーバと通信するダム端末などから成っても良い。
【0015】
各クライアントシステムに保存されるものは(又は各クライアントシステムにアクセス可能なものは)、I/Oシステム20とテキスト音声ビデオ化システム30とを含む実行可能なプロセッサである。I/Oシステム20及びテキスト音声ビデオ化システム30は、処理ユニット上で実行可能なソフトウェアプログラムとして実装されても良い。各クライアントシステムはまた、(1)テキストデータを入力するためのキーボード、マウス、ハンドヘルド装置、携帯電話、音声認識システム等のような入力システム14と、(2)例えばCRTディスプレイ16及び音響スピーカ18から成る音響視覚出力システム、とを含む。
【0016】
視覚音声システム10の動作の例は以下に説明される。クライアントシステム12及び42におけるユーザ間のオンラインチャットのアプリケーションにおいて、クライアントシステム12における第1のユーザは入力システム14を介してテキストデータを入力することができ、対応する動画化された顔の画像及び付随する音響音声が生成され、クライアントシステム42のディスプレイ46及びスピーカ48に出現する。同様に、クライアントシステム42における第2のユーザは入力システム44を介してテキストデータを入力することにより応答することが可能であり、第2の対応する動画化された顔の画像及び付随する音響音声が生成され、クライアントシステム12のディスプレイ16及びスピーカ18に出現する。かくして、前記入力されたテキストデータは音声をシミュレートする動く動画化された顔の画像から成るリモートの音響視覚放送に変換される。それ故、単にテキストメッセージを受信するのではなく、ユーザは前記メッセージを含むビデオ音声の放送を受信することになる。
【0017】
しかしながら、前記システムをより強固なものにするために、前記メッセージを送る前記ユーザは単語を入力するだけでなく、顔の表情及び感情を取り入れるために、表示される動画化された画像を引き起こすエモーティコンの文字列を入力することもできる(本開示の目的のため、「顔の表情」及び「感情」という語は交換可能に利用され、いずれの非言語的な顔の動きを含んでも良い)。例えば、クライアントシステム12におけるユーザが入力された言葉の文字列と共に喜び又は幸せを示したい場合、前記ユーザは適切なエモーティコン、即ちにこにこした顔:−)もタイプすることができる。その結果のディスプレイ46上の動画化された画像は、前記第1のクライアントシステムにおいて入力された言葉を話している間笑顔になる。他の感情はウィンク、悲しい顔、笑い、驚き等を含んでも良い。
【0018】
添付された付録において提供されるものは、チャットルーム、eメール及びオンライン通信の他の形態において感情などを示すためにしばしば利用されるエモーティコンの比較的網羅的なリストである。これらのエモーティコンのそれぞれは、ここに列挙されていない他のものと同様に、表示可能な動画化された顔の画像に取り入れられることができる顔の応答を持っても良い。前記顔の表情及び/又は感情の応答はいずれの話された語の前又は後に出現しても良く、好ましくは各メッセージについてスムーズな遷移を提供するため前記話された語に又は該語と共にモーフィングされても良い。
【0019】
図2及び図3は、異なる感情の又は顔の表情を持つ、表示可能な動画化された顔の画像の2つの例を示す。図2において、画題は中間の顔の表情(入力されたエモーティコンがない)で描かれている。一方で図3は画題を(怒りのエモーティコン>:−<に起因する)怒りの顔の表情で描いている。図2及び図3には示されていないが、前記動画化された顔の画像は、感情の表示と共に発話しながらモーフィングしても良い。
【0020】
図2及び図3の動画化された顔の画像は、三角形メッシュベースの3Dオブジェクトとしてモデル化される顔の幾何を有しても良い。画像及び測光データは、顔の画像を得るために前記幾何に重畳されても良いしされなくとも良い。表情及び感情をシミュレートするために顔の動きを実現するため、前記顔の画像は眉、目、口等のような複数の動作単位に分割されたオブジェクトとして扱われる。各感情に対応して、1以上の動作単位が所定の組み合わせ及び度合いに従ってシミュレートされることができる。
【0021】
ここで図1に戻ると、視覚音声システム10の動作が更に詳細に示される。最初に、テキストデータが入力システム14を介して第1のクライアントシステム12に入力される。既に述べたように、前記テキストデータは言葉の文字列とエモーティコンの文字列の両方を有しても良い。前記データはI/Oシステム20のデータ読み込みシステム26によって受信される。この点において、前記テキストデータはクライアントシステム12のディスプレイ16(即ちローカルに)おける表示のために処理されても良く、及び/又はリモート表示のためにクライアントシステム42に送られても良い。オンラインチャットの場合においては、例えば前記テキストデータはネットワーク40を通してクライアントシステム42に送られ、クライアントシステム42で前記データが処理され音響視覚音声として出力される。クライアントシステム12は、前記テキストデータをネットワーク40に送り出すデータ送り出しシステム28を利用して前記テキストデータを送る。クライアントシステム42は次いでデータ読み込みシステム27を利用して前記データを読み込むことができる。前記読み込まれたデータは次いでテキスト音声ビデオ化システム31に処理のために送られることができる。
【0022】
テキスト音声ビデオ化システム31は2つの主な機能を持つ。第1に、前記テキストデータを音響音声に変換する機能と、第2に、表示可能な顔の動きに対応する動作単位に前記テキストデータを変換する機能である。前記テキストデータの音声への変換は、テキスト音響化(text−to−audio)システム33によって扱われる。テキストを音声に変換するシステムは本分野においては良く知られている。テキストデータを顔の動きに変換する処理は、テキスト動画化(text−to−animation)システム35によって扱われる。テキスト動画化システム35は、言葉文字列プロセッサ37とエモーティコン文字列プロセッサ39との2つの構成要素を持つ。言葉文字列プロセッサ37は主に話された語として放送されることになる言葉の文字列に関連する口の動きを担当する。従って、言葉文字列プロセッサ37は主に、表示可能な顔の画像における口から成る顔の動作単位を制御する。
【0023】
エモーティコン文字列プロセッサ39は、前記受信されたエモーティコン文字列を処理することと該文字列を対応する顔の表情に変換することとを担当する。従って、エモーティコン文字列プロセッサ39は、適切な顔の応答を達成するために全ての顔の動作単位の制御を担当する。顔の動きのいずれのタイプ、組み合わせ及び度合いが所望の表情を生成するために利用されても良いことは理解されるべきである。
【0024】
テキスト動画化システム35はかくして、音声を表す口の動きと表情を表す調和した顔の動きとの両方から成る完全な動画化された顔の画像を生成する。付随する動画化された顔の画像は、前記言葉の文字列と関連する音声である。ディスプレイ46及びスピーカ48に音響及び視覚の情報を生成するためにディスプレイドライバ23及びオーディオドライバ25が利用されることができる。
【0025】
理解されるように、各クライアントシステムは本質的に通信及び視覚的な音声の生成のための同一のソフトウェアを含んでも良い。従って、クライアントシステム42がクライアントシステム12に応答メッセージを送り返す場合には、上述のものと同一の処理ステップが、I/Oシステム20及びテキスト音声ビデオ化システム30によってクライアントシステム12に実装される。
【0026】
ここで説明されたシステム、機能、メカニズム及びモジュールは、ハードウェア、ソフトウェア又はハードウェアとソフトウェアとの組み合わせで実装されることができることが理解される。これらは、ここで説明された方法を実行するように構成された、いずれのタイプのコンピュータシステム又は他の機器によって実装されても良い。ハードウェアとソフトウェアとの典型的な組み合わせは、ロードされ実行されるときに、コンピュータシステムがここで説明された方法を実行するように該コンピュータシステムを制御するコンピュータプログラムを持つ汎用コンピュータシステムである。代わりに、本発明の1以上の機能的なタスクを実行する特殊化されたハードウェアを含む専用のコンピュータが利用されることができる。本発明は、ここで説明された方法及び機能の実装を可能にする全ての特徴を有し、コンピュータシステムにロードされたときにこれらの方法及び機能を実行することができるコンピュータプログラムに埋め込まれることもできる。本文脈におけるコンピュータプログラム、ソフトウェアプログラム、プログラム、プログラム製品又はソフトウェアとは、特定の機能を直接に、又は(a)他の言語、コード又は表記法への変換と(b)異なるマテリアル形式での再生とのいずれか若しくは両方の後に実行するための情報処理能力をシステムに持たせることを意図された命令のセットのいずれの言語、コード又は表記法によるいずれの表現をも意味する。
【0027】
本発明の好適な実施例の上述の説明は、例示及び説明の目的で提示された。これらは網羅的であること又は開示されたそのままの形式に本発明を限定するものであることを意図しておらず、上述の開示に照らして多くの変更及び変形が明らかに可能である。当業者には明確なかような変更及び変形は、添付する請求項によって規定される本発明の範囲内に含まれることを意図されている。
【0028】
付録:
#:−o ショックを受けた
%−( 混乱している
%−) ぼおっとしている、又はばかげた
>>:−<< 怒り狂っている
>−> ウィンクする悪魔
>−< 怒り狂っている
>−) 悪魔のようなウィンク
>:) 子供の悪魔
>:−> とてもいたずら好きな悪魔
>:−< 怒った
>:−< 立腹した
>:−( 困っている
>:−) いたずら好きな悪魔
>=^ P オエッ
<:> 悪魔のような表情
<:−> 悪魔のような表情
<:−( のろま
<:−) 無邪気にばかな質問をしている
(:& 怒った
(:−& 怒った
(:−( 笑っていない
(:−) にこにこ顔の変形
(:−* キス
(:−\ とても悲しい
* キス
∧∧∧ 笑い
8) 目を見開いた、又は眼鏡をかけた
8−) 目を見開いた、又は眼鏡をかけた
8−o ショックを受けた
8−O 驚いた
8−P オエッ!
8−[ 神経がすり減った、緊張しすぎた
8−] ワオ!
8−| 目を見開いた驚き
: ( 悲しい
: ) 笑顔
: [ 退屈した、悲しい
: | 退屈した、悲しい
:( ) おしゃべり、いつも話している、叫び
:* キス
:**: 繰り返しのキス
:,( 泣いている
:−> 幸せ又は皮肉の笑い
:−>< キスのために口をすぼめる
:−< とても悲しい
:−( 眉をひそめる
:−) 古典的なにこにこ顔
:−* キス
:−, 作り笑い
:−/ 歪んだ顔
:−6 へとへと
:−9 唇を舐める
:−? 唇を舐める、又は冗談の
:−@ 叫ぶ
:−C 驚いた
:−c とても不幸
:−D 笑っている
:−d ̄ ヘビースモーカー
:−e 失望した
:−f 舌を出した
:−I 熟考中、公平な
:−i 苦笑、又は半笑い
:−j 偏った笑い
:−k 当惑
:−l 偏った笑い
:−O ぽかんとした、驚いた
:−o 驚いた様子、又はあくび
:−P 舌を出した
:−p 舌を出した
:−Q 嫌気で出した舌、又は喫煙者
:−Q ̄ タバコを吸う
:−r 舌を出した
:−s 何?!
:−t 笑っていない
:−V 叫び
:−X 私の唇は封印された、又はキス
:−x キス、又は私の唇は封印された
:−Y ひそひそ話
:−[ 笑っていないのろま、批評
:−\’| 鼻声
:−] 笑っているのろま、皮肉
:−{} 口ひげのある笑い
:−{}} 口ひげとあごひげのある笑い
:−{} 投げキッス
:−| 無関心、退屈、うんざり
:−|| とても怒っている
:−} いたずらな笑い
:.( 泣いている
:C 驚いた
:e 失望した
:P 舌を出した
; ) ウィンク
;−) ウィンク
^ ^ ^ くすくす笑い
`:−) つり上がった眉
|−<> キスのために口をすぼめた
|−D 大笑い
|−O あくび
|I 眠っている
・|^o いびき
}−) 苦笑
}: [ 怒り、欲求不満
 ̄ :−( かっとなった
【図面の簡単な説明】
【図1】本発明の好適な実施例による視覚音声システムのブロック図を示す。
【図2】本発明の動画化された顔の画像の例を示す。
【図3】本発明の動画化された顔の画像の例を示す。

Claims (20)

  1. 言葉の文字列及びエモーティコンの文字列を含むテキストデータを受信するデータ読み込みシステムと、
    前記受信された言葉の文字列及び前記受信されたエモーティコンの文字列に対応する顔の動きを再生することができる、表示可能な動画化された顔の画像を生成するテキスト動画化システムと、
    を有する視覚音声システム。
  2. テキストデータをタイプ入力するためのキーボードを更に有する、請求項1に記載の視覚音声システム。
  3. 前記受信された言葉の文字列に対応して放送される音響音声を生成することができるテキスト音響化システムを更に有する、請求項1に記載の視覚音声システム。
  4. 前記放送される音響音声と共に前記表示可能な動画化された顔の画像を表示する音響視覚インタフェースを更に有する、請求項3に記載の視覚音声システム。
  5. 前記テキスト動画化システムは、各エモーティコンの文字列を表現される感情と関連付け、前記表現される感情は少なくとも1つの顔の動きと共に前記動画化された顔の画像上に再生される、請求項1に記載の視覚音声システム。
  6. 前記テキスト動画化システムは各言葉の文字列を話される言葉に関連付け、前記話される言葉は少なくとも1つの口の動きと共に前記動画化された顔の画像上に再生される、請求項5に記載の視覚音声システム。
  7. 前記少なくとも1つの顔の動きは前記少なくとも1つの口の動きを伴ってモーフィングされる、請求項6に記載の視覚音声システム。
  8. ネットワークによってテキストデータを受信する及び送信する入力/出力システムを更に有する、請求項1に記載の視覚音声システム。
  9. 記録可能な媒体に保存された、実行時に視覚音声システムを提供するプログラムであって、
    言葉の文字列及びエモーティコンの文字列を含むテキストデータを受信するデータ読み込みシステムと、
    前記受信された言葉の文字列及び前記受信されたエモーティコンの文字列に対応する顔の動きを再生することができる、表示可能な動画化された顔の画像を生成するテキスト動画化システムと、
    を有するプログラム。
  10. 入力された前記エモーティコンの文字列は、表現される感情として前記動画化された顔の画像上に再生される、請求項9に記載のプログラム。
  11. 入力された前記言葉の文字列は口の動きによって前記動画化された顔の画像上に再生される、請求項10に記載のプログラム。
  12. 前記表現される感情は、前記口の動きを伴いモーフィングされる、請求項11に記載のプログラム。
  13. 視覚音声機能を持つオンラインチャットシステムであって、
    言葉の文字列及びエモーティコンの文字列を含むテキストデータを受信する第1のデータ読み込みシステム、並びに前記テキストデータをネットワークに送信するデータ送り出しシステムを持つ、ネットワークに接続された第1のクライアントと、
    前記ネットワークから前記テキストデータを受信する第2のデータ読み込みシステム、及び前記テキストデータ中に含まれた受信された前記言葉の文字列及び受信された前記エモーティコンの文字列に対応する顔の動きを再生する表示可能な動画化された顔の画像を生成するテキスト動画化システムを持つ、ネットワークに接続された第2のクライアントと、
    を有するオンラインチャットシステム。
  14. 各前記エモーティコンの文字列は、表現される感情として前記動画化された顔の画像上に再生される、請求項13に記載のオンラインチャットシステム。
  15. 各前記言葉の文字列は、口の動きによって前記動画化された顔の画像上に再生される、請求項14に記載のオンラインチャットシステム。
  16. 前記表現される感情は前記口の動きを伴ってモーフィングされる、請求項15に記載のオンラインチャットシステム。
  17. 表示可能な動画化された顔の画像を持つシステム上で視覚音声を実行する方法であって、
    言葉の文字列及びエモーティコンの文字列を含むテキストデータをキーボードに入力するステップと、
    前記言葉の文字列を音響音声に変換するステップと、
    前記言葉の文字列を前記表示可能な動画化された顔の画像上の口の動きに変換し、前記口の動きが前記音響音声に対応するようにするステップと、
    前記エモーティコンの文字列を前記表示可能な動画化された顔の画像上の顔の動きに変換し、前記顔の動きが前記入力されたエモーティコンの文字列に関連する表現される感情に対応するようにするステップと、
    前記音響音声の放送と共に前記動画化された顔の画像を表示するステップと、を有する方法。
  18. 前記口の動き及び顔の動きは同時にモーフィングされる、請求項17に記載の方法。
  19. 前記音響音声の放送と共に前記動画化された顔の画像を表示するステップは、ネットワークに渡ってリモートで実行される、請求項17に記載の方法。
  20. 所定の顔の表情と関連する少なくとも1つのエモーティコンを含むテキストデータを受信するデータ読み込みシステムと、
    前記所定の顔の表情に対応する少なくとも1つの顔の動きをシミュレートすることができる、表示可能な動画化された顔の画像を生成するテキスト動画化システムと、
    を有する視覚音声システム。
JP2002578253A 2001-03-29 2002-03-19 顔の感情を取り入れたテキスト視覚音声化システム及び方法 Withdrawn JP2004519787A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/821,138 US20020194006A1 (en) 2001-03-29 2001-03-29 Text to visual speech system and method incorporating facial emotions
PCT/IB2002/000860 WO2002080107A1 (en) 2001-03-29 2002-03-19 Text to visual speech system and method incorporating facial emotions

Publications (1)

Publication Number Publication Date
JP2004519787A true JP2004519787A (ja) 2004-07-02

Family

ID=25232620

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002578253A Withdrawn JP2004519787A (ja) 2001-03-29 2002-03-19 顔の感情を取り入れたテキスト視覚音声化システム及び方法

Country Status (6)

Country Link
US (1) US20020194006A1 (ja)
EP (1) EP1374179A1 (ja)
JP (1) JP2004519787A (ja)
KR (1) KR20030007726A (ja)
CN (1) CN1460232A (ja)
WO (1) WO2002080107A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006263122A (ja) * 2005-03-24 2006-10-05 Sega Corp ゲーム装置、ゲームシステム、ゲームデータの処理方法及びこのゲームデータの処理方法ためのプログラム並びに記憶媒体

Families Citing this family (91)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002132663A (ja) * 2000-10-20 2002-05-10 Nec Corp 情報通信システムとその通信方法、及び通信プログラムを記録した記録媒体
US6976082B1 (en) 2000-11-03 2005-12-13 At&T Corp. System and method for receiving multi-media messages
US7203648B1 (en) 2000-11-03 2007-04-10 At&T Corp. Method for sending multi-media messages with customized audio
US7091976B1 (en) 2000-11-03 2006-08-15 At&T Corp. System and method of customizing animated entities for use in a multi-media communication application
US7035803B1 (en) 2000-11-03 2006-04-25 At&T Corp. Method for sending multi-media messages using customizable background images
US20080040227A1 (en) 2000-11-03 2008-02-14 At&T Corp. System and method of marketing using a multi-media communication system
US6990452B1 (en) 2000-11-03 2006-01-24 At&T Corp. Method for sending multi-media messages using emoticons
US6963839B1 (en) * 2000-11-03 2005-11-08 At&T Corp. System and method of controlling sound in a multi-media communication application
CN1245895C (zh) * 2000-11-17 2006-03-22 塔特和莱利有限公司 含三氯蔗糖和丁磺氨钾的可熔混合物的甜味剂、含有它的食品以及它们的制备方法
JP2002268665A (ja) * 2001-03-13 2002-09-20 Oki Electric Ind Co Ltd テキスト音声合成装置
US6980333B2 (en) * 2001-04-11 2005-12-27 Eastman Kodak Company Personalized motion imaging system
US7080139B1 (en) 2001-04-24 2006-07-18 Fatbubble, Inc Method and apparatus for selectively sharing and passively tracking communication device experiences
US7085259B2 (en) * 2001-07-31 2006-08-01 Comverse, Inc. Animated audio messaging
WO2003028386A2 (en) * 2001-09-25 2003-04-03 Wildseed, Ltd. Wireless mobile image messaging
US7671861B1 (en) 2001-11-02 2010-03-02 At&T Intellectual Property Ii, L.P. Apparatus and method of customizing animated entities for use in a multi-media communication application
US7224851B2 (en) * 2001-12-04 2007-05-29 Fujifilm Corporation Method and apparatus for registering modification pattern of transmission image and method and apparatus for reproducing the same
US7401020B2 (en) * 2002-11-29 2008-07-15 International Business Machines Corporation Application of emotion-based intonation and prosody to speech in text-to-speech systems
KR20040039771A (ko) * 2002-11-04 2004-05-12 김남조 이모티콘 사운드 재생 장치 및 방법
JP2004198872A (ja) * 2002-12-20 2004-07-15 Sony Electronics Inc 端末装置およびサーバ
US7168953B1 (en) * 2003-01-27 2007-01-30 Massachusetts Institute Of Technology Trainable videorealistic speech animation
US7539727B2 (en) 2003-07-01 2009-05-26 Microsoft Corporation Instant messaging object store
US7363378B2 (en) 2003-07-01 2008-04-22 Microsoft Corporation Transport system for instant messaging
US7607097B2 (en) * 2003-09-25 2009-10-20 International Business Machines Corporation Translating emotion to braille, emoticons and other special symbols
US7805307B2 (en) 2003-09-30 2010-09-28 Sharp Laboratories Of America, Inc. Text to speech conversion system
JP2005115896A (ja) * 2003-10-10 2005-04-28 Nec Corp 通信装置及び通信方法
JP2005135169A (ja) 2003-10-30 2005-05-26 Nec Corp 携帯端末およびデータ処理方法
US8523572B2 (en) * 2003-11-19 2013-09-03 Raanan Liebermann Touch language
US20050131697A1 (en) * 2003-12-10 2005-06-16 International Business Machines Corporation Speech improving apparatus, system and method
US20050131744A1 (en) * 2003-12-10 2005-06-16 International Business Machines Corporation Apparatus, system and method of automatically identifying participants at a videoconference who exhibit a particular expression
US8171084B2 (en) * 2004-01-20 2012-05-01 Microsoft Corporation Custom emoticons
JP3930489B2 (ja) * 2004-03-31 2007-06-13 株式会社コナミデジタルエンタテインメント チャットシステム、通信装置、その制御方法及びプログラム
CN100371889C (zh) * 2004-07-08 2008-02-27 腾讯科技(深圳)有限公司 一种在即时通讯工具软件中使用表情符号的方法
US20060089147A1 (en) * 2004-10-21 2006-04-27 Beaty Robert M Mobile network infrastructure for applications, personalized user interfaces, and services
US7433700B2 (en) 2004-11-12 2008-10-07 Microsoft Corporation Strategies for peer-to-peer instant messaging
GB2422454A (en) * 2005-01-22 2006-07-26 Siemens Plc A system for communicating user emotion
US20090058860A1 (en) * 2005-04-04 2009-03-05 Mor (F) Dynamics Pty Ltd. Method for Transforming Language Into a Visual Form
US7529255B2 (en) * 2005-04-21 2009-05-05 Microsoft Corporation Peer-to-peer multicasting using multiple transport protocols
US20070061814A1 (en) * 2005-09-13 2007-03-15 Choi Andrew C Method and apparatus for transparently interfacing a computer peripheral with a messaging system
EP1771002B1 (en) * 2005-09-30 2017-12-27 LG Electronics Inc. Mobile video communication terminal
US20070143410A1 (en) * 2005-12-16 2007-06-21 International Business Machines Corporation System and method for defining and translating chat abbreviations
KR20070091962A (ko) * 2006-03-08 2007-09-12 한국방송공사 애니메이션을 이용한 디엠비 데이터 방송의 나레이션 제공방법 및 이를 구현하기 위한 프로그램이 저장된 컴퓨터로판독 가능한 기록매체
US7571101B2 (en) * 2006-05-25 2009-08-04 Charles Humble Quantifying psychological stress levels using voice patterns
WO2007138944A1 (ja) * 2006-05-26 2007-12-06 Nec Corporation 情報付与システム、情報付与方法、情報付与プログラム及び情報付与プログラム記録媒体
US7640304B1 (en) * 2006-06-14 2009-12-29 Yes International Ag System and method for detecting and measuring emotional indicia
US7966567B2 (en) * 2007-07-12 2011-06-21 Center'd Corp. Character expression in a geo-spatial environment
EP1942601A1 (en) * 2006-12-29 2008-07-09 Union Creations Limited Device and method of expressing information in a communication message sent through a network
TWI454955B (zh) * 2006-12-29 2014-10-01 Nuance Communications Inc 使用模型檔產生動畫的方法及電腦可讀取的訊號承載媒體
GB0702150D0 (en) * 2007-02-05 2007-03-14 Amegoworld Ltd A Communication Network and Devices
WO2008114453A1 (ja) * 2007-03-20 2008-09-25 Fujitsu Limited 音声合成装置、音声合成システム、言語処理装置、音声合成方法及びコンピュータプログラム
CN101072207B (zh) * 2007-06-22 2010-09-08 腾讯科技(深圳)有限公司 即时通讯工具中的交流方法及即时通讯工具
US20090048840A1 (en) * 2007-08-13 2009-02-19 Teng-Feng Lin Device for converting instant message into audio or visual response
US20090082045A1 (en) * 2007-09-26 2009-03-26 Blastmsgs Inc. Blast video messages systems and methods
CN101287093B (zh) * 2008-05-30 2010-06-09 北京中星微电子有限公司 在视频通信中添加特效的方法及视频客户端
US8542237B2 (en) * 2008-06-23 2013-09-24 Microsoft Corporation Parametric font animation
US20100073399A1 (en) * 2008-09-23 2010-03-25 Sony Ericsson Mobile Communications Ab Methods and devices for controlling a presentation of an object
US20100228776A1 (en) * 2009-03-09 2010-09-09 Melkote Ramaswamy N System, mechanisms, methods and services for the creation, interaction and consumption of searchable, context relevant, multimedia collages composited from heterogeneous sources
US9665563B2 (en) 2009-05-28 2017-05-30 Samsung Electronics Co., Ltd. Animation system and methods for generating animation based on text-based data and user information
CN102289339B (zh) * 2010-06-21 2013-10-30 腾讯科技(深圳)有限公司 一种显示表情信息的方法及装置
CN103140848B (zh) * 2010-10-08 2016-08-03 日本电气株式会社 字符变换系统以及字符变换方法
US8751228B2 (en) * 2010-11-04 2014-06-10 Microsoft Corporation Minimum converted trajectory error (MCTE) audio-to-video engine
US20120130717A1 (en) * 2010-11-19 2012-05-24 Microsoft Corporation Real-time Animation for an Expressive Avatar
US20120136660A1 (en) * 2010-11-30 2012-05-31 Alcatel-Lucent Usa Inc. Voice-estimation based on real-time probing of the vocal tract
US20140025385A1 (en) * 2010-12-30 2014-01-23 Nokia Corporation Method, Apparatus and Computer Program Product for Emotion Detection
US8559813B2 (en) 2011-03-31 2013-10-15 Alcatel Lucent Passband reflectometer
CN102271096A (zh) * 2011-07-27 2011-12-07 苏州巴米特信息科技有限公司 一种特色聊天系统
TWI482108B (zh) 2011-12-29 2015-04-21 Univ Nat Taiwan To bring virtual social networks into real-life social systems and methods
US9331970B2 (en) * 2012-12-05 2016-05-03 Facebook, Inc. Replacing typed emoticon with user photo
CN104053131A (zh) * 2013-03-12 2014-09-17 华为技术有限公司 一种文本通讯信息处理方法及相关设备
CN103475991A (zh) * 2013-08-09 2013-12-25 刘波涌 实现角色扮演的方法和系统
GB201401046D0 (en) * 2014-01-22 2014-03-05 Iedutainments Ltd Searching and content delivery system
CN105282621A (zh) * 2014-07-22 2016-01-27 中兴通讯股份有限公司 一种语音消息可视化服务的实现方法及装置
US9288303B1 (en) 2014-09-18 2016-03-15 Twin Harbor Labs, LLC FaceBack—automated response capture using text messaging
US20160292903A1 (en) * 2014-09-24 2016-10-06 Intel Corporation Avatar audio communication systems and techniques
EP3614304A1 (en) * 2014-11-05 2020-02-26 INTEL Corporation Avatar video apparatus and method
CN104639425B (zh) * 2015-01-06 2018-02-09 广州华多网络科技有限公司 一种网络表情播放方法、系统和服务设备
US10133918B1 (en) 2015-04-20 2018-11-20 Snap Inc. Generating a mood log based on user images
CN104899814A (zh) * 2015-05-08 2015-09-09 努比亚技术有限公司 一种智能提醒健康饮食的方法及终端
US11783524B2 (en) * 2016-02-10 2023-10-10 Nitin Vats Producing realistic talking face with expression using images text and voice
CN105763424B (zh) * 2016-03-22 2019-05-07 网易有道信息技术(北京)有限公司 一种文字信息处理方法和装置
CN105931631A (zh) * 2016-04-15 2016-09-07 北京地平线机器人技术研发有限公司 语音合成系统和方法
US10168859B2 (en) 2016-04-26 2019-01-01 International Business Machines Corporation Contextual determination of emotion icons
US9973456B2 (en) 2016-07-22 2018-05-15 Strip Messenger Messaging as a graphical comic strip
US9684430B1 (en) * 2016-07-27 2017-06-20 Strip Messenger Linguistic and icon based message conversion for virtual environments and objects
KR101994803B1 (ko) * 2017-03-14 2019-07-01 이명철 감성 콘텐츠 적용이 가능한 텍스트 에디터 지원 시스템
US10225621B1 (en) 2017-12-20 2019-03-05 Dish Network L.L.C. Eyes free entertainment
KR102053076B1 (ko) * 2018-07-09 2019-12-06 주식회사 한글과컴퓨터 감성 분석 기반의 스타일 적용이 가능한 문서 편집 장치 및 그 동작 방법
US20200279553A1 (en) * 2019-02-28 2020-09-03 Microsoft Technology Licensing, Llc Linguistic style matching agent
CN110991427B (zh) * 2019-12-25 2023-07-14 北京百度网讯科技有限公司 用于视频的情绪识别方法、装置和计算机设备
CN112184858B (zh) * 2020-09-01 2021-12-07 魔珐(上海)信息科技有限公司 基于文本的虚拟对象动画生成方法及装置、存储介质、终端
CN112188304B (zh) * 2020-09-28 2022-11-15 广州酷狗计算机科技有限公司 视频生成方法、装置、终端及存储介质
WO2024112994A1 (en) * 2022-12-03 2024-06-06 Kia Silverbrook One-click photorealistic video generation using ai and real-time cgi

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5613056A (en) * 1991-02-19 1997-03-18 Bright Star Technology, Inc. Advanced tools for speech synchronized animation
US5878396A (en) * 1993-01-21 1999-03-02 Apple Computer, Inc. Method and apparatus for synthetic speech in facial animation
US5880731A (en) * 1995-12-14 1999-03-09 Microsoft Corporation Use of avatars with automatic gesturing and bounded interaction in on-line chat session
US6069622A (en) * 1996-03-08 2000-05-30 Microsoft Corporation Method and system for generating comic panels
US6064383A (en) * 1996-10-04 2000-05-16 Microsoft Corporation Method and system for selecting an emotional appearance and prosody for a graphical character
US5963217A (en) * 1996-11-18 1999-10-05 7Thstreet.Com, Inc. Network conference system using limited bandwidth to generate locally animated displays
SE520065C2 (sv) * 1997-03-25 2003-05-20 Telia Ab Anordning och metod för prosodigenerering vid visuell talsyntes
US5983190A (en) * 1997-05-19 1999-11-09 Microsoft Corporation Client server animation system for managing interactive user interface characters
US5995119A (en) * 1997-06-06 1999-11-30 At&T Corp. Method for generating photo-realistic animated characters
US6112177A (en) * 1997-11-07 2000-08-29 At&T Corp. Coarticulation method for audio-visual text-to-speech synthesis
US6522333B1 (en) * 1999-10-08 2003-02-18 Electronic Arts Inc. Remote communication through visual representations
US6539354B1 (en) * 2000-03-24 2003-03-25 Fluent Speech Technologies, Inc. Methods and devices for producing and using synthetic visual speech based on natural coarticulation
WO2001084275A2 (en) * 2000-05-01 2001-11-08 Lifef/X Networks, Inc. Virtual representatives for use as communications tools
US6453294B1 (en) * 2000-05-31 2002-09-17 International Business Machines Corporation Dynamic destination-determined multimedia avatars for interactive on-line communications
US6963839B1 (en) * 2000-11-03 2005-11-08 At&T Corp. System and method of controlling sound in a multi-media communication application

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006263122A (ja) * 2005-03-24 2006-10-05 Sega Corp ゲーム装置、ゲームシステム、ゲームデータの処理方法及びこのゲームデータの処理方法ためのプログラム並びに記憶媒体

Also Published As

Publication number Publication date
WO2002080107A1 (en) 2002-10-10
CN1460232A (zh) 2003-12-03
US20020194006A1 (en) 2002-12-19
EP1374179A1 (en) 2004-01-02
KR20030007726A (ko) 2003-01-23

Similar Documents

Publication Publication Date Title
JP2004519787A (ja) 顔の感情を取り入れたテキスト視覚音声化システム及び方法
US9667574B2 (en) Animated delivery of electronic messages
US7663628B2 (en) Apparatus and method for efficient animation of believable speaking 3D characters in real time
US20020007276A1 (en) Virtual representatives for use as communications tools
US11005796B2 (en) Animated delivery of electronic messages
Marcos et al. A realistic, virtual head for human–computer interaction
US20030163315A1 (en) Method and system for generating caricaturized talking heads
Ventrella Virtual body language: The history and future of avatars: How nonverbal expression is evolving on the internet
Pelachaud et al. Multimodal behavior modeling for socially interactive agents
KR20160010810A (ko) 실음성 표출 가능한 실사형 캐릭터 생성 방법 및 생성 시스템
Rincón-Nigro et al. A text-driven conversational avatar interface for instant messaging on mobile devices
Lokesh et al. Computer Interaction to human through photorealistic facial model for inter-process communication
Morel et al. Attention-aware intelligent embodied agents
Molano et al. Parametric facial animation for affective interaction workflow for avatar retargeting
Godenschweger et al. Modeling and generating sign language as animated line drawings
Morishima et al. Face-to-face communicative avatar driven by voice
Chae et al. Text-driven speech animation with emotion control
US20240323332A1 (en) System and method for generating and interacting with conversational three-dimensional subjects
Barakonyi et al. Communicating Multimodal information on the WWW using a lifelike, animated 3D agent
Prasetyahadi et al. Eye lip and crying expression for virtual human
Trpkoski et al. Simulation and animation of a 3D avatar from a realistic human face model
Schlittler Animation and Machines: designing expressive robot-human interactions
Karunaratne et al. Modelling and combining emotions, visual speech and gestures in virtual head models
WO2022255980A1 (en) Virtual agent synthesis method with audio to video conversion
Tosa et al. Computing Feelings

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20041221

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050317

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20061013