JP2004519787A - 顔の感情を取り入れたテキスト視覚音声化システム及び方法 - Google Patents
顔の感情を取り入れたテキスト視覚音声化システム及び方法 Download PDFInfo
- Publication number
- JP2004519787A JP2004519787A JP2002578253A JP2002578253A JP2004519787A JP 2004519787 A JP2004519787 A JP 2004519787A JP 2002578253 A JP2002578253 A JP 2002578253A JP 2002578253 A JP2002578253 A JP 2002578253A JP 2004519787 A JP2004519787 A JP 2004519787A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- face image
- text
- animated
- movement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 230000001815 facial effect Effects 0.000 title claims abstract description 31
- 230000008451 emotion Effects 0.000 title claims description 22
- 238000000034 method Methods 0.000 title claims description 12
- 238000012800 visualization Methods 0.000 title description 3
- 230000000007 visual effect Effects 0.000 claims abstract description 25
- 230000008921 facial expression Effects 0.000 claims abstract description 19
- 230000006870 function Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 3
- 206010011469 Crying Diseases 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 210000004709 eyebrow Anatomy 0.000 description 2
- 210000000887 face Anatomy 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 206010011878 Deafness Diseases 0.000 description 1
- 241001282135 Poromitra oscitans Species 0.000 description 1
- 206010041235 Snoring Diseases 0.000 description 1
- 206010048232 Yawning Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 235000019504 cigarettes Nutrition 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006397 emotional response Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000007789 sealing Methods 0.000 description 1
- 230000035939 shock Effects 0.000 description 1
- 230000000391 smoking effect Effects 0.000 description 1
- 230000009967 tasteless effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Processing Or Creating Images (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
エモーティコンを表示可能な動画化された顔の画像上の顔の表情に変換する視覚音声システム。前記システムは(1)所定の顔の表情に関連する少なくとも1つのエモーティコンの文字列を含むテキストデータを受信するデータ読み込みシステムと、(2)前記所定の顔の表情に対応する少なくとも1つの顔の動きをシミュレートすることができる、表示可能な動画化された顔の画像を生成するテキスト動画化システムとを有する。前記システムは好ましくは、オンラインチャット環境においてのように、ネットワークに渡ってリモートに実装される。
Description
【0001】
【発明の属する技術分野】
本発明はテキスト視覚音声化(text to visual speech)システムに関し、より詳細には顔の画像中の感情を生成するためエモーティコン(emoticon)を利用するシステム及び方法に関する。
【0002】
【従来の技術】
インターネット及び他のネットワーク環境の出現に伴い、離れた場所におけるユーザは、eメール及びオンラインチャット(例えばチャットルーム)を介してのように、種々の形態で互いに通信することが可能である。オンラインチャットはとりわけ多くの場面において有用である。なぜなら、共通のメッセージウィンドウに互いに向けて交互にテキストのメッセージをタイプすることにより、ユーザがリアルタイムでネットワークに渡って通信することを可能にするからである。オンラインチャットの議論をより擬人化されたものにするため、メッセージ中の感情及び/又は顔の表情を暗示するために「エモーティコン(emoticon)」がしばしばタイプ入力される。一般に利用されるエモーティコンの例は、にこにこした顔を表す:−)、不機嫌を表す:−(、ウィンクを表す;−)、ショックを表す:−o、悲しみを表す:−<を含む(エモーティコンのより網羅的なリストは添付した付録に見出される)。不運にも、エモーティコンの広く普及した利用をもってしても、オンラインチャットは感情を表さない傾向があり、ユーザが各メッセージを自力で読み解釈することを必要とする。
【0003】
高速コンピューティング及びブロードバンドシステムの出現に伴い、通信のより進んだ形態がオンライン上にやって来ている。かような例の1つは、声と顔の動画の自動的な生成を扱う、音響視覚音声合成システムを含む。典型的なシステムは、処理されることができる顔の特徴(例えば唇)を持つ、コンピュータで生成された顔の画像を提供する。前記顔の画像は典型的に、前記顔の画像が話しているような印象を与えるため、話されている語と共に動画化される、メッシュモデルに基づく顔オブジェクトを有する。この技術を利用しているアプリケーションは、耳の不自由な人のためのツールから、話される多様なエージェントベースのユーザインタフェースまでに及び得る。
【0004】
音響視覚音声合成システムの大きな利点は、動画化された顔の画像のビューが、特に品質が悪化された音響状況下において、自然の及び合成の音声の両方の明瞭さをかなり改善することができるという点にある。更に、顔の画像はコンピュータで生成されるため、感情を示すために顔の表情を処理することが可能であり、このことは数ある中でも音声に強調を追加し対話の状況におけるインタラクションを支援することが可能である。
【0005】
【発明が解決しようとする課題】
「テキスト視覚音声化」システムは、テキストを入力するためにキーボードなどを利用し、次いで前記テキストを口語のメッセージに変換し、前記口語のメッセージを動画化された顔の画像と共に放送する。テキスト音声化システムの制限の1つは、メッセージの著者が単にテキストをタイプしているだけであるため、出力(即ち動画化された顔及び口語のメッセージ)が感情及び顔の表情を欠くという点である。従って、テキスト視覚音声化システムは、人間対人間の通信の幾分無味乾燥な形態を提供する傾向がある。
【0006】
従って、感情が容易に対話に取り入れられることができる、進んだオンライン通信システムを提供するニーズが存在する。
【0007】
【課題を解決するための手段】
本発明は、動画化された顔に表現された感情が、エモーティコンの入力によって生成されることができる視覚音声システムを提供することにより、上述の問題に対処する。第1の態様において本発明は、言葉の文字列及びエモーティコンの文字列を含むテキストデータを受信するデータ読み込みシステムと、前記受信された言葉の文字列及び前記受信されたエモーティコンの文字列に対応する顔の動きを再生することができる、表示可能な動画化された顔の画像を生成するテキスト動画化システムと、を有する視覚音声システムを提供する。
【0008】
第2の態様において本発明は、記録可能な媒体に保存された、実行時に視覚音声システムを提供するプログラムであって、言葉の文字列及びエモーティコンの文字列を含むテキストデータを受信するデータ読み込みシステムと、前記受信された言葉の文字列及び前記受信されたエモーティコンの文字列に対応する顔の動きを再生することができる、表示可能な動画化された顔の画像を生成するテキスト動画化システムと、
を有するプログラムを提供する。
【0009】
第3の態様において本発明は、視覚音声機能を持つオンラインチャットシステムであって、言葉の文字列及びエモーティコンの文字列を含むテキストデータを受信する第1のデータ読み込みシステム、並びに前記テキストデータをネットワークに送信するデータ送り出しシステムを持つ、ネットワークに接続された第1のクライアントと、前記ネットワークから前記テキストデータを受信する第2のデータ読み込みシステム、及び前記テキストデータ中に含まれた受信された前記言葉の文字列及び受信された前記エモーティコンの文字列に対応する顔の動きを再生する表示可能な動画化された顔の画像を生成するテキスト動画化システムを持つ、ネットワークに接続された第2のクライアントと、を有するオンラインチャットシステムを提供する。
【0010】
第4の態様において本発明は、表示可能な動画化された顔の画像を持つシステム上で視覚音声を実行する方法であって、言葉の文字列及びエモーティコンの文字列を含むテキストデータをキーボードに入力するステップと、前記言葉の文字列を音響音声に変換するステップと、前記言葉の文字列を前記表示可能な動画化された顔の画像上の口の動きに変換し、前記口の動きが前記音響音声に対応するようにするステップと、前記エモーティコンの文字列を前記表示可能な動画化された顔の画像上の顔の動きに変換し、前記顔の動きが前記入力されたエモーティコンの文字列に関連する表現される感情に対応するようにするステップと、前記音響音声の放送と共に前記動画化された顔の画像を表示するステップと、を有する方法を提供する。
【0011】
第5の態様において本発明は、所定の顔の表情と関連するエモーティコンを含むテキストデータを受信するデータ読み込みシステムと、前記所定の顔の表情に対応する少なくとも1つの顔の動きをシミュレートすることができる、表示可能な動画化された顔の画像を生成するテキスト動画化システムと、を有する視覚音声システムを提供する。
【0012】
【発明の実施の形態】
本発明の好適な実施例は、添付された図と共に以下に説明される。ここで同様な名称は同様の要素を示す。
【0013】
図1を参照すると、視覚音声システム10が図示されている。図示されている実施例において、視覚音声システム10は、ネットワーク40を介して互いに通信している第1のクライアントシステム12及び第2のクライアントシステム42を有する。本実施例は複数のクライアントシステムに実装されて示されているが、本発明はネットワークに接続されてもされてなくても良い単一のコンピュータシステム上に実装されることもできることは理解されるべきである。しかしながら、図1に示されるような複数のクライアントシステムは、第1のクライアントシステム12におけるユーザが第2のクライアントシステム42におけるユーザと通信するオンラインチャットのアプリケーションにおいてはとりわけ有用である。
【0014】
各クライアントシステム(例えばクライアントシステム12)は、メモリ、プロセッサ、入/出力などのような構成要素を含む又は該構成要素にアクセスを持ついずれのタイプのコンピュータシステムによって実装されても良い。コンピュータの前記構成要素は単一の物理的位置に存在しても良いし、種々の形態(例えばクライアント及びサーバ)で複数の物理的システムに渡って分散されていても良い。従って、クライアントシステム12は、コンピュータプログラムを実行することが可能なスタンドアロンのパーソナルコンピュータ、サーバを介して利用可能なアプリケーションへアクセスを持つブラウザプログラム、サーバと通信するダム端末などから成っても良い。
【0015】
各クライアントシステムに保存されるものは(又は各クライアントシステムにアクセス可能なものは)、I/Oシステム20とテキスト音声ビデオ化システム30とを含む実行可能なプロセッサである。I/Oシステム20及びテキスト音声ビデオ化システム30は、処理ユニット上で実行可能なソフトウェアプログラムとして実装されても良い。各クライアントシステムはまた、(1)テキストデータを入力するためのキーボード、マウス、ハンドヘルド装置、携帯電話、音声認識システム等のような入力システム14と、(2)例えばCRTディスプレイ16及び音響スピーカ18から成る音響視覚出力システム、とを含む。
【0016】
視覚音声システム10の動作の例は以下に説明される。クライアントシステム12及び42におけるユーザ間のオンラインチャットのアプリケーションにおいて、クライアントシステム12における第1のユーザは入力システム14を介してテキストデータを入力することができ、対応する動画化された顔の画像及び付随する音響音声が生成され、クライアントシステム42のディスプレイ46及びスピーカ48に出現する。同様に、クライアントシステム42における第2のユーザは入力システム44を介してテキストデータを入力することにより応答することが可能であり、第2の対応する動画化された顔の画像及び付随する音響音声が生成され、クライアントシステム12のディスプレイ16及びスピーカ18に出現する。かくして、前記入力されたテキストデータは音声をシミュレートする動く動画化された顔の画像から成るリモートの音響視覚放送に変換される。それ故、単にテキストメッセージを受信するのではなく、ユーザは前記メッセージを含むビデオ音声の放送を受信することになる。
【0017】
しかしながら、前記システムをより強固なものにするために、前記メッセージを送る前記ユーザは単語を入力するだけでなく、顔の表情及び感情を取り入れるために、表示される動画化された画像を引き起こすエモーティコンの文字列を入力することもできる(本開示の目的のため、「顔の表情」及び「感情」という語は交換可能に利用され、いずれの非言語的な顔の動きを含んでも良い)。例えば、クライアントシステム12におけるユーザが入力された言葉の文字列と共に喜び又は幸せを示したい場合、前記ユーザは適切なエモーティコン、即ちにこにこした顔:−)もタイプすることができる。その結果のディスプレイ46上の動画化された画像は、前記第1のクライアントシステムにおいて入力された言葉を話している間笑顔になる。他の感情はウィンク、悲しい顔、笑い、驚き等を含んでも良い。
【0018】
添付された付録において提供されるものは、チャットルーム、eメール及びオンライン通信の他の形態において感情などを示すためにしばしば利用されるエモーティコンの比較的網羅的なリストである。これらのエモーティコンのそれぞれは、ここに列挙されていない他のものと同様に、表示可能な動画化された顔の画像に取り入れられることができる顔の応答を持っても良い。前記顔の表情及び/又は感情の応答はいずれの話された語の前又は後に出現しても良く、好ましくは各メッセージについてスムーズな遷移を提供するため前記話された語に又は該語と共にモーフィングされても良い。
【0019】
図2及び図3は、異なる感情の又は顔の表情を持つ、表示可能な動画化された顔の画像の2つの例を示す。図2において、画題は中間の顔の表情(入力されたエモーティコンがない)で描かれている。一方で図3は画題を(怒りのエモーティコン>:−<に起因する)怒りの顔の表情で描いている。図2及び図3には示されていないが、前記動画化された顔の画像は、感情の表示と共に発話しながらモーフィングしても良い。
【0020】
図2及び図3の動画化された顔の画像は、三角形メッシュベースの3Dオブジェクトとしてモデル化される顔の幾何を有しても良い。画像及び測光データは、顔の画像を得るために前記幾何に重畳されても良いしされなくとも良い。表情及び感情をシミュレートするために顔の動きを実現するため、前記顔の画像は眉、目、口等のような複数の動作単位に分割されたオブジェクトとして扱われる。各感情に対応して、1以上の動作単位が所定の組み合わせ及び度合いに従ってシミュレートされることができる。
【0021】
ここで図1に戻ると、視覚音声システム10の動作が更に詳細に示される。最初に、テキストデータが入力システム14を介して第1のクライアントシステム12に入力される。既に述べたように、前記テキストデータは言葉の文字列とエモーティコンの文字列の両方を有しても良い。前記データはI/Oシステム20のデータ読み込みシステム26によって受信される。この点において、前記テキストデータはクライアントシステム12のディスプレイ16(即ちローカルに)おける表示のために処理されても良く、及び/又はリモート表示のためにクライアントシステム42に送られても良い。オンラインチャットの場合においては、例えば前記テキストデータはネットワーク40を通してクライアントシステム42に送られ、クライアントシステム42で前記データが処理され音響視覚音声として出力される。クライアントシステム12は、前記テキストデータをネットワーク40に送り出すデータ送り出しシステム28を利用して前記テキストデータを送る。クライアントシステム42は次いでデータ読み込みシステム27を利用して前記データを読み込むことができる。前記読み込まれたデータは次いでテキスト音声ビデオ化システム31に処理のために送られることができる。
【0022】
テキスト音声ビデオ化システム31は2つの主な機能を持つ。第1に、前記テキストデータを音響音声に変換する機能と、第2に、表示可能な顔の動きに対応する動作単位に前記テキストデータを変換する機能である。前記テキストデータの音声への変換は、テキスト音響化(text−to−audio)システム33によって扱われる。テキストを音声に変換するシステムは本分野においては良く知られている。テキストデータを顔の動きに変換する処理は、テキスト動画化(text−to−animation)システム35によって扱われる。テキスト動画化システム35は、言葉文字列プロセッサ37とエモーティコン文字列プロセッサ39との2つの構成要素を持つ。言葉文字列プロセッサ37は主に話された語として放送されることになる言葉の文字列に関連する口の動きを担当する。従って、言葉文字列プロセッサ37は主に、表示可能な顔の画像における口から成る顔の動作単位を制御する。
【0023】
エモーティコン文字列プロセッサ39は、前記受信されたエモーティコン文字列を処理することと該文字列を対応する顔の表情に変換することとを担当する。従って、エモーティコン文字列プロセッサ39は、適切な顔の応答を達成するために全ての顔の動作単位の制御を担当する。顔の動きのいずれのタイプ、組み合わせ及び度合いが所望の表情を生成するために利用されても良いことは理解されるべきである。
【0024】
テキスト動画化システム35はかくして、音声を表す口の動きと表情を表す調和した顔の動きとの両方から成る完全な動画化された顔の画像を生成する。付随する動画化された顔の画像は、前記言葉の文字列と関連する音声である。ディスプレイ46及びスピーカ48に音響及び視覚の情報を生成するためにディスプレイドライバ23及びオーディオドライバ25が利用されることができる。
【0025】
理解されるように、各クライアントシステムは本質的に通信及び視覚的な音声の生成のための同一のソフトウェアを含んでも良い。従って、クライアントシステム42がクライアントシステム12に応答メッセージを送り返す場合には、上述のものと同一の処理ステップが、I/Oシステム20及びテキスト音声ビデオ化システム30によってクライアントシステム12に実装される。
【0026】
ここで説明されたシステム、機能、メカニズム及びモジュールは、ハードウェア、ソフトウェア又はハードウェアとソフトウェアとの組み合わせで実装されることができることが理解される。これらは、ここで説明された方法を実行するように構成された、いずれのタイプのコンピュータシステム又は他の機器によって実装されても良い。ハードウェアとソフトウェアとの典型的な組み合わせは、ロードされ実行されるときに、コンピュータシステムがここで説明された方法を実行するように該コンピュータシステムを制御するコンピュータプログラムを持つ汎用コンピュータシステムである。代わりに、本発明の1以上の機能的なタスクを実行する特殊化されたハードウェアを含む専用のコンピュータが利用されることができる。本発明は、ここで説明された方法及び機能の実装を可能にする全ての特徴を有し、コンピュータシステムにロードされたときにこれらの方法及び機能を実行することができるコンピュータプログラムに埋め込まれることもできる。本文脈におけるコンピュータプログラム、ソフトウェアプログラム、プログラム、プログラム製品又はソフトウェアとは、特定の機能を直接に、又は(a)他の言語、コード又は表記法への変換と(b)異なるマテリアル形式での再生とのいずれか若しくは両方の後に実行するための情報処理能力をシステムに持たせることを意図された命令のセットのいずれの言語、コード又は表記法によるいずれの表現をも意味する。
【0027】
本発明の好適な実施例の上述の説明は、例示及び説明の目的で提示された。これらは網羅的であること又は開示されたそのままの形式に本発明を限定するものであることを意図しておらず、上述の開示に照らして多くの変更及び変形が明らかに可能である。当業者には明確なかような変更及び変形は、添付する請求項によって規定される本発明の範囲内に含まれることを意図されている。
【0028】
付録:
#:−o ショックを受けた
%−( 混乱している
%−) ぼおっとしている、又はばかげた
>>:−<< 怒り狂っている
>−> ウィンクする悪魔
>−< 怒り狂っている
>−) 悪魔のようなウィンク
>:) 子供の悪魔
>:−> とてもいたずら好きな悪魔
>:−< 怒った
>:−< 立腹した
>:−( 困っている
>:−) いたずら好きな悪魔
>=^ P オエッ
<:> 悪魔のような表情
<:−> 悪魔のような表情
<:−( のろま
<:−) 無邪気にばかな質問をしている
(:& 怒った
(:−& 怒った
(:−( 笑っていない
(:−) にこにこ顔の変形
(:−* キス
(:−\ とても悲しい
* キス
∧∧∧ 笑い
8) 目を見開いた、又は眼鏡をかけた
8−) 目を見開いた、又は眼鏡をかけた
8−o ショックを受けた
8−O 驚いた
8−P オエッ!
8−[ 神経がすり減った、緊張しすぎた
8−] ワオ!
8−| 目を見開いた驚き
: ( 悲しい
: ) 笑顔
: [ 退屈した、悲しい
: | 退屈した、悲しい
:( ) おしゃべり、いつも話している、叫び
:* キス
:**: 繰り返しのキス
:,( 泣いている
:−> 幸せ又は皮肉の笑い
:−>< キスのために口をすぼめる
:−< とても悲しい
:−( 眉をひそめる
:−) 古典的なにこにこ顔
:−* キス
:−, 作り笑い
:−/ 歪んだ顔
:−6 へとへと
:−9 唇を舐める
:−? 唇を舐める、又は冗談の
:−@ 叫ぶ
:−C 驚いた
:−c とても不幸
:−D 笑っている
:−d ̄ ヘビースモーカー
:−e 失望した
:−f 舌を出した
:−I 熟考中、公平な
:−i 苦笑、又は半笑い
:−j 偏った笑い
:−k 当惑
:−l 偏った笑い
:−O ぽかんとした、驚いた
:−o 驚いた様子、又はあくび
:−P 舌を出した
:−p 舌を出した
:−Q 嫌気で出した舌、又は喫煙者
:−Q ̄ タバコを吸う
:−r 舌を出した
:−s 何?!
:−t 笑っていない
:−V 叫び
:−X 私の唇は封印された、又はキス
:−x キス、又は私の唇は封印された
:−Y ひそひそ話
:−[ 笑っていないのろま、批評
:−\’| 鼻声
:−] 笑っているのろま、皮肉
:−{} 口ひげのある笑い
:−{}} 口ひげとあごひげのある笑い
:−{} 投げキッス
:−| 無関心、退屈、うんざり
:−|| とても怒っている
:−} いたずらな笑い
:.( 泣いている
:C 驚いた
:e 失望した
:P 舌を出した
; ) ウィンク
;−) ウィンク
^ ^ ^ くすくす笑い
`:−) つり上がった眉
|−<> キスのために口をすぼめた
|−D 大笑い
|−O あくび
|I 眠っている
・|^o いびき
}−) 苦笑
}: [ 怒り、欲求不満
 ̄ :−( かっとなった
【図面の簡単な説明】
【図1】本発明の好適な実施例による視覚音声システムのブロック図を示す。
【図2】本発明の動画化された顔の画像の例を示す。
【図3】本発明の動画化された顔の画像の例を示す。
【発明の属する技術分野】
本発明はテキスト視覚音声化(text to visual speech)システムに関し、より詳細には顔の画像中の感情を生成するためエモーティコン(emoticon)を利用するシステム及び方法に関する。
【0002】
【従来の技術】
インターネット及び他のネットワーク環境の出現に伴い、離れた場所におけるユーザは、eメール及びオンラインチャット(例えばチャットルーム)を介してのように、種々の形態で互いに通信することが可能である。オンラインチャットはとりわけ多くの場面において有用である。なぜなら、共通のメッセージウィンドウに互いに向けて交互にテキストのメッセージをタイプすることにより、ユーザがリアルタイムでネットワークに渡って通信することを可能にするからである。オンラインチャットの議論をより擬人化されたものにするため、メッセージ中の感情及び/又は顔の表情を暗示するために「エモーティコン(emoticon)」がしばしばタイプ入力される。一般に利用されるエモーティコンの例は、にこにこした顔を表す:−)、不機嫌を表す:−(、ウィンクを表す;−)、ショックを表す:−o、悲しみを表す:−<を含む(エモーティコンのより網羅的なリストは添付した付録に見出される)。不運にも、エモーティコンの広く普及した利用をもってしても、オンラインチャットは感情を表さない傾向があり、ユーザが各メッセージを自力で読み解釈することを必要とする。
【0003】
高速コンピューティング及びブロードバンドシステムの出現に伴い、通信のより進んだ形態がオンライン上にやって来ている。かような例の1つは、声と顔の動画の自動的な生成を扱う、音響視覚音声合成システムを含む。典型的なシステムは、処理されることができる顔の特徴(例えば唇)を持つ、コンピュータで生成された顔の画像を提供する。前記顔の画像は典型的に、前記顔の画像が話しているような印象を与えるため、話されている語と共に動画化される、メッシュモデルに基づく顔オブジェクトを有する。この技術を利用しているアプリケーションは、耳の不自由な人のためのツールから、話される多様なエージェントベースのユーザインタフェースまでに及び得る。
【0004】
音響視覚音声合成システムの大きな利点は、動画化された顔の画像のビューが、特に品質が悪化された音響状況下において、自然の及び合成の音声の両方の明瞭さをかなり改善することができるという点にある。更に、顔の画像はコンピュータで生成されるため、感情を示すために顔の表情を処理することが可能であり、このことは数ある中でも音声に強調を追加し対話の状況におけるインタラクションを支援することが可能である。
【0005】
【発明が解決しようとする課題】
「テキスト視覚音声化」システムは、テキストを入力するためにキーボードなどを利用し、次いで前記テキストを口語のメッセージに変換し、前記口語のメッセージを動画化された顔の画像と共に放送する。テキスト音声化システムの制限の1つは、メッセージの著者が単にテキストをタイプしているだけであるため、出力(即ち動画化された顔及び口語のメッセージ)が感情及び顔の表情を欠くという点である。従って、テキスト視覚音声化システムは、人間対人間の通信の幾分無味乾燥な形態を提供する傾向がある。
【0006】
従って、感情が容易に対話に取り入れられることができる、進んだオンライン通信システムを提供するニーズが存在する。
【0007】
【課題を解決するための手段】
本発明は、動画化された顔に表現された感情が、エモーティコンの入力によって生成されることができる視覚音声システムを提供することにより、上述の問題に対処する。第1の態様において本発明は、言葉の文字列及びエモーティコンの文字列を含むテキストデータを受信するデータ読み込みシステムと、前記受信された言葉の文字列及び前記受信されたエモーティコンの文字列に対応する顔の動きを再生することができる、表示可能な動画化された顔の画像を生成するテキスト動画化システムと、を有する視覚音声システムを提供する。
【0008】
第2の態様において本発明は、記録可能な媒体に保存された、実行時に視覚音声システムを提供するプログラムであって、言葉の文字列及びエモーティコンの文字列を含むテキストデータを受信するデータ読み込みシステムと、前記受信された言葉の文字列及び前記受信されたエモーティコンの文字列に対応する顔の動きを再生することができる、表示可能な動画化された顔の画像を生成するテキスト動画化システムと、
を有するプログラムを提供する。
【0009】
第3の態様において本発明は、視覚音声機能を持つオンラインチャットシステムであって、言葉の文字列及びエモーティコンの文字列を含むテキストデータを受信する第1のデータ読み込みシステム、並びに前記テキストデータをネットワークに送信するデータ送り出しシステムを持つ、ネットワークに接続された第1のクライアントと、前記ネットワークから前記テキストデータを受信する第2のデータ読み込みシステム、及び前記テキストデータ中に含まれた受信された前記言葉の文字列及び受信された前記エモーティコンの文字列に対応する顔の動きを再生する表示可能な動画化された顔の画像を生成するテキスト動画化システムを持つ、ネットワークに接続された第2のクライアントと、を有するオンラインチャットシステムを提供する。
【0010】
第4の態様において本発明は、表示可能な動画化された顔の画像を持つシステム上で視覚音声を実行する方法であって、言葉の文字列及びエモーティコンの文字列を含むテキストデータをキーボードに入力するステップと、前記言葉の文字列を音響音声に変換するステップと、前記言葉の文字列を前記表示可能な動画化された顔の画像上の口の動きに変換し、前記口の動きが前記音響音声に対応するようにするステップと、前記エモーティコンの文字列を前記表示可能な動画化された顔の画像上の顔の動きに変換し、前記顔の動きが前記入力されたエモーティコンの文字列に関連する表現される感情に対応するようにするステップと、前記音響音声の放送と共に前記動画化された顔の画像を表示するステップと、を有する方法を提供する。
【0011】
第5の態様において本発明は、所定の顔の表情と関連するエモーティコンを含むテキストデータを受信するデータ読み込みシステムと、前記所定の顔の表情に対応する少なくとも1つの顔の動きをシミュレートすることができる、表示可能な動画化された顔の画像を生成するテキスト動画化システムと、を有する視覚音声システムを提供する。
【0012】
【発明の実施の形態】
本発明の好適な実施例は、添付された図と共に以下に説明される。ここで同様な名称は同様の要素を示す。
【0013】
図1を参照すると、視覚音声システム10が図示されている。図示されている実施例において、視覚音声システム10は、ネットワーク40を介して互いに通信している第1のクライアントシステム12及び第2のクライアントシステム42を有する。本実施例は複数のクライアントシステムに実装されて示されているが、本発明はネットワークに接続されてもされてなくても良い単一のコンピュータシステム上に実装されることもできることは理解されるべきである。しかしながら、図1に示されるような複数のクライアントシステムは、第1のクライアントシステム12におけるユーザが第2のクライアントシステム42におけるユーザと通信するオンラインチャットのアプリケーションにおいてはとりわけ有用である。
【0014】
各クライアントシステム(例えばクライアントシステム12)は、メモリ、プロセッサ、入/出力などのような構成要素を含む又は該構成要素にアクセスを持ついずれのタイプのコンピュータシステムによって実装されても良い。コンピュータの前記構成要素は単一の物理的位置に存在しても良いし、種々の形態(例えばクライアント及びサーバ)で複数の物理的システムに渡って分散されていても良い。従って、クライアントシステム12は、コンピュータプログラムを実行することが可能なスタンドアロンのパーソナルコンピュータ、サーバを介して利用可能なアプリケーションへアクセスを持つブラウザプログラム、サーバと通信するダム端末などから成っても良い。
【0015】
各クライアントシステムに保存されるものは(又は各クライアントシステムにアクセス可能なものは)、I/Oシステム20とテキスト音声ビデオ化システム30とを含む実行可能なプロセッサである。I/Oシステム20及びテキスト音声ビデオ化システム30は、処理ユニット上で実行可能なソフトウェアプログラムとして実装されても良い。各クライアントシステムはまた、(1)テキストデータを入力するためのキーボード、マウス、ハンドヘルド装置、携帯電話、音声認識システム等のような入力システム14と、(2)例えばCRTディスプレイ16及び音響スピーカ18から成る音響視覚出力システム、とを含む。
【0016】
視覚音声システム10の動作の例は以下に説明される。クライアントシステム12及び42におけるユーザ間のオンラインチャットのアプリケーションにおいて、クライアントシステム12における第1のユーザは入力システム14を介してテキストデータを入力することができ、対応する動画化された顔の画像及び付随する音響音声が生成され、クライアントシステム42のディスプレイ46及びスピーカ48に出現する。同様に、クライアントシステム42における第2のユーザは入力システム44を介してテキストデータを入力することにより応答することが可能であり、第2の対応する動画化された顔の画像及び付随する音響音声が生成され、クライアントシステム12のディスプレイ16及びスピーカ18に出現する。かくして、前記入力されたテキストデータは音声をシミュレートする動く動画化された顔の画像から成るリモートの音響視覚放送に変換される。それ故、単にテキストメッセージを受信するのではなく、ユーザは前記メッセージを含むビデオ音声の放送を受信することになる。
【0017】
しかしながら、前記システムをより強固なものにするために、前記メッセージを送る前記ユーザは単語を入力するだけでなく、顔の表情及び感情を取り入れるために、表示される動画化された画像を引き起こすエモーティコンの文字列を入力することもできる(本開示の目的のため、「顔の表情」及び「感情」という語は交換可能に利用され、いずれの非言語的な顔の動きを含んでも良い)。例えば、クライアントシステム12におけるユーザが入力された言葉の文字列と共に喜び又は幸せを示したい場合、前記ユーザは適切なエモーティコン、即ちにこにこした顔:−)もタイプすることができる。その結果のディスプレイ46上の動画化された画像は、前記第1のクライアントシステムにおいて入力された言葉を話している間笑顔になる。他の感情はウィンク、悲しい顔、笑い、驚き等を含んでも良い。
【0018】
添付された付録において提供されるものは、チャットルーム、eメール及びオンライン通信の他の形態において感情などを示すためにしばしば利用されるエモーティコンの比較的網羅的なリストである。これらのエモーティコンのそれぞれは、ここに列挙されていない他のものと同様に、表示可能な動画化された顔の画像に取り入れられることができる顔の応答を持っても良い。前記顔の表情及び/又は感情の応答はいずれの話された語の前又は後に出現しても良く、好ましくは各メッセージについてスムーズな遷移を提供するため前記話された語に又は該語と共にモーフィングされても良い。
【0019】
図2及び図3は、異なる感情の又は顔の表情を持つ、表示可能な動画化された顔の画像の2つの例を示す。図2において、画題は中間の顔の表情(入力されたエモーティコンがない)で描かれている。一方で図3は画題を(怒りのエモーティコン>:−<に起因する)怒りの顔の表情で描いている。図2及び図3には示されていないが、前記動画化された顔の画像は、感情の表示と共に発話しながらモーフィングしても良い。
【0020】
図2及び図3の動画化された顔の画像は、三角形メッシュベースの3Dオブジェクトとしてモデル化される顔の幾何を有しても良い。画像及び測光データは、顔の画像を得るために前記幾何に重畳されても良いしされなくとも良い。表情及び感情をシミュレートするために顔の動きを実現するため、前記顔の画像は眉、目、口等のような複数の動作単位に分割されたオブジェクトとして扱われる。各感情に対応して、1以上の動作単位が所定の組み合わせ及び度合いに従ってシミュレートされることができる。
【0021】
ここで図1に戻ると、視覚音声システム10の動作が更に詳細に示される。最初に、テキストデータが入力システム14を介して第1のクライアントシステム12に入力される。既に述べたように、前記テキストデータは言葉の文字列とエモーティコンの文字列の両方を有しても良い。前記データはI/Oシステム20のデータ読み込みシステム26によって受信される。この点において、前記テキストデータはクライアントシステム12のディスプレイ16(即ちローカルに)おける表示のために処理されても良く、及び/又はリモート表示のためにクライアントシステム42に送られても良い。オンラインチャットの場合においては、例えば前記テキストデータはネットワーク40を通してクライアントシステム42に送られ、クライアントシステム42で前記データが処理され音響視覚音声として出力される。クライアントシステム12は、前記テキストデータをネットワーク40に送り出すデータ送り出しシステム28を利用して前記テキストデータを送る。クライアントシステム42は次いでデータ読み込みシステム27を利用して前記データを読み込むことができる。前記読み込まれたデータは次いでテキスト音声ビデオ化システム31に処理のために送られることができる。
【0022】
テキスト音声ビデオ化システム31は2つの主な機能を持つ。第1に、前記テキストデータを音響音声に変換する機能と、第2に、表示可能な顔の動きに対応する動作単位に前記テキストデータを変換する機能である。前記テキストデータの音声への変換は、テキスト音響化(text−to−audio)システム33によって扱われる。テキストを音声に変換するシステムは本分野においては良く知られている。テキストデータを顔の動きに変換する処理は、テキスト動画化(text−to−animation)システム35によって扱われる。テキスト動画化システム35は、言葉文字列プロセッサ37とエモーティコン文字列プロセッサ39との2つの構成要素を持つ。言葉文字列プロセッサ37は主に話された語として放送されることになる言葉の文字列に関連する口の動きを担当する。従って、言葉文字列プロセッサ37は主に、表示可能な顔の画像における口から成る顔の動作単位を制御する。
【0023】
エモーティコン文字列プロセッサ39は、前記受信されたエモーティコン文字列を処理することと該文字列を対応する顔の表情に変換することとを担当する。従って、エモーティコン文字列プロセッサ39は、適切な顔の応答を達成するために全ての顔の動作単位の制御を担当する。顔の動きのいずれのタイプ、組み合わせ及び度合いが所望の表情を生成するために利用されても良いことは理解されるべきである。
【0024】
テキスト動画化システム35はかくして、音声を表す口の動きと表情を表す調和した顔の動きとの両方から成る完全な動画化された顔の画像を生成する。付随する動画化された顔の画像は、前記言葉の文字列と関連する音声である。ディスプレイ46及びスピーカ48に音響及び視覚の情報を生成するためにディスプレイドライバ23及びオーディオドライバ25が利用されることができる。
【0025】
理解されるように、各クライアントシステムは本質的に通信及び視覚的な音声の生成のための同一のソフトウェアを含んでも良い。従って、クライアントシステム42がクライアントシステム12に応答メッセージを送り返す場合には、上述のものと同一の処理ステップが、I/Oシステム20及びテキスト音声ビデオ化システム30によってクライアントシステム12に実装される。
【0026】
ここで説明されたシステム、機能、メカニズム及びモジュールは、ハードウェア、ソフトウェア又はハードウェアとソフトウェアとの組み合わせで実装されることができることが理解される。これらは、ここで説明された方法を実行するように構成された、いずれのタイプのコンピュータシステム又は他の機器によって実装されても良い。ハードウェアとソフトウェアとの典型的な組み合わせは、ロードされ実行されるときに、コンピュータシステムがここで説明された方法を実行するように該コンピュータシステムを制御するコンピュータプログラムを持つ汎用コンピュータシステムである。代わりに、本発明の1以上の機能的なタスクを実行する特殊化されたハードウェアを含む専用のコンピュータが利用されることができる。本発明は、ここで説明された方法及び機能の実装を可能にする全ての特徴を有し、コンピュータシステムにロードされたときにこれらの方法及び機能を実行することができるコンピュータプログラムに埋め込まれることもできる。本文脈におけるコンピュータプログラム、ソフトウェアプログラム、プログラム、プログラム製品又はソフトウェアとは、特定の機能を直接に、又は(a)他の言語、コード又は表記法への変換と(b)異なるマテリアル形式での再生とのいずれか若しくは両方の後に実行するための情報処理能力をシステムに持たせることを意図された命令のセットのいずれの言語、コード又は表記法によるいずれの表現をも意味する。
【0027】
本発明の好適な実施例の上述の説明は、例示及び説明の目的で提示された。これらは網羅的であること又は開示されたそのままの形式に本発明を限定するものであることを意図しておらず、上述の開示に照らして多くの変更及び変形が明らかに可能である。当業者には明確なかような変更及び変形は、添付する請求項によって規定される本発明の範囲内に含まれることを意図されている。
【0028】
付録:
#:−o ショックを受けた
%−( 混乱している
%−) ぼおっとしている、又はばかげた
>>:−<< 怒り狂っている
>−> ウィンクする悪魔
>−< 怒り狂っている
>−) 悪魔のようなウィンク
>:) 子供の悪魔
>:−> とてもいたずら好きな悪魔
>:−< 怒った
>:−< 立腹した
>:−( 困っている
>:−) いたずら好きな悪魔
>=^ P オエッ
<:> 悪魔のような表情
<:−> 悪魔のような表情
<:−( のろま
<:−) 無邪気にばかな質問をしている
(:& 怒った
(:−& 怒った
(:−( 笑っていない
(:−) にこにこ顔の変形
(:−* キス
(:−\ とても悲しい
* キス
∧∧∧ 笑い
8) 目を見開いた、又は眼鏡をかけた
8−) 目を見開いた、又は眼鏡をかけた
8−o ショックを受けた
8−O 驚いた
8−P オエッ!
8−[ 神経がすり減った、緊張しすぎた
8−] ワオ!
8−| 目を見開いた驚き
: ( 悲しい
: ) 笑顔
: [ 退屈した、悲しい
: | 退屈した、悲しい
:( ) おしゃべり、いつも話している、叫び
:* キス
:**: 繰り返しのキス
:,( 泣いている
:−> 幸せ又は皮肉の笑い
:−>< キスのために口をすぼめる
:−< とても悲しい
:−( 眉をひそめる
:−) 古典的なにこにこ顔
:−* キス
:−, 作り笑い
:−/ 歪んだ顔
:−6 へとへと
:−9 唇を舐める
:−? 唇を舐める、又は冗談の
:−@ 叫ぶ
:−C 驚いた
:−c とても不幸
:−D 笑っている
:−d ̄ ヘビースモーカー
:−e 失望した
:−f 舌を出した
:−I 熟考中、公平な
:−i 苦笑、又は半笑い
:−j 偏った笑い
:−k 当惑
:−l 偏った笑い
:−O ぽかんとした、驚いた
:−o 驚いた様子、又はあくび
:−P 舌を出した
:−p 舌を出した
:−Q 嫌気で出した舌、又は喫煙者
:−Q ̄ タバコを吸う
:−r 舌を出した
:−s 何?!
:−t 笑っていない
:−V 叫び
:−X 私の唇は封印された、又はキス
:−x キス、又は私の唇は封印された
:−Y ひそひそ話
:−[ 笑っていないのろま、批評
:−\’| 鼻声
:−] 笑っているのろま、皮肉
:−{} 口ひげのある笑い
:−{}} 口ひげとあごひげのある笑い
:−{} 投げキッス
:−| 無関心、退屈、うんざり
:−|| とても怒っている
:−} いたずらな笑い
:.( 泣いている
:C 驚いた
:e 失望した
:P 舌を出した
; ) ウィンク
;−) ウィンク
^ ^ ^ くすくす笑い
`:−) つり上がった眉
|−<> キスのために口をすぼめた
|−D 大笑い
|−O あくび
|I 眠っている
・|^o いびき
}−) 苦笑
}: [ 怒り、欲求不満
 ̄ :−( かっとなった
【図面の簡単な説明】
【図1】本発明の好適な実施例による視覚音声システムのブロック図を示す。
【図2】本発明の動画化された顔の画像の例を示す。
【図3】本発明の動画化された顔の画像の例を示す。
Claims (20)
- 言葉の文字列及びエモーティコンの文字列を含むテキストデータを受信するデータ読み込みシステムと、
前記受信された言葉の文字列及び前記受信されたエモーティコンの文字列に対応する顔の動きを再生することができる、表示可能な動画化された顔の画像を生成するテキスト動画化システムと、
を有する視覚音声システム。 - テキストデータをタイプ入力するためのキーボードを更に有する、請求項1に記載の視覚音声システム。
- 前記受信された言葉の文字列に対応して放送される音響音声を生成することができるテキスト音響化システムを更に有する、請求項1に記載の視覚音声システム。
- 前記放送される音響音声と共に前記表示可能な動画化された顔の画像を表示する音響視覚インタフェースを更に有する、請求項3に記載の視覚音声システム。
- 前記テキスト動画化システムは、各エモーティコンの文字列を表現される感情と関連付け、前記表現される感情は少なくとも1つの顔の動きと共に前記動画化された顔の画像上に再生される、請求項1に記載の視覚音声システム。
- 前記テキスト動画化システムは各言葉の文字列を話される言葉に関連付け、前記話される言葉は少なくとも1つの口の動きと共に前記動画化された顔の画像上に再生される、請求項5に記載の視覚音声システム。
- 前記少なくとも1つの顔の動きは前記少なくとも1つの口の動きを伴ってモーフィングされる、請求項6に記載の視覚音声システム。
- ネットワークによってテキストデータを受信する及び送信する入力/出力システムを更に有する、請求項1に記載の視覚音声システム。
- 記録可能な媒体に保存された、実行時に視覚音声システムを提供するプログラムであって、
言葉の文字列及びエモーティコンの文字列を含むテキストデータを受信するデータ読み込みシステムと、
前記受信された言葉の文字列及び前記受信されたエモーティコンの文字列に対応する顔の動きを再生することができる、表示可能な動画化された顔の画像を生成するテキスト動画化システムと、
を有するプログラム。 - 入力された前記エモーティコンの文字列は、表現される感情として前記動画化された顔の画像上に再生される、請求項9に記載のプログラム。
- 入力された前記言葉の文字列は口の動きによって前記動画化された顔の画像上に再生される、請求項10に記載のプログラム。
- 前記表現される感情は、前記口の動きを伴いモーフィングされる、請求項11に記載のプログラム。
- 視覚音声機能を持つオンラインチャットシステムであって、
言葉の文字列及びエモーティコンの文字列を含むテキストデータを受信する第1のデータ読み込みシステム、並びに前記テキストデータをネットワークに送信するデータ送り出しシステムを持つ、ネットワークに接続された第1のクライアントと、
前記ネットワークから前記テキストデータを受信する第2のデータ読み込みシステム、及び前記テキストデータ中に含まれた受信された前記言葉の文字列及び受信された前記エモーティコンの文字列に対応する顔の動きを再生する表示可能な動画化された顔の画像を生成するテキスト動画化システムを持つ、ネットワークに接続された第2のクライアントと、
を有するオンラインチャットシステム。 - 各前記エモーティコンの文字列は、表現される感情として前記動画化された顔の画像上に再生される、請求項13に記載のオンラインチャットシステム。
- 各前記言葉の文字列は、口の動きによって前記動画化された顔の画像上に再生される、請求項14に記載のオンラインチャットシステム。
- 前記表現される感情は前記口の動きを伴ってモーフィングされる、請求項15に記載のオンラインチャットシステム。
- 表示可能な動画化された顔の画像を持つシステム上で視覚音声を実行する方法であって、
言葉の文字列及びエモーティコンの文字列を含むテキストデータをキーボードに入力するステップと、
前記言葉の文字列を音響音声に変換するステップと、
前記言葉の文字列を前記表示可能な動画化された顔の画像上の口の動きに変換し、前記口の動きが前記音響音声に対応するようにするステップと、
前記エモーティコンの文字列を前記表示可能な動画化された顔の画像上の顔の動きに変換し、前記顔の動きが前記入力されたエモーティコンの文字列に関連する表現される感情に対応するようにするステップと、
前記音響音声の放送と共に前記動画化された顔の画像を表示するステップと、を有する方法。 - 前記口の動き及び顔の動きは同時にモーフィングされる、請求項17に記載の方法。
- 前記音響音声の放送と共に前記動画化された顔の画像を表示するステップは、ネットワークに渡ってリモートで実行される、請求項17に記載の方法。
- 所定の顔の表情と関連する少なくとも1つのエモーティコンを含むテキストデータを受信するデータ読み込みシステムと、
前記所定の顔の表情に対応する少なくとも1つの顔の動きをシミュレートすることができる、表示可能な動画化された顔の画像を生成するテキスト動画化システムと、
を有する視覚音声システム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/821,138 US20020194006A1 (en) | 2001-03-29 | 2001-03-29 | Text to visual speech system and method incorporating facial emotions |
PCT/IB2002/000860 WO2002080107A1 (en) | 2001-03-29 | 2002-03-19 | Text to visual speech system and method incorporating facial emotions |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004519787A true JP2004519787A (ja) | 2004-07-02 |
Family
ID=25232620
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002578253A Withdrawn JP2004519787A (ja) | 2001-03-29 | 2002-03-19 | 顔の感情を取り入れたテキスト視覚音声化システム及び方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20020194006A1 (ja) |
EP (1) | EP1374179A1 (ja) |
JP (1) | JP2004519787A (ja) |
KR (1) | KR20030007726A (ja) |
CN (1) | CN1460232A (ja) |
WO (1) | WO2002080107A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006263122A (ja) * | 2005-03-24 | 2006-10-05 | Sega Corp | ゲーム装置、ゲームシステム、ゲームデータの処理方法及びこのゲームデータの処理方法ためのプログラム並びに記憶媒体 |
Families Citing this family (91)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002132663A (ja) * | 2000-10-20 | 2002-05-10 | Nec Corp | 情報通信システムとその通信方法、及び通信プログラムを記録した記録媒体 |
US6976082B1 (en) | 2000-11-03 | 2005-12-13 | At&T Corp. | System and method for receiving multi-media messages |
US7203648B1 (en) | 2000-11-03 | 2007-04-10 | At&T Corp. | Method for sending multi-media messages with customized audio |
US7091976B1 (en) | 2000-11-03 | 2006-08-15 | At&T Corp. | System and method of customizing animated entities for use in a multi-media communication application |
US7035803B1 (en) | 2000-11-03 | 2006-04-25 | At&T Corp. | Method for sending multi-media messages using customizable background images |
US20080040227A1 (en) | 2000-11-03 | 2008-02-14 | At&T Corp. | System and method of marketing using a multi-media communication system |
US6990452B1 (en) | 2000-11-03 | 2006-01-24 | At&T Corp. | Method for sending multi-media messages using emoticons |
US6963839B1 (en) * | 2000-11-03 | 2005-11-08 | At&T Corp. | System and method of controlling sound in a multi-media communication application |
CN1245895C (zh) * | 2000-11-17 | 2006-03-22 | 塔特和莱利有限公司 | 含三氯蔗糖和丁磺氨钾的可熔混合物的甜味剂、含有它的食品以及它们的制备方法 |
JP2002268665A (ja) * | 2001-03-13 | 2002-09-20 | Oki Electric Ind Co Ltd | テキスト音声合成装置 |
US6980333B2 (en) * | 2001-04-11 | 2005-12-27 | Eastman Kodak Company | Personalized motion imaging system |
US7080139B1 (en) | 2001-04-24 | 2006-07-18 | Fatbubble, Inc | Method and apparatus for selectively sharing and passively tracking communication device experiences |
US7085259B2 (en) * | 2001-07-31 | 2006-08-01 | Comverse, Inc. | Animated audio messaging |
WO2003028386A2 (en) * | 2001-09-25 | 2003-04-03 | Wildseed, Ltd. | Wireless mobile image messaging |
US7671861B1 (en) | 2001-11-02 | 2010-03-02 | At&T Intellectual Property Ii, L.P. | Apparatus and method of customizing animated entities for use in a multi-media communication application |
US7224851B2 (en) * | 2001-12-04 | 2007-05-29 | Fujifilm Corporation | Method and apparatus for registering modification pattern of transmission image and method and apparatus for reproducing the same |
US7401020B2 (en) * | 2002-11-29 | 2008-07-15 | International Business Machines Corporation | Application of emotion-based intonation and prosody to speech in text-to-speech systems |
KR20040039771A (ko) * | 2002-11-04 | 2004-05-12 | 김남조 | 이모티콘 사운드 재생 장치 및 방법 |
JP2004198872A (ja) * | 2002-12-20 | 2004-07-15 | Sony Electronics Inc | 端末装置およびサーバ |
US7168953B1 (en) * | 2003-01-27 | 2007-01-30 | Massachusetts Institute Of Technology | Trainable videorealistic speech animation |
US7539727B2 (en) | 2003-07-01 | 2009-05-26 | Microsoft Corporation | Instant messaging object store |
US7363378B2 (en) | 2003-07-01 | 2008-04-22 | Microsoft Corporation | Transport system for instant messaging |
US7607097B2 (en) * | 2003-09-25 | 2009-10-20 | International Business Machines Corporation | Translating emotion to braille, emoticons and other special symbols |
US7805307B2 (en) | 2003-09-30 | 2010-09-28 | Sharp Laboratories Of America, Inc. | Text to speech conversion system |
JP2005115896A (ja) * | 2003-10-10 | 2005-04-28 | Nec Corp | 通信装置及び通信方法 |
JP2005135169A (ja) | 2003-10-30 | 2005-05-26 | Nec Corp | 携帯端末およびデータ処理方法 |
US8523572B2 (en) * | 2003-11-19 | 2013-09-03 | Raanan Liebermann | Touch language |
US20050131697A1 (en) * | 2003-12-10 | 2005-06-16 | International Business Machines Corporation | Speech improving apparatus, system and method |
US20050131744A1 (en) * | 2003-12-10 | 2005-06-16 | International Business Machines Corporation | Apparatus, system and method of automatically identifying participants at a videoconference who exhibit a particular expression |
US8171084B2 (en) * | 2004-01-20 | 2012-05-01 | Microsoft Corporation | Custom emoticons |
JP3930489B2 (ja) * | 2004-03-31 | 2007-06-13 | 株式会社コナミデジタルエンタテインメント | チャットシステム、通信装置、その制御方法及びプログラム |
CN100371889C (zh) * | 2004-07-08 | 2008-02-27 | 腾讯科技(深圳)有限公司 | 一种在即时通讯工具软件中使用表情符号的方法 |
US20060089147A1 (en) * | 2004-10-21 | 2006-04-27 | Beaty Robert M | Mobile network infrastructure for applications, personalized user interfaces, and services |
US7433700B2 (en) | 2004-11-12 | 2008-10-07 | Microsoft Corporation | Strategies for peer-to-peer instant messaging |
GB2422454A (en) * | 2005-01-22 | 2006-07-26 | Siemens Plc | A system for communicating user emotion |
US20090058860A1 (en) * | 2005-04-04 | 2009-03-05 | Mor (F) Dynamics Pty Ltd. | Method for Transforming Language Into a Visual Form |
US7529255B2 (en) * | 2005-04-21 | 2009-05-05 | Microsoft Corporation | Peer-to-peer multicasting using multiple transport protocols |
US20070061814A1 (en) * | 2005-09-13 | 2007-03-15 | Choi Andrew C | Method and apparatus for transparently interfacing a computer peripheral with a messaging system |
EP1771002B1 (en) * | 2005-09-30 | 2017-12-27 | LG Electronics Inc. | Mobile video communication terminal |
US20070143410A1 (en) * | 2005-12-16 | 2007-06-21 | International Business Machines Corporation | System and method for defining and translating chat abbreviations |
KR20070091962A (ko) * | 2006-03-08 | 2007-09-12 | 한국방송공사 | 애니메이션을 이용한 디엠비 데이터 방송의 나레이션 제공방법 및 이를 구현하기 위한 프로그램이 저장된 컴퓨터로판독 가능한 기록매체 |
US7571101B2 (en) * | 2006-05-25 | 2009-08-04 | Charles Humble | Quantifying psychological stress levels using voice patterns |
WO2007138944A1 (ja) * | 2006-05-26 | 2007-12-06 | Nec Corporation | 情報付与システム、情報付与方法、情報付与プログラム及び情報付与プログラム記録媒体 |
US7640304B1 (en) * | 2006-06-14 | 2009-12-29 | Yes International Ag | System and method for detecting and measuring emotional indicia |
US7966567B2 (en) * | 2007-07-12 | 2011-06-21 | Center'd Corp. | Character expression in a geo-spatial environment |
EP1942601A1 (en) * | 2006-12-29 | 2008-07-09 | Union Creations Limited | Device and method of expressing information in a communication message sent through a network |
TWI454955B (zh) * | 2006-12-29 | 2014-10-01 | Nuance Communications Inc | 使用模型檔產生動畫的方法及電腦可讀取的訊號承載媒體 |
GB0702150D0 (en) * | 2007-02-05 | 2007-03-14 | Amegoworld Ltd | A Communication Network and Devices |
WO2008114453A1 (ja) * | 2007-03-20 | 2008-09-25 | Fujitsu Limited | 音声合成装置、音声合成システム、言語処理装置、音声合成方法及びコンピュータプログラム |
CN101072207B (zh) * | 2007-06-22 | 2010-09-08 | 腾讯科技(深圳)有限公司 | 即时通讯工具中的交流方法及即时通讯工具 |
US20090048840A1 (en) * | 2007-08-13 | 2009-02-19 | Teng-Feng Lin | Device for converting instant message into audio or visual response |
US20090082045A1 (en) * | 2007-09-26 | 2009-03-26 | Blastmsgs Inc. | Blast video messages systems and methods |
CN101287093B (zh) * | 2008-05-30 | 2010-06-09 | 北京中星微电子有限公司 | 在视频通信中添加特效的方法及视频客户端 |
US8542237B2 (en) * | 2008-06-23 | 2013-09-24 | Microsoft Corporation | Parametric font animation |
US20100073399A1 (en) * | 2008-09-23 | 2010-03-25 | Sony Ericsson Mobile Communications Ab | Methods and devices for controlling a presentation of an object |
US20100228776A1 (en) * | 2009-03-09 | 2010-09-09 | Melkote Ramaswamy N | System, mechanisms, methods and services for the creation, interaction and consumption of searchable, context relevant, multimedia collages composited from heterogeneous sources |
US9665563B2 (en) | 2009-05-28 | 2017-05-30 | Samsung Electronics Co., Ltd. | Animation system and methods for generating animation based on text-based data and user information |
CN102289339B (zh) * | 2010-06-21 | 2013-10-30 | 腾讯科技(深圳)有限公司 | 一种显示表情信息的方法及装置 |
CN103140848B (zh) * | 2010-10-08 | 2016-08-03 | 日本电气株式会社 | 字符变换系统以及字符变换方法 |
US8751228B2 (en) * | 2010-11-04 | 2014-06-10 | Microsoft Corporation | Minimum converted trajectory error (MCTE) audio-to-video engine |
US20120130717A1 (en) * | 2010-11-19 | 2012-05-24 | Microsoft Corporation | Real-time Animation for an Expressive Avatar |
US20120136660A1 (en) * | 2010-11-30 | 2012-05-31 | Alcatel-Lucent Usa Inc. | Voice-estimation based on real-time probing of the vocal tract |
US20140025385A1 (en) * | 2010-12-30 | 2014-01-23 | Nokia Corporation | Method, Apparatus and Computer Program Product for Emotion Detection |
US8559813B2 (en) | 2011-03-31 | 2013-10-15 | Alcatel Lucent | Passband reflectometer |
CN102271096A (zh) * | 2011-07-27 | 2011-12-07 | 苏州巴米特信息科技有限公司 | 一种特色聊天系统 |
TWI482108B (zh) | 2011-12-29 | 2015-04-21 | Univ Nat Taiwan | To bring virtual social networks into real-life social systems and methods |
US9331970B2 (en) * | 2012-12-05 | 2016-05-03 | Facebook, Inc. | Replacing typed emoticon with user photo |
CN104053131A (zh) * | 2013-03-12 | 2014-09-17 | 华为技术有限公司 | 一种文本通讯信息处理方法及相关设备 |
CN103475991A (zh) * | 2013-08-09 | 2013-12-25 | 刘波涌 | 实现角色扮演的方法和系统 |
GB201401046D0 (en) * | 2014-01-22 | 2014-03-05 | Iedutainments Ltd | Searching and content delivery system |
CN105282621A (zh) * | 2014-07-22 | 2016-01-27 | 中兴通讯股份有限公司 | 一种语音消息可视化服务的实现方法及装置 |
US9288303B1 (en) | 2014-09-18 | 2016-03-15 | Twin Harbor Labs, LLC | FaceBack—automated response capture using text messaging |
US20160292903A1 (en) * | 2014-09-24 | 2016-10-06 | Intel Corporation | Avatar audio communication systems and techniques |
EP3614304A1 (en) * | 2014-11-05 | 2020-02-26 | INTEL Corporation | Avatar video apparatus and method |
CN104639425B (zh) * | 2015-01-06 | 2018-02-09 | 广州华多网络科技有限公司 | 一种网络表情播放方法、系统和服务设备 |
US10133918B1 (en) | 2015-04-20 | 2018-11-20 | Snap Inc. | Generating a mood log based on user images |
CN104899814A (zh) * | 2015-05-08 | 2015-09-09 | 努比亚技术有限公司 | 一种智能提醒健康饮食的方法及终端 |
US11783524B2 (en) * | 2016-02-10 | 2023-10-10 | Nitin Vats | Producing realistic talking face with expression using images text and voice |
CN105763424B (zh) * | 2016-03-22 | 2019-05-07 | 网易有道信息技术(北京)有限公司 | 一种文字信息处理方法和装置 |
CN105931631A (zh) * | 2016-04-15 | 2016-09-07 | 北京地平线机器人技术研发有限公司 | 语音合成系统和方法 |
US10168859B2 (en) | 2016-04-26 | 2019-01-01 | International Business Machines Corporation | Contextual determination of emotion icons |
US9973456B2 (en) | 2016-07-22 | 2018-05-15 | Strip Messenger | Messaging as a graphical comic strip |
US9684430B1 (en) * | 2016-07-27 | 2017-06-20 | Strip Messenger | Linguistic and icon based message conversion for virtual environments and objects |
KR101994803B1 (ko) * | 2017-03-14 | 2019-07-01 | 이명철 | 감성 콘텐츠 적용이 가능한 텍스트 에디터 지원 시스템 |
US10225621B1 (en) | 2017-12-20 | 2019-03-05 | Dish Network L.L.C. | Eyes free entertainment |
KR102053076B1 (ko) * | 2018-07-09 | 2019-12-06 | 주식회사 한글과컴퓨터 | 감성 분석 기반의 스타일 적용이 가능한 문서 편집 장치 및 그 동작 방법 |
US20200279553A1 (en) * | 2019-02-28 | 2020-09-03 | Microsoft Technology Licensing, Llc | Linguistic style matching agent |
CN110991427B (zh) * | 2019-12-25 | 2023-07-14 | 北京百度网讯科技有限公司 | 用于视频的情绪识别方法、装置和计算机设备 |
CN112184858B (zh) * | 2020-09-01 | 2021-12-07 | 魔珐(上海)信息科技有限公司 | 基于文本的虚拟对象动画生成方法及装置、存储介质、终端 |
CN112188304B (zh) * | 2020-09-28 | 2022-11-15 | 广州酷狗计算机科技有限公司 | 视频生成方法、装置、终端及存储介质 |
WO2024112994A1 (en) * | 2022-12-03 | 2024-06-06 | Kia Silverbrook | One-click photorealistic video generation using ai and real-time cgi |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5613056A (en) * | 1991-02-19 | 1997-03-18 | Bright Star Technology, Inc. | Advanced tools for speech synchronized animation |
US5878396A (en) * | 1993-01-21 | 1999-03-02 | Apple Computer, Inc. | Method and apparatus for synthetic speech in facial animation |
US5880731A (en) * | 1995-12-14 | 1999-03-09 | Microsoft Corporation | Use of avatars with automatic gesturing and bounded interaction in on-line chat session |
US6069622A (en) * | 1996-03-08 | 2000-05-30 | Microsoft Corporation | Method and system for generating comic panels |
US6064383A (en) * | 1996-10-04 | 2000-05-16 | Microsoft Corporation | Method and system for selecting an emotional appearance and prosody for a graphical character |
US5963217A (en) * | 1996-11-18 | 1999-10-05 | 7Thstreet.Com, Inc. | Network conference system using limited bandwidth to generate locally animated displays |
SE520065C2 (sv) * | 1997-03-25 | 2003-05-20 | Telia Ab | Anordning och metod för prosodigenerering vid visuell talsyntes |
US5983190A (en) * | 1997-05-19 | 1999-11-09 | Microsoft Corporation | Client server animation system for managing interactive user interface characters |
US5995119A (en) * | 1997-06-06 | 1999-11-30 | At&T Corp. | Method for generating photo-realistic animated characters |
US6112177A (en) * | 1997-11-07 | 2000-08-29 | At&T Corp. | Coarticulation method for audio-visual text-to-speech synthesis |
US6522333B1 (en) * | 1999-10-08 | 2003-02-18 | Electronic Arts Inc. | Remote communication through visual representations |
US6539354B1 (en) * | 2000-03-24 | 2003-03-25 | Fluent Speech Technologies, Inc. | Methods and devices for producing and using synthetic visual speech based on natural coarticulation |
WO2001084275A2 (en) * | 2000-05-01 | 2001-11-08 | Lifef/X Networks, Inc. | Virtual representatives for use as communications tools |
US6453294B1 (en) * | 2000-05-31 | 2002-09-17 | International Business Machines Corporation | Dynamic destination-determined multimedia avatars for interactive on-line communications |
US6963839B1 (en) * | 2000-11-03 | 2005-11-08 | At&T Corp. | System and method of controlling sound in a multi-media communication application |
-
2001
- 2001-03-29 US US09/821,138 patent/US20020194006A1/en not_active Abandoned
-
2002
- 2002-03-19 JP JP2002578253A patent/JP2004519787A/ja not_active Withdrawn
- 2002-03-19 EP EP02705014A patent/EP1374179A1/en not_active Withdrawn
- 2002-03-19 CN CN02800938A patent/CN1460232A/zh active Pending
- 2002-03-19 WO PCT/IB2002/000860 patent/WO2002080107A1/en not_active Application Discontinuation
- 2002-03-19 KR KR1020027016111A patent/KR20030007726A/ko not_active Application Discontinuation
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006263122A (ja) * | 2005-03-24 | 2006-10-05 | Sega Corp | ゲーム装置、ゲームシステム、ゲームデータの処理方法及びこのゲームデータの処理方法ためのプログラム並びに記憶媒体 |
Also Published As
Publication number | Publication date |
---|---|
WO2002080107A1 (en) | 2002-10-10 |
CN1460232A (zh) | 2003-12-03 |
US20020194006A1 (en) | 2002-12-19 |
EP1374179A1 (en) | 2004-01-02 |
KR20030007726A (ko) | 2003-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2004519787A (ja) | 顔の感情を取り入れたテキスト視覚音声化システム及び方法 | |
US9667574B2 (en) | Animated delivery of electronic messages | |
US7663628B2 (en) | Apparatus and method for efficient animation of believable speaking 3D characters in real time | |
US20020007276A1 (en) | Virtual representatives for use as communications tools | |
US11005796B2 (en) | Animated delivery of electronic messages | |
Marcos et al. | A realistic, virtual head for human–computer interaction | |
US20030163315A1 (en) | Method and system for generating caricaturized talking heads | |
Ventrella | Virtual body language: The history and future of avatars: How nonverbal expression is evolving on the internet | |
Pelachaud et al. | Multimodal behavior modeling for socially interactive agents | |
KR20160010810A (ko) | 실음성 표출 가능한 실사형 캐릭터 생성 방법 및 생성 시스템 | |
Rincón-Nigro et al. | A text-driven conversational avatar interface for instant messaging on mobile devices | |
Lokesh et al. | Computer Interaction to human through photorealistic facial model for inter-process communication | |
Morel et al. | Attention-aware intelligent embodied agents | |
Molano et al. | Parametric facial animation for affective interaction workflow for avatar retargeting | |
Godenschweger et al. | Modeling and generating sign language as animated line drawings | |
Morishima et al. | Face-to-face communicative avatar driven by voice | |
Chae et al. | Text-driven speech animation with emotion control | |
US20240323332A1 (en) | System and method for generating and interacting with conversational three-dimensional subjects | |
Barakonyi et al. | Communicating Multimodal information on the WWW using a lifelike, animated 3D agent | |
Prasetyahadi et al. | Eye lip and crying expression for virtual human | |
Trpkoski et al. | Simulation and animation of a 3D avatar from a realistic human face model | |
Schlittler | Animation and Machines: designing expressive robot-human interactions | |
Karunaratne et al. | Modelling and combining emotions, visual speech and gestures in virtual head models | |
WO2022255980A1 (en) | Virtual agent synthesis method with audio to video conversion | |
Tosa et al. | Computing Feelings |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20041221 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050317 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20061013 |