JP4266411B2 - 情報処理装置及びその制御方法、情報伝送システム、記憶媒体 - Google Patents
情報処理装置及びその制御方法、情報伝送システム、記憶媒体 Download PDFInfo
- Publication number
- JP4266411B2 JP4266411B2 JP29728098A JP29728098A JP4266411B2 JP 4266411 B2 JP4266411 B2 JP 4266411B2 JP 29728098 A JP29728098 A JP 29728098A JP 29728098 A JP29728098 A JP 29728098A JP 4266411 B2 JP4266411 B2 JP 4266411B2
- Authority
- JP
- Japan
- Prior art keywords
- animation
- information
- text string
- data
- speech synthesis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000005540 biological transmission Effects 0.000 title claims description 33
- 230000010365 information processing Effects 0.000 title claims description 27
- 238000000034 method Methods 0.000 title claims description 16
- 230000015572 biosynthetic process Effects 0.000 claims description 32
- 238000003786 synthesis reaction Methods 0.000 claims description 32
- 230000008921 facial expression Effects 0.000 claims description 10
- 239000011521 glass Substances 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims 2
- 230000037308 hair color Effects 0.000 claims 2
- 238000010586 diagram Methods 0.000 description 18
- 230000006870 function Effects 0.000 description 10
- 230000008451 emotion Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 230000033001 locomotion Effects 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 210000003128 head Anatomy 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 206010011469 Crying Diseases 0.000 description 1
- 241000320126 Pseudomugilidae Species 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/205—3D [Three Dimensional] animation driven by audio data
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Processing Or Creating Images (AREA)
- User Interface Of Digital Computer (AREA)
- Information Transfer Between Computers (AREA)
- Controls And Circuits For Display Device (AREA)
Description
【発明の属する技術分野】
本発明は、情報処理装置及び情報伝送システムに関し、特に音声用情報と画像用情報の伝送、受信に好適な情報処理装置及び情報伝送システムに関する。
【0002】
【従来の技術】
従来より、TV会議やTV電話等のような音声情報と画像情報の送受信を行う画像・音声伝送システムが知られている。
【0003】
一般的な画像・音声伝送システムにおいては以下のような制御が行われる。まず、被写体をビデオカメラにより撮影して伝送すべき画像情報を獲得するとともに、マイクによって話者の音声を取り込むことによって伝送すべき音声情報を獲得する。伝送すべき画像情報及び音声情報は、ビデオエンコーダ及びオーディオエンコーダによってそれぞれ符号化(圧縮)される。こうして圧縮された画像及び音声情報はマルチプレクサによって一本化され、圧縮一本化された画像・音声データが伝送される。
【0004】
一方、上述のようにして伝送された画像・音声データを受信した情報処理装置は、デマルチプレクサによって画像データと音声データに分離し、それぞれを復号化して画像及び音声を再生する。なお、再生時においては、映像と音声の同期がとられる。
【0005】
符号化の方式については色々な方式が用いられるが、いずれにしろ上記の例は(圧縮された)自然動画および音声データを伝送するものであり、TV会議や、TV電話などで広く用いられている。
【0006】
また、自然画動画データ及び音声データを送信する代わりに、それらをアニメーションデータとテキストデータとして送信することも提案されている。例えば、ビデオカメラで得られた画像から顔や体のアニメーション情報を抽出し、抽象化されたアバタ(化身)を作成してアニメーションデータとする。また、テキストデータは、マイクによって入力された話者音声を認識してテキストに変換することで得る。そして、マルチプレクサによりアバタのアニメーションデータおよびテキストデータがマルチプレクスされ伝送される。
【0007】
一方、受信側では、アニメーションデータに基づいて顔や体のアニメーション表示を実行するとともに、テキストデータを音声信号に変換して読み上げを行う。当然ながら、アニメーションと音声の同期制御も必要である。
【0008】
以上の例は、伝送路の帯域(ビットレート)が低いときなどに有効な手法である。
【0009】
或いは、上記のアニメーションデータやテキストデータを、ビデオカメラやマイクを用いて取り込むようなことを行わず、アニメーション作成器で、顔や体の動きや喜怒哀楽を含むアニメーションデータを一から作成したり、テキストエディタを用いて音声合成すべきテキストを編集したりするようにすることも考えられる。
【0010】
【発明が解決しようとする課題】
しかしながら、上記の情報伝送システムにおいては以下のような問題があった。
【0011】
まず、自然動画や音声を圧縮して伝送する方法では、伝走路の帯域が狭い(ビットレートが低い)場合には対応しにくい。
【0012】
一方、アニメーションデータとテキストデータで情報伝送を行う方法は、ビットレートの低い伝送路に好適であるが、アニメーションデータとテキストデータはそれぞれ完全に独立しており、このためテキストを音声データに変換する際には、アニメーションとの同期をとる必要があるが、アニメーションの表示とテキスト読み上げを正確に同期させるのは困難である。
【0013】
本発明は上記の問題に鑑みてなされたものであり、その目的とするところは、アニメーションデータによるアニメーション表示とテキストデータによるテキスト読み上げとの間の同期を容易かつ正確に行えるようにすることにある。
【0014】
また、本発明の他の目的は、受信側でアニメーションデータを保持させておくことを可能とし、読み上げのためのテキストの送信の度にアニメーションデータを送信しなくても済むようにすることにある。
【0015】
【課題を解決するための手段】
上記の目的を達成するための本発明の一態様による情報処理装置は、例えば以下の構成を備える。すなわち、
音声合成のためのテキスト列中に、該テキスト列の一部分を囲むようにして記述されたアニメーション制御情報が配されたデータを受信する受信手段と、
アニメーションデータを格納する格納手段と、
前記受信手段で受信したデータより音声合成のためのテキスト列を抽出し、抽出されたテキスト列に基づいて音声合成をおこなって音声出力する音声出力手段と、
前記音声出力手段によって音声出力されるテキスト列が、前記アニメーション制御情報によって囲まれた部分に含まれるときに、前記アニメーション制御情報に従って前記格納手段に格納されたアニメーションデータの表示を制御する表示制御手段とを備え、
前記アニメーション制御情報は、前記音声合成のためのテキスト列の一部分を囲むようにして記述されたアニメーションの顔の表情を特定するための第1のタグ情報と、アニメーション表示されるアバタの属性を指定するための第2のタグ情報とを含み、
前記表示制御手段は、前記格納手段に格納されたアニメーションデータから前記第2のタグ情報によって指定された属性を有するアバタのアニメーションデータセットを検索し、検索されたアニメーションデータセットから前記第1のタグ情報によって特定された顔の表情に対応するアニメーションデータを選択して表示する。
【0016】
また、本発明によれば上記情報処理装置において実現される情報処理方法が提供される。また、本発明によれば該情報処理方法をコンピュータに実現させるための制御プログラムを格納する記憶媒体が提供される。更に、本発明によれば、上記情報処理装置を用いた情報伝送システムが提供される。
【0017】
【発明の実施の形態】
以下、添付の図面を参照して本発明の好適な実施形態を説明する。
【0018】
[第1の実施形態]
図1は、本実施形態による情報処理装置の構成例を示すブロック図である。図1において、10は情報処理装置を指す。また、11はCPUであり情報処理装置10の各種制御を実現する。12はROMでありCPU11が実行する制御プログラムや各種データを格納する。13はRAMであり、外部記憶装置よりロードされたCPU11が実行するための制御プログラムを格納したり、CPU11が各種制御を実行するに際しての作業領域を提供したりする。
【0019】
14は表示装置であり、CPU11の制御により各種表示を実現する。15は入力装置であり、キーボードやポインティングデバイス(マウス等)を含む。また、16は音声合成装置、17は回線と情報処理装置10を接続するためのインターフェース、18はバスである。
【0020】
113はスピーカであり、音声合成装置16よりの音声出力を再生する。また、115は外部記憶装置である。10’は情報処理装置10と回線を介して接続された情報処理装置であり、上述したのと同様の構成を備える。本実施形態では、情報処理装置10も情報処理装置10’もともにデータ送信側及び受信側として機能するものとする。
【0021】
図2は第1の実施形態の情報伝送処理に関る機能構成を説明するブロック図である。
【0022】
まずデータ送信側の機能構成を説明する。図2において、101は人物の顔や体のアニメーションの元となる画像を生成する画像生成部である。画像としては、送信者に似ている人物像を作成してもよいし、送信者とは全く異なったアバタ画像であってもかまわない。いずれにしろ、ここでは、アニメーション自体を行う必要性はなく、人物の骨格や特徴といった点を、静止画で描画し、かつ、アニメーションを行うときに必要となる特徴点(目の位置、口の位置など)を決定してやるだけで良い。
【0023】
102はテキストエディタであり、音声合成の対象となるテキストを編集する。テキスト編集は入力装置15を用いて行えばよい。なお、ここで編集されたテキストには、後述するように合成音声出力時のアニメーションを指定するアニメーションタグが含まれている。103はマルチプレクサであり、画像とテキストをマルチプレクスして、図3のような送信データを生成する。図3は第1の実施形態による送信データのデータ構成例を示す図である。31〜33はアニメーションデータであり、後述するアニメーションタグと対応するものである。34はテキストデータであり、上述のテキストエディタ102によって作成されたものである。104はトランスミッタであり、送信データを、指定された、或いはデータ要求を行ってきた外部の情報処理装置に対して送信する。
【0024】
105は伝送路または回線を示す。なお、伝送路の種類(アナログ、ディジタルなど)は特に限定しない。
【0025】
一方、受信側では上述の送信データを受信して音声及び画像再生を行う。106はレシーバであり、回線105を介して送信されてきた上述の送信データを受信する。107はデマルチプレクサであり、受信した送信データをアニメーションデータ(図3の31〜33)とテキスト(34)に分けるとともに、テキスト34に関してはさらに後述するアニメーションタグ、読み上げ(または表示)を行うためのテキスト情報及びヘッダデータに選別する。
【0026】
110は、送信データをデマルチプレクスして得られたアニメーションデータおよびアニメーションタグ情報を表す。108はアニメータであり、アニメーションデータおよびアニメーションタグ情報に基づいてアニメーション処理を行い、モニタにアニメーション表示を行う。111はテキスト表示部であり、読み上げを行うためのテキスト情報に基づいて表示を行う。112はテキスト読み上げ部であり、読み上げを行うテキスト情報に基づいて音声合成を行い、音声信号を出力する。113はスピーカであり、テキスト読み上げ部112より出力された音声信号により音声を再生する。
【0027】
一方、デマルチプレクサによって選択されたヘッダデータは、人物特定部114に送信され、テキスト読み上げ部112で採用する性別等を決定する。なお、人物特定部114で決定される内容として、男女性別の他に年齢などを入れてもよい。一方、アニメーションに必要なデータ(アニメーションデータ31〜33)は、外部記憶装置115の(実際は磁気ディスクなど)に記憶される。
【0028】
図4はテキストデータの一例とテキスト抽出例を示す図である。(a)に示すのは手紙文の例だが、本来のテキスト情報以外の情報は、タグと呼ばれる<と>で囲まれて記述されている。このような表記はHTML(Hyper Text Markup Language)を摸した表記方法であるが、これは説明の便宜上用いた一例に過ぎず、他のいかなるフォーマットを用いてもかまわない。
【0029】
1〜4行目は、本文の内容とは異なる、受信者のテキスト表示部やテキスト読み上げ部分では扱われない、送信者の情報を記したヘッダである。1行目および4行目では、それぞれヘッダ部と開始と終了を示している。また、2行目では、<NAME>と</NAME>で囲まれた内部に、送信者の名前が記述されている。更に、3行目では、<GENDER>と</GENDER>で囲まれた内部に性別が記述されている。
【0030】
5行目からは手紙の本文である。5行目は、<SMILE>と</SMILE>で囲まれており、このタグで囲まれるテキストを読み上げる際には、笑っているようなアニメーション効果をすることを示す。同様に、6行目(<NORMAL>と</NORMAL>で囲まれた部分)は真顔、7行目(<PAIN>と</PAIN>で囲まれた部分)は苦痛の表情を示す。このように、テキストをタグで囲むことによって、容易にアニメーション情報を伝達することができ、さらには、アニメーションとテキスト読み上げ時の同期をとることも可能になる。
【0031】
なお、図4の(b)はテキスト表示部111によって表示される内容を示している。更に図4の(c)はヘッダデータを示しており、本実施形態の人物特定部114では、性別情報を用いて合成音声の種類(たとえば男性の声)を決定している。
【0032】
図5は第1の実施形態によるアニメーション表示と音声合成処理を説明するフローチャートである。ステップS11においてレシーバ106が送信データを受信すると、ステップS12においてデマルチプレクサ107が送信データをアニメーションとテキストに分離する。そして、ステップS13において、分離されたアニメーションを外部記憶装置115に格納する。
【0033】
また、ステップS14では、ステップS12で分離されたテキストを、さらにヘッダと、読み上げ用のテキストデータ及びアニメーションタグを含むテキスト本文とに分離する。そして、ステップS15では、ステップS14で得られたヘッダ情報に基づき、合成音声の性別等を決定する。
【0034】
以降のステップS16〜ステップS20では、テキスト本文からアニメーションタグ、読み上げ用テキストを抽出し、アニメーションとテキスト読み上げを行うとともに両者の同期を達成する。
【0035】
まず、ステップS16では、テキスト本文より文字列を取り込む。ここでは、例えば、
▲1▼次に取り込むべき文字列が「<」で始まる場合は、「>」が登場するまでの文字列を取り込む。
▲2▼次に取り込むべき文字列が「<」以外で始まる場合は、次の句読点や「?」までの文字列、或いは「<」の直前までの文字列を取り込む。
【0036】
ステップS17ではステップS16で取り込んだデータが「<」と「>」で囲まれたアニメーションタグであるか否かを判定し、アニメーションタグであればステップS19へ進み、当該アニメーションタグで示されるアニメーションデータを選択してアニメータ108に提供する。アニメータ108は提供されたアニメーションデータに従ってアニメーションの表示制御を行う。一方、抽出された文字列がアニメーションタグでなければ、ステップS18へ進み、当該文字列をテキスト読み上げ部112へ提供することにより音声合成を行う。
【0037】
次にステップS20において、テキスト本文中の全文字列について処理を終えたか否かを判定し、未処理の文字列があればステップS16へ戻る。また、すべての文字列について処理を終えていれば本処理を終了する。
【0038】
図6は、アニメーションとテキスト読み上げの移行例を示す図である。図4に示すテキスト本文についてステップS16以降の処理が適用されると、まず、<SMILE>が読み出され、これはアニメーションタグであると判定される。そしてステップS19において<SMILE>に相当するアニメーションを表示する。続いて、「こんにちは。」が読み出され、今度はアニメーションタグではないので、ステップS18において当該テキスト列をテキスト読み上げ部112へ提供する。この結果、図6の(a)に示すように、<SMILE>に相当するアニメーションと、「こんにちは。」という音声出力が実行される。
【0039】
続いて抽出される文字列は「ご機嫌いかがですか?」であり、アニメーションタグではないので、そのままのアニメーションを継続しながら「ご機嫌いかがですか?」という音声合成を行う(ステップS19)。
【0040】
更に、続いて、「</SMILE>」と「<NORMAL>」が抽出され、ステップS19で真顔に対応するアニメーションが選択されて表示される。そして、これに続く文字列が音声合成される(図6の(b))。以下、同様の処理が繰り返された、図6の(c)、(d)に示すアニメーションと音声合成が行われることになる。すなわち、テキストの内容に応じて、順に、笑顔→真顔→泣き顔→真顔と、顔のアニメーションが変化していく。
【0041】
以上説明したように、第1の実施形態によれば、伝送するテキスト情報の中に、人間の顔や体の動きや、喜怒哀楽を表現するアニメーション情報を重畳することにより、アニメーション情報を容易に伝送・表示したり、テキスト読み上げとアニメーション表示を容易に同期させることが可能になる。
【0042】
[第2の実施形態]
上記第1の実施形態では、テキスト読み上げ時にアニメーションを表示するためのアニメーションデータを送信データに含ませているが、アニメーションデータは予め受信側装置に用意されているものを用いるようにしてもよい。
【0043】
図7は第2の実施形態による情報伝送処理に関る機能構成を説明するブロック図である。図2に示した第1の実施形態の機能構成と異なる点は、アニメーションデータを生成する画像生成部101が無く、外部記憶装置415には予めアニメーションデータが格納されている点である。図8は第2の実施形態におけるアニメーションデータの格納状態を示す図である。図8に示されるように、喜怒哀楽を表すアニメーションデータのセットに対して人物特定情報として用いられる属性(名前、性別、メールアドレス)が対応づけられている。
【0044】
図9は、第2の実施形態による情報処理装置のデータ受信時の処理を説明するフローチャートである。図9において、第1の実施形態(図5)と同様の処理を行うステップには同一のステップ番号を付してある。
【0045】
ステップS11でデータを受信すると、ステップS31において、デマルチプレクサ107が受信したテキストデータを本文とヘッダとに分離する。そしてステップS32において、ステップS31で分離されたヘッダに基づいて、発声者とアニメーションデータセットを決定する。すなわち、ヘッダに含まれている名前、性別、メールアドレスにより音声発生時に表示するアニメーションデータを決定する。
【0046】
以下、ステップS16〜S20は第1の実施形態で説明したとおりである。なお、ステップS19では、ステップS32で決定したアニメーションデータセットの中から表示すべきアニメーションデータが選択されることとなる。
【0047】
以上のように、第2の実施形態では、あらかじめ、受信側の外部記憶装置415に蓄積されている顔などのアニメーションデータを、送信者から送られた人物特定情報に基づいて選択する。このため、送信側は、毎回アニメーションデータを送信する必要はなく、テキストとヘッダ・タグ情報のみを伝送するだけで、音声合成出力とアニメーションの同期表示を行うことが可能になる。
【0048】
ここで、人物を特定する情報(名前、性別、電子メールアドレスなど)はテキスト中に重畳される。一方、受信側においては、あらかじめ外部記憶装置415に蓄積されていた特定人物の情報と照合し、合致したアニメーションに必要な静止画像を抽出する。このため、送信側では、人間の顔や体の静止画を送信する必要がなくなり、動きや、喜怒哀楽を表現するアニメーション情報だけを伝送すれば良くなる。
【0049】
[第3の実施形態]
第2の実施形態では、テキストデータに埋め込まれている性別や名前、メールアドレスから適用するアニメーションデータを決定した。しかしながら、このような決定方法では、送信者の名前等とアニメーションデータを予め結びつけておく必要があり、不特定多数の送信者に対応することはできない。そこで、第3の実施形態では、適用すべきアニメーションのアバタに対してより一般的な属性を付与し、不特定多数の送信者からのデータに対応可能とする。
【0050】
図10は第3の実施形態によるテキストデータの一部を示す図である。<HEAD>.....</HEAD>間はテキストのヘッダ部であり、図4の例と同じく送信者情報を示す。また、これに続く<AVATAR>.....</AVATAR>は、アバタの情報を示すタグである。本例では、<FACE>タグで細身の顔を、<HAIR>タグで長髪を、<EYE>タグで青い目を、<OPTION>タグで眼鏡を着用していることを示す。
【0051】
図11は第3の実施形態によるアニメーションデータの格納例を示す図である。図11に示されるように、喜怒哀楽を表すアニメーションデータの各セットに対して顔の形状(<FACE>)、髪の毛の長さや色(<HAIR>)、目の色(<EYE>)、眼鏡の有無(<OPTION>)等を示す属性が付与されている。従って、アニメーション表示に際しては、受信したテキストデータに含まれる<AVATAR>と</AVATAR>で囲まれたアバタの情報から適切なアニメーションのセットを選択し、これを表示する。すなわち、これらのアバタ情報にもっとも適した画像を外部記憶装置415から選択して読み出すことによって、容易にアニメーションを行うことができる。
【0052】
なお、第3の実施形態の処理は第2の実施形態(図9)と類似のものとなる。異なる点は、ステップS31においてテキストデータ本文とヘッダに加えて、<AVATAR>と</AVATAR>で記述された属性情報を取得し、ステップS32において、この属性情報に基づいて図11で示されるデータを検索し、使用すべきアニメーションデータを決定することである。
【0053】
なお、本データは、あくまでアバタの特徴を決定付けるもので、必ずしも送信者の特徴を示すものなくてもかまわないことは明白である。
【0054】
なお、本発明は、複数の機器(例えばホストコンピュータ,インタフェイス機器,リーダ,プリンタなど)から構成されるシステムに適用しても、一つの機器からなる装置(例えば、複写機,ファクシミリ装置など)に適用してもよい。
【0055】
また、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読出し実行することによっても、達成されることは言うまでもない。
【0056】
この場合、記憶媒体から読出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
【0057】
プログラムコードを供給するための記憶媒体としては、例えば、フロッピディスク,ハードディスク,光ディスク,光磁気ディスク,CD−ROM,CD−R,磁気テープ,不揮発性のメモリカード,ROMなどを用いることができる。
【0058】
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0059】
さらに、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0060】
【発明の効果】
以上説明したように本発明によれば、アニメーションデータによるアニメーション表示とテキストデータによるテキスト読み上げとの間の同期を容易かつ正確に行えるようになる。
【0061】
この結果、簡単な手順で、しかも、非常に低レートの伝送路においても、顔や体のアニメーションを伴った、画像・テキストの伝送を行うことが可能となるという効果が得られる。
【0062】
また、本発明によれば、受信側でアニメーションデータを保持させておくことが可能となり、読み上げのためのテキストの送信の度にアニメーションデータを送信しなくても済むようになる。
【図面の簡単な説明】
【図1】本実施形態による情報処理装置の構成例を示すブロック図である。
【図2】第1の実施形態の情報伝送処理に関る機能構成を説明するブロック図である。
【図3】第1の実施形態による送信データのデータ構成例を示す図である。
【図4】テキストデータの一例とテキスト抽出例を示す図である。
【図5】第1の実施形態によるアニメーション表示と音声合成処理を説明するフローチャートである。
【図6】アニメーションとテキスト読み上げの移行例を示す図である。
【図7】第2の実施形態による情報伝送処理に関る機能構成を説明するブロック図である。
【図8】第2の実施形態におけるアニメーションデータの格納状態を示す図である。
【図9】第2の実施形態によるアニメーション表示と音声合成処理を説明するフローチャートである。
【図10】第3の実施形態によるテキストデータの一部を示す図である。
【図11】第3の実施形態によるアニメーションデータの格納例を示す図である。
Claims (8)
- 音声合成のためのテキスト列中に、該テキスト列の一部分を囲むようにして記述されたアニメーション制御情報が配されたデータを受信する受信手段と、
アニメーションデータを格納する格納手段と、
前記受信手段で受信したデータより音声合成のためのテキスト列を抽出し、抽出されたテキスト列に基づいて音声合成をおこなって音声出力する音声出力手段と、
前記音声出力手段によって音声出力されるテキスト列が、前記アニメーション制御情報によって囲まれた部分に含まれるときに、前記アニメーション制御情報に従って前記格納手段に格納されたアニメーションデータの表示を制御する表示制御手段とを備え、
前記アニメーション制御情報は、前記音声合成のためのテキスト列の一部分を囲むようにして記述されたアニメーションの顔の表情を特定するための第1のタグ情報と、アニメーション表示されるアバタの属性を指定するための第2のタグ情報とを含み、
前記表示制御手段は、前記格納手段に格納されたアニメーションデータから前記第2のタグ情報によって指定された属性を有するアバタのアニメーションデータセットを検索し、検索されたアニメーションデータセットから前記第1のタグ情報によって特定された顔の表情に対応するアニメーションデータを選択して表示することを特徴とする情報処理装置。 - 前記音声出力手段は、前記音声合成のためのテキスト列を2つの前記第1のタグ情報に従って抽出することを特徴とする請求項1に記載の情報処理装置。
- 前記第2のタグ情報は、前記アバタの属性を指定する情報として、顔の形状、髪の毛の長さ、髪の毛の色、目の色、眼鏡の有無のうち少なくとも一つを指定する情報を含むことを特徴とする請求項1または2に記載の情報処理装置。
- アニメーションデータを格納する格納手段を備えた情報処理装置の制御方法であって、
受信手段が、音声合成のためのテキスト列中に、該テキスト列の一部分を囲むようにして記述されたアニメーション制御情報が配されたデータを受信する受信工程と、
音声出力手段が、前記受信工程で受信したデータより音声合成のためのテキスト列を抽出し、抽出されたテキスト列に基づいて音声合成をおこなって音声出力する音声出力工程と、
表示制御手段が、前記音声出力工程で音声出力されるテキスト列が、前記アニメーション制御情報によって囲まれた部分に含まれるときに、前記アニメーション制御情報に従って前記格納手段に格納されているアニメーションデータの表示を制御する表示制御工程とを備え、
前記アニメーション制御情報は、前記音声合成のためのテキスト列の一部分を囲むようにして記述されたアニメーションの顔の表情を特定するための第1のタグ情報と、アニメーション表示されるアバタの属性を指定するための第2のタグ情報とを含み、
前記表示制御工程では、前記格納手段に格納されたアニメーションデータから前記第2のタグ情報によって指定された属性を有するアバタのアニメーションデータセットを検索し、検索されたアニメーションデータセットから前記第1のタグ情報によって特定された顔の表情に対応するアニメーションデータを選択して表示することを特徴とする情報処理装置の制御方法。 - 前記音声出力工程では、前記音声合成のためのテキスト列を2つの前記第1のタグ情報に従って抽出することを特徴とする請求項4に記載の情報処理装置の制御方法。
- 前記第2のタグ情報は、前記アバタの属性を指定する情報として、顔の形状、髪の毛の長さ、髪の毛の色、目の色、眼鏡の有無のうち少なくとも一つを指定する情報を含むことを特徴とする請求項4または5に記載の情報処理装置の制御方法。
- 音声合成のためのテキスト列中に、該テキスト列の一部分を囲むようにして記述されたアニメーション制御情報が配されたデータを作成する作成手段と、
前記作成手段で作成されたデータを送信する送信手段と、
前記送信手段によって送信されたデータを受信する受信手段と、
前記受信手段を備えた受信側装置において、アニメーションデータを格納する格納手段と、
前記受信手段で受信したデータより音声合成のためのテキスト列を抽出し、抽出されたテキスト列に基づいて音声合成をおこなって音声出力する音声出力手段と、
前記音声出力手段によって音声出力されるテキスト列の位置が、前記アニメーション制御情報によって囲まれた部分に含まれるときに、前記アニメーション制御情報に従って前記格納手段に格納されたアニメーションデータの表示を制御する表示制御手段とを備え、
前記アニメーション制御情報は、前記音声合成のためのテキスト列の一部分を囲むようにして記述されたアニメーションの顔の表情を特定するための第1のタグ情報と、アニメーション表示されるアバタの属性を指定するための第2のタグ情報とを含み、
前記表示制御手段は、前記格納手段に格納されたアニメーションデータから前記第2のタグ情報によって指定された属性を有するアバタのアニメーションデータセットを検索し、検索されたアニメーションデータセットから前記第1のタグ情報によって特定された顔の表情に対応するアニメーションデータを選択して表示することを特徴とする情報伝送システム。 - 音声合成のためのテキスト列中にアニメーション制御情報が配されたデータに基づいて、コンピュータに音声合成とアニメーション表示を行わせるための制御プログラムを格納する記憶媒体であって、コンピュータを、
音声合成のためのテキスト列中に、該テキスト列の一部分を囲むようにして記述されたアニメーション制御情報が配されたデータを受信する受信手段と、
アニメーションデータを格納する格納手段と、
前記受信手段で受信したデータより音声合成のためのテキスト列を抽出し、抽出されたテキスト列に基づいて音声合成をおこなって音声出力する音声出力手段と、
前記音声出力手段によって音声出力されているテキスト列が、前記アニメーション制御情報によって囲まれた部分に含まれるときに、前記アニメーション制御情報に従って前記格納手段に格納されたアニメーションデータの表示を制御する表示制御手段として機能させ、
前記アニメーション制御情報は、前記音声合成のためのテキスト列の一部分を囲むようにして記述されたアニメーションの顔の表情を特定するための第1のタグ情報と、アニメーション表示されるアバタの属性を指定するための第2のタグ情報とを含み、
前記表示制御手段では、前記第2のタグ情報に従って前記格納手段に格納されたアニメーションデータから前記第2のタグ情報によって指定された属性を有するアバタのアニメーションデータセットを検索し、検索されたアニメーションデータセットから前記第1のタグ情報によって特定された顔の表情に対応するアニメーションデータを選択して表示するように前記コンピュータを機能させる制御プログラムを格納したコンピュータ読み取り可能な記憶媒体。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP29728098A JP4266411B2 (ja) | 1998-10-19 | 1998-10-19 | 情報処理装置及びその制御方法、情報伝送システム、記憶媒体 |
US09/419,622 US6476815B1 (en) | 1998-10-19 | 1999-10-18 | Information processing apparatus and method and information transmission system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP29728098A JP4266411B2 (ja) | 1998-10-19 | 1998-10-19 | 情報処理装置及びその制御方法、情報伝送システム、記憶媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000123191A JP2000123191A (ja) | 2000-04-28 |
JP4266411B2 true JP4266411B2 (ja) | 2009-05-20 |
Family
ID=17844487
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP29728098A Expired - Fee Related JP4266411B2 (ja) | 1998-10-19 | 1998-10-19 | 情報処理装置及びその制御方法、情報伝送システム、記憶媒体 |
Country Status (2)
Country | Link |
---|---|
US (1) | US6476815B1 (ja) |
JP (1) | JP4266411B2 (ja) |
Families Citing this family (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB9715516D0 (en) * | 1997-07-22 | 1997-10-01 | Orange Personal Comm Serv Ltd | Data communications |
JP3720230B2 (ja) * | 2000-02-18 | 2005-11-24 | シャープ株式会社 | 表現データ制御システム、および、それを構成する表現データ制御装置、並びに、そのプログラムが記録された記録媒体 |
US20120105740A1 (en) * | 2000-06-02 | 2012-05-03 | Oakley, Inc. | Eyewear with detachable adjustable electronics module |
JP4529243B2 (ja) * | 2000-06-22 | 2010-08-25 | テクモ株式会社 | 電子メール用送受信システムおよび電子メール用送受信プログラムを記録した媒体 |
US7349946B2 (en) * | 2000-10-02 | 2008-03-25 | Canon Kabushiki Kaisha | Information processing system |
US7091976B1 (en) | 2000-11-03 | 2006-08-15 | At&T Corp. | System and method of customizing animated entities for use in a multi-media communication application |
US6976082B1 (en) | 2000-11-03 | 2005-12-13 | At&T Corp. | System and method for receiving multi-media messages |
US6990452B1 (en) | 2000-11-03 | 2006-01-24 | At&T Corp. | Method for sending multi-media messages using emoticons |
US20080040227A1 (en) | 2000-11-03 | 2008-02-14 | At&T Corp. | System and method of marketing using a multi-media communication system |
US6963839B1 (en) | 2000-11-03 | 2005-11-08 | At&T Corp. | System and method of controlling sound in a multi-media communication application |
US7035803B1 (en) | 2000-11-03 | 2006-04-25 | At&T Corp. | Method for sending multi-media messages using customizable background images |
US7203648B1 (en) | 2000-11-03 | 2007-04-10 | At&T Corp. | Method for sending multi-media messages with customized audio |
EP1267532A3 (en) * | 2001-06-11 | 2007-03-21 | Qript one soft, Inc. | Messaging system |
JP3883904B2 (ja) | 2001-06-15 | 2007-02-21 | シャープ株式会社 | 表示装置及び表示システム |
US7013009B2 (en) | 2001-06-21 | 2006-03-14 | Oakley, Inc. | Eyeglasses with wireless communication features |
JP2003143256A (ja) * | 2001-10-30 | 2003-05-16 | Nec Corp | 端末装置と通信制御方法 |
US7671861B1 (en) * | 2001-11-02 | 2010-03-02 | At&T Intellectual Property Ii, L.P. | Apparatus and method of customizing animated entities for use in a multi-media communication application |
US7224851B2 (en) * | 2001-12-04 | 2007-05-29 | Fujifilm Corporation | Method and apparatus for registering modification pattern of transmission image and method and apparatus for reproducing the same |
JP2003233616A (ja) * | 2002-02-13 | 2003-08-22 | Matsushita Electric Ind Co Ltd | 提供情報提示装置、および情報提供装置 |
JP3939189B2 (ja) * | 2002-04-17 | 2007-07-04 | パナソニック コミュニケーションズ株式会社 | 情報処理装置、製品の組立工程表示用プログラム、及び製品の組立工程表示方法 |
AU2002950502A0 (en) * | 2002-07-31 | 2002-09-12 | E-Clips Intelligent Agent Technologies Pty Ltd | Animated messaging |
JP2004234213A (ja) * | 2003-01-29 | 2004-08-19 | Victor Co Of Japan Ltd | コミュニケーションツール |
TWI220234B (en) * | 2003-10-21 | 2004-08-11 | Ind Tech Res Inst | A method to simulate animated images for an object |
US7176956B2 (en) * | 2004-05-26 | 2007-02-13 | Motorola, Inc. | Video enhancement of an avatar |
JP2006155482A (ja) * | 2004-12-01 | 2006-06-15 | Nec Corp | 携帯型通信端末装置、コンテンツ出力方法、配信サーバとその方法、コンテンツ提供システムとその提供方法 |
KR100706967B1 (ko) * | 2005-02-15 | 2007-04-11 | 에스케이 텔레콤주식회사 | 이동통신망에서 3d 캐릭터를 이용한 뉴스 정보를 제공하는방법 및 시스템 |
CN101046956A (zh) * | 2006-03-28 | 2007-10-03 | 国际商业机器公司 | 交互式音效产生方法及系统 |
US7740353B2 (en) | 2006-12-14 | 2010-06-22 | Oakley, Inc. | Wearable high resolution audio visual interface |
US7447996B1 (en) * | 2008-02-28 | 2008-11-04 | International Business Machines Corporation | System for using gender analysis of names to assign avatars in instant messaging applications |
KR20110114650A (ko) * | 2009-02-18 | 2011-10-19 | 닛본 덴끼 가부시끼가이샤 | 동작 대상 제어 장치, 동작 대상 제어 시스템, 동작 대상 제어 방법 및 프로그램 |
JP2011158915A (ja) * | 2011-03-14 | 2011-08-18 | Seiko Epson Corp | 画像表示システム、画像表示装置、画像表示装置の制御方法、及び画像表示システムによる画像表示方法 |
US9864211B2 (en) | 2012-02-17 | 2018-01-09 | Oakley, Inc. | Systems and methods for removably coupling an electronic device to eyewear |
CN205177388U (zh) | 2013-03-15 | 2016-04-20 | 奥克利有限公司 | 目镜系统 |
WO2014201213A1 (en) | 2013-06-12 | 2014-12-18 | Oakley, Inc. | Modular heads-up display system |
JP2015125613A (ja) * | 2013-12-26 | 2015-07-06 | Kddi株式会社 | アニメーション生成装置、データフォーマット、アニメーション生成方法およびプログラム |
JP6716004B1 (ja) * | 2019-09-30 | 2020-07-01 | 株式会社バーチャルキャスト | 記録装置、再生装置、システム、記録方法、再生方法、記録プログラム、再生プログラム |
US11960792B2 (en) | 2020-10-14 | 2024-04-16 | Sumitomo Electric Industries, Ltd. | Communication assistance program, communication assistance method, communication assistance system, terminal device, and non-verbal expression program |
CN113010138B (zh) * | 2021-03-04 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 文章的语音播放方法、装置、设备及计算机可读存储介质 |
US11985246B2 (en) * | 2021-06-16 | 2024-05-14 | Meta Platforms, Inc. | Systems and methods for protecting identity metrics |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0612401A (ja) * | 1992-06-26 | 1994-01-21 | Fuji Xerox Co Ltd | 感情模擬装置 |
US6250928B1 (en) * | 1998-06-22 | 2001-06-26 | Massachusetts Institute Of Technology | Talking facial display method and apparatus |
US6230111B1 (en) * | 1998-08-06 | 2001-05-08 | Yamaha Hatsudoki Kabushiki Kaisha | Control system for controlling object using pseudo-emotions and pseudo-personality generated in the object |
-
1998
- 1998-10-19 JP JP29728098A patent/JP4266411B2/ja not_active Expired - Fee Related
-
1999
- 1999-10-18 US US09/419,622 patent/US6476815B1/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US6476815B1 (en) | 2002-11-05 |
JP2000123191A (ja) | 2000-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4266411B2 (ja) | 情報処理装置及びその制御方法、情報伝送システム、記憶媒体 | |
JP6019108B2 (ja) | 文字に基づく映像生成 | |
US6961446B2 (en) | Method and device for media editing | |
US6943794B2 (en) | Communication system and communication method using animation and server as well as terminal device used therefor | |
CN110968736B (zh) | 视频生成方法、装置、电子设备及存储介质 | |
US5623587A (en) | Method and apparatus for producing an electronic image | |
EP1269465B1 (en) | Character animation | |
US6662161B1 (en) | Coarticulation method for audio-visual text-to-speech synthesis | |
US20100085363A1 (en) | Photo Realistic Talking Head Creation, Content Creation, and Distribution System and Method | |
JP2014519082A5 (ja) | ||
JP2002150317A (ja) | 映像表示装置 | |
JP2008500573A (ja) | メッセージを変更するための方法及びシステム | |
US7630897B2 (en) | Coarticulation method for audio-visual text-to-speech synthesis | |
KR950030647A (ko) | 화상통신장치 | |
US20030163315A1 (en) | Method and system for generating caricaturized talking heads | |
KR20010072936A (ko) | 정보 스트림의 포스트-동기화 | |
US20040064321A1 (en) | Coarticulation method for audio-visual text-to-speech synthesis | |
JP2006185329A (ja) | 画像合成装置 | |
JP5894505B2 (ja) | 画像コミュニケーションシステム、画像生成装置及びプログラム | |
JP2002342234A (ja) | 表示方法 | |
KR20010017865A (ko) | 아바타 기반 음성 언어 번역 시스템에서의 화상 통신 방법 | |
US10139780B2 (en) | Motion communication system and method | |
US7392190B1 (en) | Coarticulation method for audio-visual text-to-speech synthesis | |
KR20040076524A (ko) | 애니메이션 캐릭터 제작 방법 및 애니메이션 캐릭터를이용한 인터넷 서비스 시스템 | |
KR20190111642A (ko) | 실제 사진의 픽셀 기반의 토킹 헤드 애니메이션을 이용한 영상 처리 시스템 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20051014 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7426 Effective date: 20051014 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20051014 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080418 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080617 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20080722 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20080807 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080808 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081003 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081114 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090106 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090206 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090217 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120227 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130227 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140227 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |