JP4266411B2

JP4266411B2 - 情報処理装置及びその制御方法、情報伝送システム、記憶媒体

Info

Publication number: JP4266411B2
Application number: JP29728098A
Authority: JP
Inventors: 勉安藤
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1998-10-19
Filing date: 1998-10-19
Publication date: 2009-05-20
Anticipated expiration: 2018-10-19
Also published as: US6476815B1; JP2000123191A

Description

【０００１】
【発明の属する技術分野】
本発明は、情報処理装置及び情報伝送システムに関し、特に音声用情報と画像用情報の伝送、受信に好適な情報処理装置及び情報伝送システムに関する。
【０００２】
【従来の技術】
従来より、ＴＶ会議やＴＶ電話等のような音声情報と画像情報の送受信を行う画像・音声伝送システムが知られている。
【０００３】
一般的な画像・音声伝送システムにおいては以下のような制御が行われる。まず、被写体をビデオカメラにより撮影して伝送すべき画像情報を獲得するとともに、マイクによって話者の音声を取り込むことによって伝送すべき音声情報を獲得する。伝送すべき画像情報及び音声情報は、ビデオエンコーダ及びオーディオエンコーダによってそれぞれ符号化（圧縮）される。こうして圧縮された画像及び音声情報はマルチプレクサによって一本化され、圧縮一本化された画像・音声データが伝送される。
【０００４】
一方、上述のようにして伝送された画像・音声データを受信した情報処理装置は、デマルチプレクサによって画像データと音声データに分離し、それぞれを復号化して画像及び音声を再生する。なお、再生時においては、映像と音声の同期がとられる。
【０００５】
符号化の方式については色々な方式が用いられるが、いずれにしろ上記の例は（圧縮された）自然動画および音声データを伝送するものであり、ＴＶ会議や、ＴＶ電話などで広く用いられている。
【０００６】
また、自然画動画データ及び音声データを送信する代わりに、それらをアニメーションデータとテキストデータとして送信することも提案されている。例えば、ビデオカメラで得られた画像から顔や体のアニメーション情報を抽出し、抽象化されたアバタ（化身）を作成してアニメーションデータとする。また、テキストデータは、マイクによって入力された話者音声を認識してテキストに変換することで得る。そして、マルチプレクサによりアバタのアニメーションデータおよびテキストデータがマルチプレクスされ伝送される。
【０００７】
一方、受信側では、アニメーションデータに基づいて顔や体のアニメーション表示を実行するとともに、テキストデータを音声信号に変換して読み上げを行う。当然ながら、アニメーションと音声の同期制御も必要である。
【０００８】
以上の例は、伝送路の帯域（ビットレート）が低いときなどに有効な手法である。
【０００９】
或いは、上記のアニメーションデータやテキストデータを、ビデオカメラやマイクを用いて取り込むようなことを行わず、アニメーション作成器で、顔や体の動きや喜怒哀楽を含むアニメーションデータを一から作成したり、テキストエディタを用いて音声合成すべきテキストを編集したりするようにすることも考えられる。
【００１０】
【発明が解決しようとする課題】
しかしながら、上記の情報伝送システムにおいては以下のような問題があった。
【００１１】
まず、自然動画や音声を圧縮して伝送する方法では、伝走路の帯域が狭い（ビットレートが低い）場合には対応しにくい。
【００１２】
一方、アニメーションデータとテキストデータで情報伝送を行う方法は、ビットレートの低い伝送路に好適であるが、アニメーションデータとテキストデータはそれぞれ完全に独立しており、このためテキストを音声データに変換する際には、アニメーションとの同期をとる必要があるが、アニメーションの表示とテキスト読み上げを正確に同期させるのは困難である。
【００１３】
本発明は上記の問題に鑑みてなされたものであり、その目的とするところは、アニメーションデータによるアニメーション表示とテキストデータによるテキスト読み上げとの間の同期を容易かつ正確に行えるようにすることにある。
【００１４】
また、本発明の他の目的は、受信側でアニメーションデータを保持させておくことを可能とし、読み上げのためのテキストの送信の度にアニメーションデータを送信しなくても済むようにすることにある。
【００１５】
【課題を解決するための手段】
上記の目的を達成するための本発明の一態様による情報処理装置は、例えば以下の構成を備える。すなわち、
音声合成のためのテキスト列中に、該テキスト列の一部分を囲むようにして記述されたアニメーション制御情報が配されたデータを受信する受信手段と、
アニメーションデータを格納する格納手段と、
前記受信手段で受信したデータより音声合成のためのテキスト列を抽出し、抽出されたテキスト列に基づいて音声合成をおこなって音声出力する音声出力手段と、
前記音声出力手段によって音声出力されるテキスト列が、前記アニメーション制御情報によって囲まれた部分に含まれるときに、前記アニメーション制御情報に従って前記格納手段に格納されたアニメーションデータの表示を制御する表示制御手段とを備え、
前記アニメーション制御情報は、前記音声合成のためのテキスト列の一部分を囲むようにして記述されたアニメーションの顔の表情を特定するための第１のタグ情報と、アニメーション表示されるアバタの属性を指定するための第２のタグ情報とを含み、
前記表示制御手段は、前記格納手段に格納されたアニメーションデータから前記第２のタグ情報によって指定された属性を有するアバタのアニメーションデータセットを検索し、検索されたアニメーションデータセットから前記第１のタグ情報によって特定された顔の表情に対応するアニメーションデータを選択して表示する。
【００１６】
また、本発明によれば上記情報処理装置において実現される情報処理方法が提供される。また、本発明によれば該情報処理方法をコンピュータに実現させるための制御プログラムを格納する記憶媒体が提供される。更に、本発明によれば、上記情報処理装置を用いた情報伝送システムが提供される。
【００１７】
【発明の実施の形態】
以下、添付の図面を参照して本発明の好適な実施形態を説明する。
【００１８】
［第１の実施形態］
図１は、本実施形態による情報処理装置の構成例を示すブロック図である。図１において、１０は情報処理装置を指す。また、１１はＣＰＵであり情報処理装置１０の各種制御を実現する。１２はＲＯＭでありＣＰＵ１１が実行する制御プログラムや各種データを格納する。１３はＲＡＭであり、外部記憶装置よりロードされたＣＰＵ１１が実行するための制御プログラムを格納したり、ＣＰＵ１１が各種制御を実行するに際しての作業領域を提供したりする。
【００１９】
１４は表示装置であり、ＣＰＵ１１の制御により各種表示を実現する。１５は入力装置であり、キーボードやポインティングデバイス（マウス等）を含む。また、１６は音声合成装置、１７は回線と情報処理装置１０を接続するためのインターフェース、１８はバスである。
【００２０】
１１３はスピーカであり、音声合成装置１６よりの音声出力を再生する。また、１１５は外部記憶装置である。１０’は情報処理装置１０と回線を介して接続された情報処理装置であり、上述したのと同様の構成を備える。本実施形態では、情報処理装置１０も情報処理装置１０’もともにデータ送信側及び受信側として機能するものとする。
【００２１】
図２は第１の実施形態の情報伝送処理に関る機能構成を説明するブロック図である。
【００２２】
まずデータ送信側の機能構成を説明する。図２において、１０１は人物の顔や体のアニメーションの元となる画像を生成する画像生成部である。画像としては、送信者に似ている人物像を作成してもよいし、送信者とは全く異なったアバタ画像であってもかまわない。いずれにしろ、ここでは、アニメーション自体を行う必要性はなく、人物の骨格や特徴といった点を、静止画で描画し、かつ、アニメーションを行うときに必要となる特徴点（目の位置、口の位置など）を決定してやるだけで良い。
【００２３】
１０２はテキストエディタであり、音声合成の対象となるテキストを編集する。テキスト編集は入力装置１５を用いて行えばよい。なお、ここで編集されたテキストには、後述するように合成音声出力時のアニメーションを指定するアニメーションタグが含まれている。１０３はマルチプレクサであり、画像とテキストをマルチプレクスして、図３のような送信データを生成する。図３は第１の実施形態による送信データのデータ構成例を示す図である。３１〜３３はアニメーションデータであり、後述するアニメーションタグと対応するものである。３４はテキストデータであり、上述のテキストエディタ１０２によって作成されたものである。１０４はトランスミッタであり、送信データを、指定された、或いはデータ要求を行ってきた外部の情報処理装置に対して送信する。
【００２４】
１０５は伝送路または回線を示す。なお、伝送路の種類（アナログ、ディジタルなど）は特に限定しない。
【００２５】
一方、受信側では上述の送信データを受信して音声及び画像再生を行う。１０６はレシーバであり、回線１０５を介して送信されてきた上述の送信データを受信する。１０７はデマルチプレクサであり、受信した送信データをアニメーションデータ（図３の３１〜３３）とテキスト（３４）に分けるとともに、テキスト３４に関してはさらに後述するアニメーションタグ、読み上げ（または表示）を行うためのテキスト情報及びヘッダデータに選別する。
【００２６】
１１０は、送信データをデマルチプレクスして得られたアニメーションデータおよびアニメーションタグ情報を表す。１０８はアニメータであり、アニメーションデータおよびアニメーションタグ情報に基づいてアニメーション処理を行い、モニタにアニメーション表示を行う。１１１はテキスト表示部であり、読み上げを行うためのテキスト情報に基づいて表示を行う。１１２はテキスト読み上げ部であり、読み上げを行うテキスト情報に基づいて音声合成を行い、音声信号を出力する。１１３はスピーカであり、テキスト読み上げ部１１２より出力された音声信号により音声を再生する。
【００２７】
一方、デマルチプレクサによって選択されたヘッダデータは、人物特定部１１４に送信され、テキスト読み上げ部１１２で採用する性別等を決定する。なお、人物特定部１１４で決定される内容として、男女性別の他に年齢などを入れてもよい。一方、アニメーションに必要なデータ（アニメーションデータ３１〜３３）は、外部記憶装置１１５の（実際は磁気ディスクなど）に記憶される。
【００２８】
図４はテキストデータの一例とテキスト抽出例を示す図である。（ａ）に示すのは手紙文の例だが、本来のテキスト情報以外の情報は、タグと呼ばれる<と>で囲まれて記述されている。このような表記はＨＴＭＬ(Hyper Text Markup Language)を摸した表記方法であるが、これは説明の便宜上用いた一例に過ぎず、他のいかなるフォーマットを用いてもかまわない。
【００２９】
１〜４行目は、本文の内容とは異なる、受信者のテキスト表示部やテキスト読み上げ部分では扱われない、送信者の情報を記したヘッダである。１行目および４行目では、それぞれヘッダ部と開始と終了を示している。また、２行目では、<NAME>と</NAME>で囲まれた内部に、送信者の名前が記述されている。更に、３行目では、<GENDER>と</GENDER>で囲まれた内部に性別が記述されている。
【００３０】
５行目からは手紙の本文である。５行目は、<SMILE>と</SMILE>で囲まれており、このタグで囲まれるテキストを読み上げる際には、笑っているようなアニメーション効果をすることを示す。同様に、６行目（<NORMAL>と</NORMAL>で囲まれた部分）は真顔、７行目（<PAIN>と</PAIN>で囲まれた部分）は苦痛の表情を示す。このように、テキストをタグで囲むことによって、容易にアニメーション情報を伝達することができ、さらには、アニメーションとテキスト読み上げ時の同期をとることも可能になる。
【００３１】
なお、図４の（ｂ）はテキスト表示部１１１によって表示される内容を示している。更に図４の（ｃ）はヘッダデータを示しており、本実施形態の人物特定部１１４では、性別情報を用いて合成音声の種類（たとえば男性の声）を決定している。
【００３２】
図５は第１の実施形態によるアニメーション表示と音声合成処理を説明するフローチャートである。ステップＳ１１においてレシーバ１０６が送信データを受信すると、ステップＳ１２においてデマルチプレクサ１０７が送信データをアニメーションとテキストに分離する。そして、ステップＳ１３において、分離されたアニメーションを外部記憶装置１１５に格納する。
【００３３】
また、ステップＳ１４では、ステップＳ１２で分離されたテキストを、さらにヘッダと、読み上げ用のテキストデータ及びアニメーションタグを含むテキスト本文とに分離する。そして、ステップＳ１５では、ステップＳ１４で得られたヘッダ情報に基づき、合成音声の性別等を決定する。
【００３４】
以降のステップＳ１６〜ステップＳ２０では、テキスト本文からアニメーションタグ、読み上げ用テキストを抽出し、アニメーションとテキスト読み上げを行うとともに両者の同期を達成する。
【００３５】
まず、ステップＳ１６では、テキスト本文より文字列を取り込む。ここでは、例えば、
▲１▼次に取り込むべき文字列が「<」で始まる場合は、「>」が登場するまでの文字列を取り込む。
▲２▼次に取り込むべき文字列が「<」以外で始まる場合は、次の句読点や「？」までの文字列、或いは「<」の直前までの文字列を取り込む。
【００３６】
ステップＳ１７ではステップＳ１６で取り込んだデータが「<」と「>」で囲まれたアニメーションタグであるか否かを判定し、アニメーションタグであればステップＳ１９へ進み、当該アニメーションタグで示されるアニメーションデータを選択してアニメータ１０８に提供する。アニメータ１０８は提供されたアニメーションデータに従ってアニメーションの表示制御を行う。一方、抽出された文字列がアニメーションタグでなければ、ステップＳ１８へ進み、当該文字列をテキスト読み上げ部１１２へ提供することにより音声合成を行う。
【００３７】
次にステップＳ２０において、テキスト本文中の全文字列について処理を終えたか否かを判定し、未処理の文字列があればステップＳ１６へ戻る。また、すべての文字列について処理を終えていれば本処理を終了する。
【００３８】
図６は、アニメーションとテキスト読み上げの移行例を示す図である。図４に示すテキスト本文についてステップＳ１６以降の処理が適用されると、まず、<SMILE>が読み出され、これはアニメーションタグであると判定される。そしてステップＳ１９において<SMILE>に相当するアニメーションを表示する。続いて、「こんにちは。」が読み出され、今度はアニメーションタグではないので、ステップＳ１８において当該テキスト列をテキスト読み上げ部１１２へ提供する。この結果、図６の（ａ）に示すように、<SMILE>に相当するアニメーションと、「こんにちは。」という音声出力が実行される。
【００３９】
続いて抽出される文字列は「ご機嫌いかがですか？」であり、アニメーションタグではないので、そのままのアニメーションを継続しながら「ご機嫌いかがですか？」という音声合成を行う（ステップＳ１９）。
【００４０】
更に、続いて、「</SMILE>」と「<NORMAL>」が抽出され、ステップＳ１９で真顔に対応するアニメーションが選択されて表示される。そして、これに続く文字列が音声合成される（図６の（ｂ））。以下、同様の処理が繰り返された、図６の（ｃ）、（ｄ）に示すアニメーションと音声合成が行われることになる。すなわち、テキストの内容に応じて、順に、笑顔→真顔→泣き顔→真顔と、顔のアニメーションが変化していく。
【００４１】
以上説明したように、第１の実施形態によれば、伝送するテキスト情報の中に、人間の顔や体の動きや、喜怒哀楽を表現するアニメーション情報を重畳することにより、アニメーション情報を容易に伝送・表示したり、テキスト読み上げとアニメーション表示を容易に同期させることが可能になる。
【００４２】
［第２の実施形態］
上記第１の実施形態では、テキスト読み上げ時にアニメーションを表示するためのアニメーションデータを送信データに含ませているが、アニメーションデータは予め受信側装置に用意されているものを用いるようにしてもよい。
【００４３】
図７は第２の実施形態による情報伝送処理に関る機能構成を説明するブロック図である。図２に示した第１の実施形態の機能構成と異なる点は、アニメーションデータを生成する画像生成部１０１が無く、外部記憶装置４１５には予めアニメーションデータが格納されている点である。図８は第２の実施形態におけるアニメーションデータの格納状態を示す図である。図８に示されるように、喜怒哀楽を表すアニメーションデータのセットに対して人物特定情報として用いられる属性（名前、性別、メールアドレス）が対応づけられている。
【００４４】
図９は、第２の実施形態による情報処理装置のデータ受信時の処理を説明するフローチャートである。図９において、第１の実施形態（図５）と同様の処理を行うステップには同一のステップ番号を付してある。
【００４５】
ステップＳ１１でデータを受信すると、ステップＳ３１において、デマルチプレクサ１０７が受信したテキストデータを本文とヘッダとに分離する。そしてステップＳ３２において、ステップＳ３１で分離されたヘッダに基づいて、発声者とアニメーションデータセットを決定する。すなわち、ヘッダに含まれている名前、性別、メールアドレスにより音声発生時に表示するアニメーションデータを決定する。
【００４６】
以下、ステップＳ１６〜Ｓ２０は第１の実施形態で説明したとおりである。なお、ステップＳ１９では、ステップＳ３２で決定したアニメーションデータセットの中から表示すべきアニメーションデータが選択されることとなる。
【００４７】
以上のように、第２の実施形態では、あらかじめ、受信側の外部記憶装置４１５に蓄積されている顔などのアニメーションデータを、送信者から送られた人物特定情報に基づいて選択する。このため、送信側は、毎回アニメーションデータを送信する必要はなく、テキストとヘッダ・タグ情報のみを伝送するだけで、音声合成出力とアニメーションの同期表示を行うことが可能になる。
【００４８】
ここで、人物を特定する情報（名前、性別、電子メールアドレスなど）はテキスト中に重畳される。一方、受信側においては、あらかじめ外部記憶装置４１５に蓄積されていた特定人物の情報と照合し、合致したアニメーションに必要な静止画像を抽出する。このため、送信側では、人間の顔や体の静止画を送信する必要がなくなり、動きや、喜怒哀楽を表現するアニメーション情報だけを伝送すれば良くなる。
【００４９】
［第３の実施形態］
第２の実施形態では、テキストデータに埋め込まれている性別や名前、メールアドレスから適用するアニメーションデータを決定した。しかしながら、このような決定方法では、送信者の名前等とアニメーションデータを予め結びつけておく必要があり、不特定多数の送信者に対応することはできない。そこで、第３の実施形態では、適用すべきアニメーションのアバタに対してより一般的な属性を付与し、不特定多数の送信者からのデータに対応可能とする。
【００５０】
図１０は第３の実施形態によるテキストデータの一部を示す図である。<HEAD>.....</HEAD>間はテキストのヘッダ部であり、図４の例と同じく送信者情報を示す。また、これに続く<AVATAR>.....</AVATAR>は、アバタの情報を示すタグである。本例では、<FACE>タグで細身の顔を、<HAIR>タグで長髪を、<EYE>タグで青い目を、<OPTION>タグで眼鏡を着用していることを示す。
【００５１】
図１１は第３の実施形態によるアニメーションデータの格納例を示す図である。図１１に示されるように、喜怒哀楽を表すアニメーションデータの各セットに対して顔の形状（<FACE>）、髪の毛の長さや色（<HAIR>）、目の色（<EYE>）、眼鏡の有無（<OPTION>）等を示す属性が付与されている。従って、アニメーション表示に際しては、受信したテキストデータに含まれる<AVATAR>と</AVATAR>で囲まれたアバタの情報から適切なアニメーションのセットを選択し、これを表示する。すなわち、これらのアバタ情報にもっとも適した画像を外部記憶装置４１５から選択して読み出すことによって、容易にアニメーションを行うことができる。
【００５２】
なお、第３の実施形態の処理は第２の実施形態（図９）と類似のものとなる。異なる点は、ステップＳ３１においてテキストデータ本文とヘッダに加えて、＜ＡＶＡＴＡＲ＞と＜／ＡＶＡＴＡＲ＞で記述された属性情報を取得し、ステップＳ３２において、この属性情報に基づいて図１１で示されるデータを検索し、使用すべきアニメーションデータを決定することである。
【００５３】
なお、本データは、あくまでアバタの特徴を決定付けるもので、必ずしも送信者の特徴を示すものなくてもかまわないことは明白である。
【００５４】
なお、本発明は、複数の機器（例えばホストコンピュータ，インタフェイス機器，リーダ，プリンタなど）から構成されるシステムに適用しても、一つの機器からなる装置（例えば、複写機，ファクシミリ装置など）に適用してもよい。
【００５５】
また、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ（またはＣＰＵやＭＰＵ）が記憶媒体に格納されたプログラムコードを読出し実行することによっても、達成されることは言うまでもない。
【００５６】
この場合、記憶媒体から読出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
【００５７】
プログラムコードを供給するための記憶媒体としては、例えば、フロッピディスク，ハードディスク，光ディスク，光磁気ディスク，ＣＤ−ＲＯＭ，ＣＤ−Ｒ，磁気テープ，不揮発性のメモリカード，ＲＯＭなどを用いることができる。
【００５８】
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているＯＳ（オペレーティングシステム）などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【００５９】
さらに、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【００６０】
【発明の効果】
以上説明したように本発明によれば、アニメーションデータによるアニメーション表示とテキストデータによるテキスト読み上げとの間の同期を容易かつ正確に行えるようになる。
【００６１】
この結果、簡単な手順で、しかも、非常に低レートの伝送路においても、顔や体のアニメーションを伴った、画像・テキストの伝送を行うことが可能となるという効果が得られる。
【００６２】
また、本発明によれば、受信側でアニメーションデータを保持させておくことが可能となり、読み上げのためのテキストの送信の度にアニメーションデータを送信しなくても済むようになる。
【図面の簡単な説明】
【図１】本実施形態による情報処理装置の構成例を示すブロック図である。
【図２】第１の実施形態の情報伝送処理に関る機能構成を説明するブロック図である。
【図３】第１の実施形態による送信データのデータ構成例を示す図である。
【図４】テキストデータの一例とテキスト抽出例を示す図である。
【図５】第１の実施形態によるアニメーション表示と音声合成処理を説明するフローチャートである。
【図６】アニメーションとテキスト読み上げの移行例を示す図である。
【図７】第２の実施形態による情報伝送処理に関る機能構成を説明するブロック図である。
【図８】第２の実施形態におけるアニメーションデータの格納状態を示す図である。
【図９】第２の実施形態によるアニメーション表示と音声合成処理を説明するフローチャートである。
【図１０】第３の実施形態によるテキストデータの一部を示す図である。
【図１１】第３の実施形態によるアニメーションデータの格納例を示す図である。

Claims

音声合成のためのテキスト列中に、該テキスト列の一部分を囲むようにして記述されたアニメーション制御情報が配されたデータを受信する受信手段と、
アニメーションデータを格納する格納手段と、
前記受信手段で受信したデータより音声合成のためのテキスト列を抽出し、抽出されたテキスト列に基づいて音声合成をおこなって音声出力する音声出力手段と、
前記音声出力手段によって音声出力されるテキスト列が、前記アニメーション制御情報によって囲まれた部分に含まれるときに、前記アニメーション制御情報に従って前記格納手段に格納されたアニメーションデータの表示を制御する表示制御手段とを備え、
前記アニメーション制御情報は、前記音声合成のためのテキスト列の一部分を囲むようにして記述されたアニメーションの顔の表情を特定するための第１のタグ情報と、アニメーション表示されるアバタの属性を指定するための第２のタグ情報とを含み、
前記表示制御手段は、前記格納手段に格納されたアニメーションデータから前記第２のタグ情報によって指定された属性を有するアバタのアニメーションデータセットを検索し、検索されたアニメーションデータセットから前記第１のタグ情報によって特定された顔の表情に対応するアニメーションデータを選択して表示することを特徴とする情報処理装置。
前記音声出力手段は、前記音声合成のためのテキスト列を２つの前記第１のタグ情報に従って抽出することを特徴とする請求項１に記載の情報処理装置。
前記第２のタグ情報は、前記アバタの属性を指定する情報として、顔の形状、髪の毛の長さ、髪の毛の色、目の色、眼鏡の有無のうち少なくとも一つを指定する情報を含むことを特徴とする請求項１または２に記載の情報処理装置。
アニメーションデータを格納する格納手段を備えた情報処理装置の制御方法であって、
受信手段が、音声合成のためのテキスト列中に、該テキスト列の一部分を囲むようにして記述されたアニメーション制御情報が配されたデータを受信する受信工程と、
音声出力手段が、前記受信工程で受信したデータより音声合成のためのテキスト列を抽出し、抽出されたテキスト列に基づいて音声合成をおこなって音声出力する音声出力工程と、
表示制御手段が、前記音声出力工程で音声出力されるテキスト列が、前記アニメーション制御情報によって囲まれた部分に含まれるときに、前記アニメーション制御情報に従って前記格納手段に格納されているアニメーションデータの表示を制御する表示制御工程とを備え、
前記アニメーション制御情報は、前記音声合成のためのテキスト列の一部分を囲むようにして記述されたアニメーションの顔の表情を特定するための第１のタグ情報と、アニメーション表示されるアバタの属性を指定するための第２のタグ情報とを含み、
前記表示制御工程では、前記格納手段に格納されたアニメーションデータから前記第２のタグ情報によって指定された属性を有するアバタのアニメーションデータセットを検索し、検索されたアニメーションデータセットから前記第１のタグ情報によって特定された顔の表情に対応するアニメーションデータを選択して表示することを特徴とする情報処理装置の制御方法。
前記音声出力工程では、前記音声合成のためのテキスト列を２つの前記第１のタグ情報に従って抽出することを特徴とする請求項４に記載の情報処理装置の制御方法。
前記第２のタグ情報は、前記アバタの属性を指定する情報として、顔の形状、髪の毛の長さ、髪の毛の色、目の色、眼鏡の有無のうち少なくとも一つを指定する情報を含むことを特徴とする請求項４または５に記載の情報処理装置の制御方法。
音声合成のためのテキスト列中に、該テキスト列の一部分を囲むようにして記述されたアニメーション制御情報が配されたデータを作成する作成手段と、
前記作成手段で作成されたデータを送信する送信手段と、
前記送信手段によって送信されたデータを受信する受信手段と、
前記受信手段を備えた受信側装置において、アニメーションデータを格納する格納手段と、
前記受信手段で受信したデータより音声合成のためのテキスト列を抽出し、抽出されたテキスト列に基づいて音声合成をおこなって音声出力する音声出力手段と、
前記音声出力手段によって音声出力されるテキスト列の位置が、前記アニメーション制御情報によって囲まれた部分に含まれるときに、前記アニメーション制御情報に従って前記格納手段に格納されたアニメーションデータの表示を制御する表示制御手段とを備え、
前記アニメーション制御情報は、前記音声合成のためのテキスト列の一部分を囲むようにして記述されたアニメーションの顔の表情を特定するための第１のタグ情報と、アニメーション表示されるアバタの属性を指定するための第２のタグ情報とを含み、
前記表示制御手段は、前記格納手段に格納されたアニメーションデータから前記第２のタグ情報によって指定された属性を有するアバタのアニメーションデータセットを検索し、検索されたアニメーションデータセットから前記第１のタグ情報によって特定された顔の表情に対応するアニメーションデータを選択して表示することを特徴とする情報伝送システム。
音声合成のためのテキスト列中にアニメーション制御情報が配されたデータに基づいて、コンピュータに音声合成とアニメーション表示を行わせるための制御プログラムを格納する記憶媒体であって、コンピュータを、
音声合成のためのテキスト列中に、該テキスト列の一部分を囲むようにして記述されたアニメーション制御情報が配されたデータを受信する受信手段と、
アニメーションデータを格納する格納手段と、
前記受信手段で受信したデータより音声合成のためのテキスト列を抽出し、抽出されたテキスト列に基づいて音声合成をおこなって音声出力する音声出力手段と、
前記音声出力手段によって音声出力されているテキスト列が、前記アニメーション制御情報によって囲まれた部分に含まれるときに、前記アニメーション制御情報に従って前記格納手段に格納されたアニメーションデータの表示を制御する表示制御手段として機能させ、
前記アニメーション制御情報は、前記音声合成のためのテキスト列の一部分を囲むようにして記述されたアニメーションの顔の表情を特定するための第１のタグ情報と、アニメーション表示されるアバタの属性を指定するための第２のタグ情報とを含み、
前記表示制御手段では、前記第２のタグ情報に従って前記格納手段に格納されたアニメーションデータから前記第２のタグ情報によって指定された属性を有するアバタのアニメーションデータセットを検索し、検索されたアニメーションデータセットから前記第１のタグ情報によって特定された顔の表情に対応するアニメーションデータを選択して表示するように前記コンピュータを機能させる制御プログラムを格納したコンピュータ読み取り可能な記憶媒体。