JP6222465B2

JP6222465B2 - アニメーション生成装置、アニメーション生成方法およびプログラム

Info

Publication number: JP6222465B2
Application number: JP2014055203A
Authority: JP
Inventors: 伸也高山; 池田　和史; 和史池田; 茂之酒澤
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2014-03-18
Filing date: 2014-03-18
Publication date: 2017-11-01
Anticipated expiration: 2034-03-18
Also published as: JP2015176592A

Description

本発明は、話題性の高いニュースおよびニュースに対するコメントをＷＥＢ（World Wide Web）サイトから抽出すると共に、適切なアニメーションを持つキャラクタがニュースおよびコメントを提示するする技術に関する。

従来から、キャラクタを利用してニュース情報を提供する技術が知られている。例えば、特許文献１には、リアルタイムに伝えられるニュース情報を音声に変換し、音声に対応する口形態と顔表情をキャタクタに適用して、キャタクタニュースを生成するシステムが開示されている。

また、特許文献２には、ニュースに関連するＳＮＳ（Social Networking Service）のコメントを複数の指標に基づいて評価し、ニュースに合わせて各指標の重みを設定することで最適なＳＮＳのコメント提示順序を決定する技術が開示されている。

特許第４４８９１２１号明細書特許第４１３４９７５号明細書

しかしながら、特許文献１に開示されている技術では、予め定められたキャラクタがニュースを読み上げるアニメーションは生成できるが、ＳＮＳ等で表現されるニュースに対するコメント内容やそのコメントに含まれる感情表現を組み合わせた適切なアニメーションは生成できない。

一方、特許文献２に開示されている技術では、話題性の高いニュースまたはコメントを抽出することは可能だが、それらに適合したアニメーションを持つキャラクタによって、ニュースまたはコメントを提示することは困難である。

本発明は、このような事情に鑑みてなされたものであり、話題性の高いニュースおよびニュースに対するコメントをＷＥＢサイトから抽出すると共に、適切なアニメーションを持つキャラクタが、ニュースだけでなくニュースに対するコメントまでも提示するアニメーション生成装置、アニメーション生成方法およびプログラムを提供することを目的とする。また、本発明では、ニュースに対するコメントを予め集約することで、集約されたコメントを踏まえたアニメーションを持つキャラクタによるニュース本文の提示が可能となる。さらに、本発明は、表情変化だけでなくキャラクタの全身動作を加えることで、テレビ局が制作する本当のニュース番組に近いコンテンツを提供することができる。

（１）上記の目的を達成するために、本発明は、以下のような手段を講じた。すなわち、本発明のアニメーション生成装置は、任意の情報に基づいて、キャラクタのアニメーションを生成するアニメーション生成装置であって、解析された任意の複数の入力データに含まれる感情または主観度の動的特徴量に基づいて、時間的アニメーションを生成する時間的アニメーション生成部と、解析された前記複数の入力データに含まれる感情または主観度の静的特徴量に基づいて、空間的アニメーションを生成する空間的アニメーション生成部と、を備えることを特徴とする。

このように、解析された任意の複数の入力データに含まれる感情または主観度の動的特徴量に基づいて、時間的アニメーションを生成し、また、解析された前記複数の入力データに含まれる感情または主観度の静的特徴量に基づいて、空間的アニメーションを生成するので、入力された情報に応じて、適切なアニメーションを有するキャラクタを作成することが可能となる。

（２）また、本発明のアニメーション生成装置は、前記入力データをＷＥＢ（World Wide Web）サイトから抽出する情報抽出部を更に備えることを特徴とする。

このように、入力データをＷＥＢサイトから抽出するので、ＳＮＳ等で表現されるニュースに対するコメント内容に応じたキャラクタのアニメーションを生成することが可能となる。

（３）また、本発明のアニメーション生成装置は、前記複数の入力データにおける感情または主観度を解析する入力データ解析部を更に備えることを特徴とする。

このように、複数の入力データにおける感情または主観度を解析するので、ＳＮＳ等で表現されるニュースに対するコメントに含まれる感情表現に応じたキャラクタのアニメーションを生成することが可能となる。

（４）また、本発明のアニメーション生成装置は、前記入力データを提示すると共に、前記生成されたキャラクタのアニメーションを再生するキャラクタ再生部を更に備えることを特徴とする。

このように、入力データを提示すると共に、生成されたキャラクタのアニメーションを再生するので、入力された情報に応じて、適切なアニメーションを有するキャラクタを表示することが可能となる。

（５）また、本発明のアニメーション生成装置は、ナレータが読み上げた前記入力データの音声を取得する音声収録部を更に備えることを特徴とする。

このように、ナレータが読み上げた前記入力データの音声を取得するので、人間の声に基づいた音声の再生を行なうことが可能となる。

（６）また、本発明のアニメーション生成装置は、前記入力データに対応する音声データを合成する音声合成部を更に備えることを特徴とする。

このように、入力データに対応する音声データを合成するので、人工的に音声を作り上げることが可能となる。また、ナレータによる読み上げが不要となるため、製作コストを削減することが可能となる。

（７）また、本発明のアニメーション生成装置は、前記生成されたキャラクタのアニメーションと共に、前記取得された音声または前記合成された音声を再生する音声再生部を更に備えることを特徴とする。

このように、生成されたキャラクタのアニメーションと共に、取得された音声または合成された音声を再生するので、キャラクタのアニメーションと共に、音声を出力することができる。これにより、例えば、ニュースキャスターのキャラクタにニュースを読ませるサービスを提供することが可能となる。

（８）また、本発明のアニメーション生成装置は、前記入力データの音声の有音区間を検出し、前記キャラクタの台詞の開始時刻および前記台詞の終了時刻を判定する台詞時刻判定部を更に備えることを特徴とする。

このように、入力データの音声の有音区間を検出し、前記キャラクタの台詞の開始時刻および前記台詞の終了時刻を判定するので、音声を入力した場合であってもキャラクタが読み上げる台詞（テキスト）データを生成することが可能となる。

（９）また、本発明のアニメーション生成装置は、前記台詞の開始時刻および前記台詞の終了時刻に応じて、前記アニメーションデータを変換する時間長調整部を更に備えることを特徴とする。

このように、台詞の開始時刻および前記台詞の終了時刻に応じて、アニメーションデータを変換するので、キャラクタの台詞が動的に生成される場合であっても、画像信号と音声信号の同期ズレを解消して、キャラクタのアニメーションを生成することができる。

（１０）また、本発明のアニメーション生成装置において、前記アニメーションは、前記キャラクタが全身動作または表情変化する際の、任意の時刻における前記キャラクタの任意のボーン（bone）またはポリゴン（polygon）の空間座標であることを特徴とする。

このように、アニメーションは、キャラクタのボーン（bone）またはポリゴン（polygon）の任意の時刻における空間座標を示すデータであるので、台詞に応じた複雑なアニメーションを持つキャラクタを生成することができる。

（１１）また、本発明のアニメーション生成方法は、任意の情報に基づいて、キャラクタのアニメーションを生成するアニメーション生成方法であって、解析された任意の複数の入力データに含まれる感情または主観度の動的特徴量に基づいて、時間的アニメーションを生成するステップと、解析された前記複数の入力データに含まれる感情または主観度の静的特徴量に基づいて、空間的アニメーションを生成するステップと、を少なくとも含むことを特徴とする。

（１２）また、本発明のプログラムは、任意の情報に基づいて、キャラクタのアニメーションを生成するアニメーション生成装置のプログラムであって、解析された任意の複数の入力データに含まれる感情または主観度の動的特徴量に基づいて、時間的アニメーションを生成する処理と、解析された前記複数の入力データに含まれる感情または主観度の静的特徴量に基づいて、空間的アニメーションを生成する処理と、の一連の処理をコンピュータに実行させることを特徴とする。

本発明によれば、入力された情報に応じて、適切なアニメーションを有するキャラクタを作成することが可能となる。

第１の実施形態に係るキャラクタ情報提示装置の概略構成を示す図である。第１の実施形態に係るキャラクタ情報提示装置の機能を示すブロック図である。第１の実施形態に係るキャラクタ情報提示装置の動作を示すフローチャートである。第２の実施形態に係るアニメーション生成装置の概略構成を示す図である。第２の実施形態に係るアニメーション生成装置の機能を示すブロック図である。第２の実施形態に係るアニメーション生成装置の動作を示すフローチャートである。テキストデータ、開始時刻および終了時刻から構成される台詞データを示す図である。アニメーションデータを示す図である。感情データを示す図である。第２の実施形態に係るデータフォーマットを示す図である。

［第１の実施形態］
本発明の実施形態に係るキャラクタ情報提示装置は、任意の情報をＷＥＢサイトから抽出して入力し、複数の入力データにおける感情または主観度を解析し、解析された複数の入力データに含まれる感情または主観度の動的特徴量に基づいて時間的アニメーションを生成し、解析された前記複数の入力データに含まれる感情または主観度の静的特徴量に基づいて空間的アニメーションを生成し、入力データを提示すると共に、生成されたキャラクタのアニメーションを再生する。

この構成により、入力データがＳＮＳのコメント群のような砕けたテキストデータであっても、適切なアニメーションを持つキャラクタにより提示することができる。また、複数の入力データを包括的に解析すれば、コメント群を反映したニュース本文の提示のように、集約されたデータを踏まえたアニメーションを持つキャラクタによる情報提示が可能となる。さらに、キャラクタのアニメーションとして、キャラクタが全身動作または表情変化する際の、任意の時刻におけるキャラクタの任意のボーンまたはポリゴンの空間座標を制御すれば、テレビ局が制作する本当のニュース番組に近いコンテンツを提供することができる。

なお、本実施形態では、ＷＥＢ上のニュースおよびコメント群を用いるが、本発明の技術的思想は、これに限定されるわけではなく、ＳＮＳ上コミュニティー内の発言、メッセンジャーによるチャットでの発言、各種紹介サイトにおける口コミ、街角インタビュの結果、交通機関の運行情報・状態情報、気象情報、占い・運勢を用いても十分である。

図１は、本実施形態に係るキャラクタ情報提示装置の概略構成を示す図である。キャラクタ情報提示装置１は、ニュース抽出サーバ１０と、スピーカ２０、ディスプレイ３０と、ＰＣ（Personal Computer）４０とから構成されている。まず、ニュース抽出サーバ１０は、話題性の高いニュースおよびコメント群をＷＥＢサイトから抽出し、ニュースデータ５０およびコメントデータ６０としてＰＣ４０に入力する。なお、図１では、ニュース抽出サーバ１０が、ＰＣ４０に接続されているが、本発明の技術的思想は、これに限定されるわけではなく、ＰＣに対してオフラインによりニュースデータ５０またはコメントデータ６０を入力しても十分である。

一方、ＰＣ４０は、ケーブル４０ａを介してキャラクタ情報提示装置としてのスピーカ２０およびディスプレイ３０に接続されている。ＰＣ４０は、入力されたニュースデータ５０およびコメントデータ６０における感情データ８０または主観度９０を解析する。また、ＰＣ４０は、解析された感情データ８０または主観度９０に含まれる感情または主観度の動的特徴量に基づいて時間的アニメーションデータ７０−１を生成する。さらに、ＰＣ４０は、解析された感情データ８０または主観度９０に含まれる感情または主観度の静的特徴量に基づいて空間的アニメーションデータ７０−２を生成する。そして、ＰＣ４０は、入力されたニュースデータ５０およびコメントデータ６０および生成されたキャラクタの時間的アニメーションデータ７０−１および空間的アニメーションデータ７０−２における画像信号を随時ディスプレイ３０に発信する。

その際、ＰＣ４０から発信された画像はディスプレイ３０にＡ１として映写される。なお、本発明の実施形態に係るキャラクタ情報提示装置では、入力されたニュースデータ５０およびコメントデータ６０の音声を予め収録または合成し、キャラクタの時間的アニメーションデータ７０−１および空間的アニメーションデータ７０−２の映写と同時に、収録音声信号または合成音声信号を随時スピーカ２０に発信するが、音声信号を発信しなくても良い。例えば、キャラクタが表示され、いわゆる“口パク”のように、音声がミュートされ、字幕が表示されている態様である。

図２は、第１の実施形態に係るキャラクタ情報提示装置１の機能を示すブロック図である。ニュース抽出サーバ１０のニュース抽出部１０−１は、話題性の高いニュースおよびコメント群をＷＥＢサイトから抽出し、ニュースデータ５０およびコメントデータ６０としてＰＣ４０に入力する。

ＰＣ４０の入力データ解析部４０−１は、ニュース抽出サーバ１０より入力されたニュースデータ５０およびコメントデータ６０における感情データ８０または主観度９０を解析する。ＰＣ４０の時間的アニメーション生成部４０−２は、解析された感情データ８０または主観度９０に含まれる感情または主観度の動的特徴量に基づいて時間的アニメーションデータ７０−１を生成する。ＰＣ４０の空間的アニメーション生成部４０−３は、解析された感情データ８０または主観度９０に含まれる感情または主観度の静的特徴量に基づいて空間的アニメーションデータ７０−２を生成する。ＰＣ４０のキャラクタ再生部４０−４は、入力されたニュースデータ５０およびコメントデータ６０および生成されたキャラクタの時間的アニメーションデータ７０−１および空間的アニメーションデータ７０−２における画像信号を再生する。

図３は、第１の実施形態に係るキャラクタ情報提示装置１の動作を示すフローチャートである。初めに、ニュース抽出サーバ１０において、ＷＥＢ上にあるニュースの収集を行なう。（ステップＳ１）。ＲＳＳ等を利用し、対象とするニュースのＵＲＬ、タイトル、記事本文、ジャンル、配信日時等の情報を取集する。

次に、ニュース抽出サーバ１０において、ステップＳ１で収集したニュースのＵＲＬやタイトル、またはＴＦＩＤＦ等を用いて抽出したニュースを特徴づける単語をＳＮＳ上から検索することで、ニュースに関連するコメント群を収集する（ステップＳ２）。ここで、ニュースに関連するコメント群は、ニュースのＵＲＬやタイトルを、ＳＮＳが提供する検索ＡＰＩ等を用いて検索することで、収集できる。また、ニュース記事のタイトルや本文から当該ニュースを特徴づける単語を、ＴＦＩＤＦ等を用いて取り出し、検索に利用しても良い。このとき、ＴＦは各ニュース記事のタイトルまたは記事本文中の各単語の出現頻度、ＤＦには、全記事における各単語の出現頻度などを設定する。

次に、ニュース抽出サーバ１０において、ステップＳ２で収集したコメント群を解析し、話題性の高いニュースデータ５０およびコメントデータ６０を抽出する（ステップＳ３）。ここで、ニュース抽出サーバ１０は、主観指標抽出機能と、主観度算出機能を有する。また、主観指標抽出機能は、顔文字抽出、文体抽出、盛り上がり抽出を実行する。

顔文字抽出では、ＳＮＳユーザのコメント中に顔文字が含まれるコメント群を抽出する。顔文字の抽出方法は、事前に登録した辞書を用いて、コメント中に感情表現が含まれるか否かを判別すれば良い。ここで、顔文字の個数をｓとする。

［顔文字を含む主観的なＳＮＳコメント群の例］
“えっ(;゜Δ゜)誰得？”
“欲しいかも(σ´□｀。)”
“(；´∀｀)・・・うわぁ、誰得・・・”
文体抽出では、ＳＮＳコメント群を文体に基づいて複数に分類する。文体を判別する方法は、文末に着目し、語尾の活用形(命令形、仮定形、未然形など)を利用することができる。形態素解析器を用いて文章を解析し、文末の形容詞、形容動詞、動詞の活用形を抽出する。活用形の種類数Ｎに対し、各活用形の出現の有無をｗ_１…ｗ_ｎで表現する。例えば、ｗ_１：命令形、ｗ_２：仮定形、…、とし、文体が命令形の場合、ｗ_１＝１、ｗ_２…ｗ_ｎ＝０とする。

［文体の例］
“わぁ、誰得な仕様はやめろよ → 命令形”
“欲しいけど、もうちょっと安かったらなぁ → 仮定形”
“こんな誰得携帯は買わない。 → 未然形”
盛り上がり抽出では、ＳＮＳコメント群から盛り上がりを表す表現を抽出する。盛り上がりを表す表現は、文字の連続性に着目することで抽出する。同一の文字が３文字以上出現することを検出する、または同一形態素が連続して出現することを検出する。各コメントにおいて、連続する文字数または形態素数の最大値を当該コメントの盛り上がり度をｅとする。

［盛り上がり表現の例］
“この機能、誰得ｗｗｗｗｗｗｗｗ →８文字のため、ｅ＝８”
“うおおおおお！欲しいいい！ →５文字のため、ｅ＝５”
“おいおいおい誰得だよ → ６文字 (「おい」３回) のため、ｅ＝６”
一方、主観度算出機能では、各コメントから抽出された主観指標に基づいて、各コメントの主観度Ｐを算出する。主観度ＰはＳＮＳコメントから抽出した（丸１）顔文字含有度合いｓ、（丸２）文体の特徴ｗ_１＋ｗ_２＋…＋ｗ_ｎ、（丸３）盛り上がり度合いｅを用いて、例えば、式（１）のような線型結合の計算式で算出できる。ここで、Ｐの値が閾値以上であるコメント群を話題性の高いコメントデータ６０として抽出する。また、このとき、当該ニュースをニュースデータ５０として抽出する。

また、主観度算出機能では、評価指標重み付け部を含んでもよい。この場合、ＷＥＢニュースの特徴、具体的には（Ａ）ジャンル、（Ｂ）配信元、（Ｃ）配信日時に基づいて、主観指標に重み付けをすることで、主観コメント群を選別する。ＷＥＢニュースのジャンル、配信元、配信日時などは、ＲＳＳを用いてＷＥＢニュースを収集する際に同時に取得することが可能である。重みづけを考慮した主観度Ｐの算出式の例を、式（２）に示す。ここで、重み係数α_Ａ、α_Ｂ、α_Ｃはそれぞれ、コメント中の顔文字表現に対する、ジャンルによる重み、配信元による重み、配信日時による重み、となる。同様に、重み係数β、γは文体、盛り上がり表現、に対するそれぞれの重みとなる。

例えば、ジャンルがスポーツの場合、より共感きるコメントを優先的に表示するため、盛り上がり表現の重みγ_Ａを大きく設定すると有効である。一方、ジャンルが政治・経済の場合、冷静なコメントが求められることから、γ_Ａの値は小さくなる。また、週刊誌が配信するニュースは、読者の感情を引き出すような見出しや文章が多いことから、感情的なコメントを優先的に表示するα_Ｂの重みを大きくすることで、より共感できる主観コメントが得られる。さらに、休日に配信されるニュースは、平日に配信されるニュースと比べて穏やかな内容のニュースが多く、読者もそのようなコメントを望む可能性が高いことから、命令形の文体を排除するようβ_Ａの重みを設定する、といったコメント群の選別方法が有効である。

次に、ステップＳ３で抽出されたニュースデータ５０およびコメントデータ６０をＰＣ４０に入力し、入力されたニュースデータ５０およびコメントデータ６０における感情データ８０または主観度９０を解析する（ステップＳ４）。ここでは、入力されるニュースデータ５０およびコメントデータ６０が単語列の場合を説明するが、本発明の技術的思想は、単語に限定されるわけではなく、句であっても文であっても良い。本実施形態では、感情分類とそれぞれの強度から構成される感情語データベースを使用する。なお、感情語データベースは、日本語辞書などの大量の単語データベースに存在する全ての単語に対して、人間の表情形成に用いられる感情分類「喜び」「悲しみ」「怒り」「嫌悪」「恐怖」「罪」「恥」「興味」「驚き」の９つがどれくらいの割合で存在するか規定し、それぞれの感情強度を０〜１の範囲で、０．１刻みに１０段階で指定して、予め形成されている。

また、入力されるニュースデータ５０またはコメントデータ６０が句または文である場合は、単語の場合と同様に、句または文に全体における感情分類とそれぞれの強度から構成される感情句データベースまたは感情文データベースを使用すれば良い。ここで、「喜び」の強度をＳ_１、「悲しみ」の強度をＳ_２、「怒り」の強度をＳ_３、「嫌悪」の強度をＳ_４、「恐怖」の強度をＳ_５、「罪」の強度をＳ_６、「恥」の強度をＳ_７、「興味」の強度をＳ_８、「驚き」の強度をＳ_９と表す。ただし、式（３）を満たす。

そして、入力されるニュースデータ５０およびコメントデータ６０と一致または類似する単語を感情語データベースの中から検索し、その単語における感情分類と強度を抽出し、感情データ８０を生成する。すなわち、ニュースデータ５０における感情分類は、式（４）で表わされる。

コメントデータ６０における感情分類は、式（５）で表わされる。

このように、９次元のベクトルで示される。ここでｋは、入力されるコメントデータ６０のＩＤを示している。また、入力される台詞のニュースデータ５０およびコメントデータ６０における全体強度Ｗは、式（６）で表わされる。

例えば、コメントデータ６０として、「泣き笑い」を入力すると、式（７）が感情データ８０として生成される。

一方、主観度９０は、式（２）を用いて、ニュースデータ５０の主観度Ｐ（Ｎ）およびコメントデータ６０の主観度Ｐ（Ｃ_ｋ）を算出する。

次に、ＰＣ４０において、ステップＳ４で解析された感情データ８０または主観度９０に含まれる感情または主観度の動的特徴量に基づいて時間的アニメーションデータ７０−１を生成する（ステップＳ５）。本実施形態では、まず、キャラクタの全身動作または表情変化の際のアニメーションデータと、日本語辞書などの代表的な単語データベースに存在する各単語をパラメータとして算出した各アニメーションデータにおける類似度パラメータ、のペアで構成されるアニメーションデータベースを用意する。なお、ここで言うアニメーションデータは、キャラクタの全てのボーンまたはポリゴンが任意の時刻において何れの空間位置座標に存在するかが記述されている。

ニュースデータ５０およびコメントデータ６０における類似度パラメータを算出し、アニメーションデータベースの中にある全てのアニメーションデータにおける類似度パラメータとのコサイン類似度を求め、最も値の大きいアニメーションデータをキャラクタのアニメーションデータ７０として選定する。ここで、選定されたアニメーションデータ７０にキャラクタにおける任意のボーンの空間座標が記録されている場合について述べる。本実施形態では、予め収録された全ての全身動作または表情変化における無感情のアニメーションデータおよび各感情分類のアニメーションデータを学習させ、無感情のアニメーションデータから各感情分類のアニメーションデータへの変換を予め定義し、選定されたアニメーションデータ７０を、ステップＳ４で解析された感情データ８０の分散Ｖ_ｉ（式（８））または主観度９０の分散Ｖ_ｉ（式（９））が閾値を超えた感情分類ｉに対し、動的特徴量Δ_ｉ（式（１０）、式（１１））に応じて合成変換することで、キャラクタの全身動作または表情変化における時間的アニメーションデータ７０−１を生成する。

本明細書では、一例として、主成分分析を用いてキャラクタの全身動作または表情変化に感情を付与するが、本発明の技術的思想は、主成分分析に限定されるわけでなく、非線形状態空間写像や機械学習等、別の方法を用いて全身動作または表情変化に感情を付与しても良い。まず、無感情および人間の表情形成に用いられる感情分類「喜び」「悲しみ」「怒り」「嫌悪」「恐怖」「罪」「恥」「興味」「驚き」の９つの感情の全身動作または表情変化におけるアニメーションデータを収録等により予め複数用意し、学習用データベースに登録しておく。登録された全ての無感情のアニメーションデータおよび各感情分類のアニメーションデータを学習し、線形回帰手法により、無感情のアニメーションデータから各感情分類のアニメーションデータに変換するためのパラメータを算出する。すなわち、予め用意された全身動作または表情変化をｍ（ｍ＝１，２，…）とすると、全身動作または表情変化ｍにおける無感情のアニメーションデータの第ｊ主成分座標の微分値ｋ^ｊ（ｍ）を用いて、式（１２）により線形回帰演算を行なって、変換パラメータａ^ｊ _ｉ、ｂ^ｊ _ｉを算出する。

ただし、ｑ^ｊ _ｉ（ｍ）は全身動作または表情変化ｍにおける各感情のアニメーションデータの第ｊ主成分座標の微分値を示しており、ｉ＝１は感情分類が「喜び」の場合を、ｉ＝２は感情分類が「悲しみ」の場合を、ｉ＝３は感情分類が「怒り」の場合を、ｉ＝４は感情分類が「嫌悪」の場合を、ｉ＝５は感情分類が「恐怖」の場合を、ｉ＝６は感情分類が「罪」の場合を、ｉ＝７は感情分類が「恥」の場合を、ｉ＝８は感情分類が「興味」の場合を、ｉ＝９は感情分類が「驚き」の場合をそれぞれ表す。

次に、算出されたΔ_ｉに対応する変換パラメータａ^ｊ _ｉ、ｂ^ｊ _ｉを用いて、選定されたアニメーションデータを合成変換し、キャラクタの全身動作または表情変化における時間的アニメーションデータ７０−１を生成する。すなわち、時間的アニメーションデータ７０−１の第ｊ主成分座標の微分値ｐ^ｊ（ｈ）は、式（１３）となる。

これにより、例えば、続々と入力されるニュースデータ５０が段階的に暗くなる場合は、徐々に沈静化したアニメーションを時間的アニメーションデータ７０−１として生成することが可能となる。また、主観度９０を用いることで、例えば、ニュースデータ５０のジャンルがスポーツの場合、引き分けの試合の結果を伝えるニュースデータ５０および「まずまずの結果」というコメントデータ６０に対して、主観度９０が大きい場合は、アニメーションデータベースの中からポジティブなアニメーションを象徴する「親指を上げる」アニメーションを時間的アニメーションデータ７０−１として生成することができる。一方、主観度９０が小さい場合は、ネガティブなアニメーションを象徴する「肩をすくめる」アニメーションを時間的アニメーションデータ７０−１として生成することができる。

次に、ＰＣ４０において、ステップＳ４で解析された感情データ８０または主観度９０に含まれる感情または主観度の動的特徴量に基づいて時間的アニメーションデータ７０−２を生成する（ステップＳ６）。ステップＳ５で選定されたアニメーションデータ７０を、ステップＳ４で解析された感情データ８０の分散Ｖ_ｉが閾値を下回った感情分類ｉに対し、静的特徴量Ｅ_ｉ（式（１４）、式（１５））に応じて、背景色の変更、キャラクタの立ち位置の変更等の空間的アニメーションデータ７０−２を生成する。

例えば、Ｅ_５の値が大きく算出された場合、「恐怖」が継続的であるので、背景色を少し暗くし、入力されるニュースデータ５０またはコメントデータ６０が明るい内容であっても、暗い印象を与えることが可能となる。また、Ｅ_７の値が大きく算出された場合、「恥」が継続的であるので、キャラクタの立ち位置を少し遠ざけ、入力されるニュースデータ５０またはコメントデータ６０の内容に応じず恥ずかしい印象を与える可能となる。

次に、ＰＣ４０において、ステップＳ５およびステップＳ６で生成されたキャラクタの時間的アニメーションデータ７０−１および空間的アニメーションデータ７０−２における画像信号を生成する（ステップＳ７）。まず、ニュースデータ５０を提示するキャラクタの描画を開始して画像信号の生成を開始する。次に、ステップＳ５およびステップＳ６で生成されたニュースデータ５０における時間的アニメーションデータ７０−１および空間的アニメーションデータ７０−２を反映したキャラクタを描画し、画像信号を生成する。その後、ニュースデータ５０における画像信号の生成が終了すると、コメントデータ６０を提示するキャラクタの描画を開始して画像信号の生成を開始する。

次に、ステップＳ５およびステップＳ６で生成されたコメントデータ６０における時間的アニメーションデータ７０−１および空間的アニメーションデータ７０−２を反映したキャラクタを描画し、画像信号を生成する。全てのコメントデータ６０に対して同様の処理を繰り返し、コメントデータ６０における画像信号を生成する。最後のコメントデータ６０に対しての処理が終了した後、別のニュースを提示する場合は、ステップＳ１に戻り、次のニュースデータ５０およびコメントデータ６０に対しての処理を開始する。なお、本発明の技術的思想は、ニュースデータ５０を提示するキャラクタとコメントデータ６０を提示するキャラクタは、それぞれ同じであっても異なっていてもどちらでも良い。次に、未処理データがあるかどうかを判断し（ステップＳ７−２）、ある場合は、ステップＳ１に遷移し、無い場合は、ステップＳ８に遷移する。

最後に、ステップＳ４で入力されたニュースデータ５０およびコメントデータ６０の画像信号と共に、ステップＳ７で生成されたキャラクタの画像信号をディスプレイ１０に映写する（ステップＳ８）。

このように、本実施形態によれば、話題性の高いニュースおよびコメント群をＷＥＢサイトから抽出し、ニュースデータ５０およびコメントデータ６０としてＰＣ４０に入力し、入力されたニュースデータ５０およびコメントデータ６０における感情データ８０または主観度９０を解析し、解析された感情データ８０または主観度９０に含まれる感情または主観度の動的特徴量に基づいて時間的アニメーションデータ７０−１を生成し、解析された感情データ８０または主観度９０に含まれる感情または主観度の静的特徴量に基づいて空間的アニメーションデータ７０−２を生成し、入力されたニュースデータ５０およびコメントデータ６０および生成されたキャラクタの時間的アニメーションデータ７０−１および空間的アニメーションデータ７０−２における画像信号を再生するので、入力データがＳＮＳのコメント群のような砕けたテキストデータであっても、適切なアニメーションを持つキャラクタにより提示することができる。また、複数の入力データを包括的に解析すれば、コメント群を反映したニュース本文の提示のように、集約されたデータを踏まえたアニメーションを持つキャラクタによる情報提示が可能となる。さらに、キャラクタのアニメーションとして、キャラクタが全身動作または表情変化する際の、任意の時刻におけるキャラクタの任意のボーンまたはポリゴンの空間座標を制御すれば、テレビ局が制作する本当のニュース番組に近いコンテンツを提供することができる。

［第２の実施形態］
第２の実施形態に係るアニメーション生成装置は、台詞である音声信号を入力し、入力された音声信号を時系列で記録した音声データに基づいて台詞のテキストデータおよび台詞の開始時刻および終了時刻を時系列で生成する。この生成された台詞のテキストデータおよび台詞の開始時刻および終了時刻に基づいてキャラクタのアニメーションデータを時系列で生成する。アニメーションデータには感情データを伴っていても良く、生成された感情データに基づいてアニメーションデータに感情を付与し、台詞の開始時刻および終了時刻に基づいてアニメーションデータの時間長を調整する。この生成された台詞の開始時刻および終了時刻に応じて、音声データにおける音声信号および生成されたアニメーションデータにおける画像信号を生成する。

これにより、キャラクタの台詞が動的に生成される場合であっても、画像信号と音声信号の同期ズレを解消して、キャラクタを生成することができる。また、アニメーションデータとしてキャラクタの任意のボーンまたはポリゴンの空間座標を制御した画像信号を生成するので、台詞に応じた複雑なアニメーションを持つキャラクタを生成することができる。

図４は、第２の実施形態に係るアニメーション生成装置の概略構成を示す図である。このアニメーション生成装置は、マイクロフォン２１０と、スピーカ２２０、ディスプレイ２３０と、ＰＣ（Personal Computer）２４０とから構成されている。そして、マイクロフォン２１０によりＰＣ２４０に音声データ２５０が入力される。なお、図４では、マイクロフォン２１０が、ＰＣ２４０に接続されているが、本発明の技術的思想は、これに限定されるわけではなく、任意手段によりＰＣに対して音声データが入力されれば十分である。

ＰＣ２４０は、ケーブル２４０ａを介してアニメーション生成装置としてのスピーカ２２０およびディスプレイ２３０に接続されている。ＰＣ２４０では、台詞として入力された音声信号を時系列で記録した音声データ２５０に基づいて台詞のテキストデータまたは台詞の開始時刻および終了時刻を時系列で生成する。また、生成された台詞のテキストデータおよび台詞の開始時刻および終了時刻に基づいて、キャラクタのアニメーションデータおよび感情データを時系列で生成する。さらに、生成された感情データに基づいてアニメーションデータに感情を付与すると共に生成された台詞の開始時刻および終了時刻に基づいてアニメーションデータの時間長を調整する。

そして、ＰＣ２４０は、生成された台詞の開始時刻および終了時刻に応じて、音声データにおける音声信号を随時スピーカ２２０に発信する。一方、ＰＣ２４０は、生成されたアニメーションデータにおける画像信号を随時ディスプレイ２３０に発信する。その際、ＰＣ２４０において生成された画像はディスプレイ２３０にＡ１として映写される。なお、本発明の実施形態に係るアニメーション生成装置では、音声データにおける音声信号またはアニメーションデータにおける画像信号をスピーカ２２０またはディスプレイ２３０に発信しなくても構わない。

図５は、第２の実施形態に係るアニメーション生成装置の機能を示すブロック図である。ＰＣ２４０の台詞テキスト生成部２４０−１は、マイクロフォン２１０により台詞として入力された音声信号を時系列で記録した音声データ２５０を認識して、台詞のテキストデータ２６０−１を時系列で生成する。また、ＰＣ２４０の台詞時刻判定部２４０−２は、音声データ２５０の有音区間を検出して、台詞の開始時刻および終了時刻２６０−２を時系列で判定する。また、ＰＣ２４０のアニメーション生成部２４０−３は、台詞のテキストデータ２６０−１の内容を解析して、台詞の開始時刻および終了時刻２６０−２毎に、キャラクタのアニメーションデータ２７０を時系列で生成する。

また、ＰＣ２４０の感情生成部２４０−４は、台詞のテキストデータ２６０−１の内容を解析して、キャラクタの感情データ２８０を時系列で生成する。また、ＰＣ２４０の感情付与部２４０−５は、感情データ２８０に応じて、アニメーションデータ２７０を変換する。また、ＰＣ２４０の時間長調整部２４０−６は、台詞の開始時刻および終了時刻２６０−２に基づいて、アニメーションデータ２７０を変換する。また、ＰＣ２４０のキャラクタ再生部２４０−７は、台詞の開始時刻および終了時刻２６０−２に応じて、音声データ２５０における音声信号および生成されたアニメーションデータ２７０における画像信号を再生する。

図６は、第２の実施形態に係るアニメーション生成装置の動作を示すフローチャートである。初めに、ＰＣ２４０に、マイクロフォン２１０により音声信号を入力し、入力された音声信号を時系列で記録して音声データ２５０を形成する（ステップＳ２１）。次に、ＰＣ２４０において、音声データ２５０を認識して、台詞のテキストデータを時系列で生成する（ステップＳ２２）。

次に、ＰＣ２４０において、音声データ２５０の有音区間を検出して、台詞の開始時刻および終了時刻２６０−２を時系列で判定する（ステップＳ２３）。音声データ２５０において、音圧レベルが閾値より大きい状況が一定時間以上継続した場合、該当区間を有音区間とし、区間の先頭を台詞の開始時刻、区間の終端を台詞の終了時刻と判定する。また、ステップＳ２２で生成された台詞のテキストデータを、判定された台詞の開始時刻から終了時刻までを１つの単位として、台詞のテキストデータ２６０−１に分割する。

次に、ＰＣ２４０において、ステップＳ２３で分割された台詞のテキストデータ２６０−１の内容を解析して、ステップＳ２３で判定された台詞の開始時刻および終了時刻２６０−２毎に、「目を閉じる」「お辞儀する」「手を挙げる」等のキャラクタのアニメーションデータ２７０を時系列で生成する（ステップＳ２４）。本実施形態では、キャラクタの全身動作または表情変化の際のアニメーションデータと、日本語辞書などの代表的な単語データベースに存在する各単語をパラメータとして算出した各アニメーションデータにおける類似度パラメータ、のペアで構成されるアニメーションデータベースを用意する。

なお、ここで言うアニメーションデータは、キャラクタの全てのボーンまたはポリゴンが任意の時刻において何れの空間位置座標に存在するかが記述されている。台詞のテキストデータ２６０−１における類似度パラメータを算出し、アニメーションデータベースの中にある全てのアニメーションデータにおける類似度パラメータとのコサイン類似度を求め、最も値の大きいアニメーションデータをキャラクタのアニメーションデータ２７０として時系列で生成する。

次に、ＰＣ２４０において、ステップＳ２３で分割された台詞のテキストデータ２６０−１の内容を解析して、感情分類および強度から構成されるキャラクタの感情データ２８０を時系列で生成する（ステップＳ２５）。ここでは、入力される台詞のテキストデータ２６０−１が単語列の場合を説明するが、本発明の技術的思想は、単語に限定されるわけではなく、句であっても文であっても良い。本実施形態では、感情分類とそれぞれの強度から構成される感情語データベースを使用する。

なお、感情語データベースは、日本語辞書などの大量の単語データベースに存在する全ての単語に対して、人間の表情形成に用いられる感情分類「喜び」「悲しみ」「怒り」「嫌悪」「恐怖」「罪」「恥」「興味」「驚き」の９つがどれくらいの割合で存在するか規定し、それぞれの感情強度を０〜１の範囲で、０．１刻みに１０段階で指定して、予め形成されている。また、入力される台詞のテキストデータ２６０−１が句または文である場合は、単語の場合と同様に、句または文に全体における感情分類とそれぞれの強度から構成される感情句データベースまたは感情文データベースを使用すれば良い。ここで、「喜び」の強度をＳ_１、「悲しみ」の強度をＳ_２、「怒り」の強度をＳ_３、「嫌悪」の強度をＳ_４、「恐怖」の強度をＳ_５、「罪」の強度をＳ_６、「恥」の強度をＳ_７、「興味」の強度をＳ_８、「驚き」の強度をＳ_９と表す。ただし、次式を満たすものとする。

そして、入力される台詞のテキストデータ２６０−１と一致または類似する単語を感情語データベースの中から検索し、その単語における感情分類と強度を抽出し、感情データ２８０を生成する。すなわち、台詞のテキストデータ２６０−１における感情分類は、次式のように、９次元のベクトルで示される。

また、入力される台詞のテキストデータ２６０−１における全体強度Ｗは、次式で表わされる。

例えば、台詞のテキストデータ２６０−１として、「泣き笑い」を入力すると、次式が感情データ２８０として生成される。

次に、ＰＣ２３０において、感情データ２８０に応じてアニメーションデータ２７０を変換し、キャラクタの全身動作または表情変化に感情を付与する（ステップＳ２６）。まず、アニメーションデータ２７０にキャラクタにおける任意のボーンの空間座標が時系列で記録されている場合について述べる。本実施形態では、予め収録された全ての全身動作または表情変化における無感情のアニメーションデータおよび各感情分類のアニメーションデータを学習させ、無感情のアニメーションデータから各感情分類のアニメーションデータへの変換を予め定義し、ステップＳ２４で生成されたアニメーションデータ２７０を、ステップＳ２５で生成された感情データ２８０に応じて合成変換することで、キャラクタの全身動作または表情変化に感情を付与する。

本明細書では、一例として、主成分分析を用いてキャラクタの全身動作または表情変化に感情を付与するが、本発明の技術的思想は、主成分分析に限定されるわけでなく、非線形状態空間写像や機械学習等、別の方法を用いて全身動作または表情変化に感情を付与しても良い。まず、無感情および人間の表情形成に用いられる感情分類「喜び」「悲しみ」「怒り」「嫌悪」「恐怖」「罪」「恥」「興味」「驚き」の９つの感情の全身動作または表情変化におけるアニメーションデータを収録等により予め複数用意し、学習用データベースに登録しておく。登録された全ての無感情のアニメーションデータおよび各感情分類のアニメーションデータを学習し、線形回帰手法により、無感情のアニメーションデータから各感情分類のアニメーションデータに変換するためのパラメータを算出する。

すなわち、予め用意された全身動作または表情変化をｍ（ｍ＝１，２，…）とすると、全身動作または表情変化ｍにおける無感情のアニメーションデータの第ｊ主成分座標の微分値ｋ^ｊ（ｍ）を用いて、次式により線形回帰演算を行なって、変換パラメータａ^ｊ _ｉ、ｂ^ｊ _ｉを算出する。

ただし、ｑ^ｊ _ｉ（ｍ）は全身動作または表情変化ｍにおける各感情のアニメーションデータの第ｊ主成分座標の微分値を示しており、ｉ＝１は感情分類が「喜び」の場合を、ｉ＝２は感情分類が「悲しみ」の場合を、ｉ＝３は感情分類が「怒り」の場合を、ｉ＝４は感情分類が「嫌悪」の場合を、ｉ＝５は感情分類が「恐怖」の場合を、ｉ＝６は感情分類が「罪」の場合を、ｉ＝７は感情分類が「恥」の場合を、ｉ＝８は感情分類が「興味」の場合を、ｉ＝９は感情分類が「驚き」の場合をそれぞれ表す。次に、ステップＳ２５で生成された感情データ２８０に対応する変換パラメータａ^ｊ _ｉ、ｂ^ｊ _ｉを用いて、ステップＳ２４で生成されたアニメーションデータ２７０を合成変換し、キャラクタの全身動作または表情変化に感情を付与する。すなわち、感情が付与されたアニメーションデータ２７０の第ｊ主成分座標の微分値ｐ^ｊ（ｍ）は、次式のようになる。

時系列で記録されたアニメーションデータ２７０の全てに対して同様の操作を実行し、アニメーションデータ２７０を再生成する。

次に、アニメーションデータ２７０にキャラクタにおける任意のポリゴンの空間座標が時系列で記録されている場合について述べる。本実施形態では、ステップＳ２４で生成されたアニメーションデータ２７０を、ステップＳ２５で生成された感情データ２８０に応じて合成変換することで、キャラクタの全身動作または表情変化に感情を付与する。まず、人間の表情形成に用いられる感情分類「喜び」「悲しみ」「怒り」「嫌悪」「恐怖」「罪」「恥」「興味」「驚き」の９つの感情の全身動作または表情変化におけるアニメーションデータに対して、無感情のアニメーションデータからの変化量を予め定義しておく。ここで、アニメーションデータの中のあるポリゴンＰの座標に対して、「喜び」における無感情との差分を（Ｘ_１，Ｙ_１，Ｚ_１）、「悲しみ」における無感情との差分を（Ｘ_２，Ｙ_２，Ｚ_２）、「怒り」における無感情との差分を（Ｘ_３，Ｙ_３，Ｚ_３）、「嫌悪」における無感情との差分を（Ｘ_４，Ｙ_４，Ｚ_４）、「恐怖」における無感情との差分を（Ｘ_５，Ｙ_５，Ｚ_５）、「罪」における無感情との差分を（Ｘ_６，Ｙ_６，Ｚ_６）、「恥」における無感情との差分を（Ｘ_７，Ｙ_７，Ｚ_７）、における無感情との差分を（Ｘ_８，Ｙ_８，Ｚ_８）、「驚き」における無感情との差分を（Ｘ_９，Ｙ_９，Ｚ_９）、と表す。

そして、ステップＳ２５で生成された感情データ２８０に応じて、ステップＳ２４で生成されたアニメーションデータ２７０を合成変換し、キャラクタの全身動作または表情変化に感情を付与する。すなわち、アニメーションデータ２７０におけるＰの座標を（Ｘ_０，Ｙ_０，Ｚ_０）とすると、感情が付与されたアニメーションデータ２７０におけるＰの座標（Ｘ_Ｅ，Ｙ_Ｅ，Ｚ_Ｅ）は、次式で表わされる。

次に、ＰＣ２４０において、ステップＳ２３で判定された台詞の開始時刻および終了時刻２６０−２に基づいて、ステップＳ２４またはステップＳ２６で生成されたアニメーションデータ２７０を変換し、アニメーションデータ２７０の時間長を調整する（ステップＳ２７）。本実施形態では、キャラクタの一連の全身動作または表情変化におけるアニメーションデータ内のボーンまたはポリゴンの空間座標を「開始部」「主要部」「収束部」等の動きの内容に応じて予め分割して、それらの境界となる時刻をキーフレームと指定し、キーフレーム間の遷移が規定された「アニメーショングラフ」を用いて、アニメーションデータ２７０を変換する。

本明細書では、一例として、アニメーショングラフを用いてアニメーションデータ２７０の時間長を調整するが、本発明の技術的思想は、アニメーショングラフに限定されるわけではなく、機械学習やHidden Markov Model等の確率モデルも用いてアニメーションデータ２７０の時間長を調整しても良い。まず、ステップＳ２４で用意されたアニメーションデータベースにおける全てのアニメーションデータに対して、予め「開始部」「主要部」「収束部」を定めてキーフレームを指定し、上述したアニメーショングラフを用意する。

次に、ステップＳ２３で判定された台詞の開始時刻および終了時刻よりステップＳ２３で分割された台詞のテキストデータ２６０−１の時間長を求める。そして、ステップＳ２４またはステップＳ２６で生成されたアニメーションデータ２７０の時間長に、アニメーションデータ２７０における「主要部」の時間長を、台詞の時間長との差分が最も小さくなるように繰り返し加え、繰り返し回数を保持する。最後に、アニメーションデータ２７０の「収束部」の直前に、保持された繰り返し回数分だけ「主要部」のアニメーションデータを挿入する形で、アニメーションデータ２７０を再生成する。本明細書では、一例として、アニメーションデータにおける「主要部」を繰り返して時間長を調整するが、本発明の技術的思想は、「主要部」の繰り返しに限定されるわけではなく、アニメーションデータの速度制御や「開始部」「収束部」の切り捨て等でアニメーションデータ２７０の時間長を調整しても良い。

次に、ＰＣ２４０において、ステップＳ２３で判定された台詞の開始時刻および終了時刻２６０−２に応じて、音声データ２５０における音声信号ステップＳ２７で生成されたアニメーションデータ２７０における画像信号を生成する（ステップＳ２８）。まず、音声データ２５０の再生を開始して音声信号の生成を開始すると共に、キャラクタの描画を開始して画像信号の生成を開始する。次に、音声データ２５０の再生時刻がステップＳ２３で判定された台詞の開始時刻に到達すると、ステップＳ２７で生成されたアニメーションデータ２７０を反映したキャラクタの描画を開始して画像信号を生成する。

一方、音声データ２５０の再生時刻がステップＳ２３で判定された台詞の終了時刻に到達すると、アニメーションデータ２７０が反映されない標準のキャラクタの描画に戻り画像信号を生成する。時系列で記録された全ての台詞の開始時刻および終了時刻２６０−２に対して、同様の処理を繰り返し、アニメーションデータ２７０における画像信号を生成する。最後の台詞の開始時刻および終了時刻２６０−２に対しての処理が終了した後、マイクロフォン２１０により入力される音声データ２５０が続く場合は、ステップＳ２１に戻り、次の音声データ２５０に対しての処理を開始する。

最後に、音声データ２５０をスピーカ２２０から放射すると共に、生成されたキャラクタの画像信号をディスプレイ２３０に映写する（ステップＳ２９）。

図１０は、第２の実施形態に係るデータフォーマットを示す図である。このように、第２の実施形態によれば、台詞として入力された音声信号を時系列で記録した音声データ２５０に基づいて台詞のテキストデータおよび台詞の開始時刻および終了時刻を時系列で生成する。また、生成された台詞のテキストデータに基づいて台詞の開始時刻および終了時刻毎にキャラクタのアニメーションデータおよび感情データを時系列で生成する。さらに、生成された感情データに基づいてアニメーションデータに感情を付与すると共に生成された台詞の開始時刻および終了時刻に基づいてアニメーションデータの時間長を調整する。そして、ＰＣ２４０は、生成された台詞の開始時刻および終了時刻に応じて、音声データにおける音声信号を随時スピーカ２２０に発信する。一方、ＰＣ２４０は、アニメーションデータにおける画像信号を随時ディスプレイ２３０に発信する。

これにより、第２の実施形態では、キャラクタの台詞が動的に生成される場合であっても、画像信号と音声信号の同期ズレを解消して、キャラクタを生成することができる。また、アニメーションデータとしてキャラクタの任意のボーンまたはポリゴンの空間座標を制御した画像信号を生成するので、台詞に応じた複雑なアニメーションを持つキャラクタを生成することができる。

以上説明したように、本発明によれば、任意の情報をＷＥＢサイトから抽出して入力し、複数の入力データにおける感情または主観度を解析し、解析された複数の入力データに含まれる感情または主観度の動的特徴量に基づいて時間的アニメーションを生成し、解析された前記複数の入力データに含まれる感情または主観度の静的特徴量に基づいて空間的アニメーションを生成し、入力データを提示すると共に、生成されたキャラクタのアニメーションを再生するので、入力データがＳＮＳのコメント群のような砕けたテキストデータであっても、適切なアニメーションを持つキャラクタにより提示することができる。また、複数の入力データを包括的に解析すれば、コメント群を反映したニュース本文の提示のように、集約されたデータを踏まえたアニメーションを持つキャラクタによる情報提示が可能となる。さらに、キャラクタのアニメーションとして、キャラクタが全身動作または表情変化する際の、任意の時刻におけるキャラクタの任意のボーンまたはポリゴンの空間座標を制御すれば、テレビ局が制作する本当のニュース番組に近いコンテンツを提供することができる。

１０ニュース抽出サーバ
１０−１ニュース抽出サーバ
２０スピーカ
３０ディスプレイ
４０ＰＣ
４０−１入力データ解析部
４０−２時間的アニメーション生成部
４０−３空間的アニメーション生成部
４０−４キャラクタ再生部
４０ａケーブル
５０ニュースデータ
６０コメントデータ
７０−１時間的アニメーションデータ
７０−２空間的アニメーションデータ
８０感情データ
９０主観度
２１０マイクロフォン
２２０スピーカ
２３０ディスプレイ
２４０ＰＣ
２４０−１台詞テキスト生成部
２４０−２台詞時刻判定部
２４０−３アニメーション生成部
２４０−４感情生成部
２４０−５感情付与部
２４０−６時間長調整部
２４０−７キャラクタ再生部
２４０ａケーブル
２５０音声データ
２６０−１テキストデータ
２６０−２開始時刻および終了時刻
２７０アニメーションデータ
２８０感情データ

Claims

任意の情報に基づいて、キャラクタのアニメーションを生成するアニメーション生成装置であって、
少なくともテキストデータを含み、解析された任意の複数の入力データ中の複数の感情分類または前記複数の入力データ中の顔文字含有度合い、文体の特徴、および盛り上がり度合いから算出される複数の主観度における時間的変化量の大きい成分から定まる複数の動的特徴量、並びに前記感情分類および感情の強度を示す感情データを用いて、時間的アニメーションを生成する時間的アニメーション生成部と、
前記複数の入力データ中の感情分類または前記複数の入力データ中の主観度における時間的変化量の小さい成分から定まる静的特徴量を用いて、空間的アニメーションを生成する空間的アニメーション生成部と、
前記時間的アニメーションおよび前記空間的アニメーションに対応する解析前の入力データ、前記時間的アニメーション並びに前記空間的アニメーションを用いて画像信号を生成し、前記生成した画像信号を出力するキャラクタ再生部と、を備えることを特徴とするアニメーション生成装置。
前記入力データをＷＥＢ（World Wide Web）サイトから抽出する情報抽出部を更に備えることを特徴とする請求項１に記載のアニメーション生成装置。
前記複数の入力データにおける感情分類または主観度を解析する入力データ解析部を更に備えることを特徴とする請求項１または請求項２に記載のアニメーション生成装置。
前記入力データを提示すると共に、前記生成されたキャラクタのアニメーションを再生するキャラクタ再生部を更に備えることを特徴とする請求項１から請求項３のいずれかに記載のアニメーション生成装置。
ナレータが読み上げた前記入力データの音声を取得する音声収録部を更に備えることを特徴とする請求項１から請求項４のいずれかに記載のアニメーション生成装置。
前記入力データに対応する音声データを合成する音声合成部を更に備えることを特徴とする請求項１から請求項５のいずれかに記載のアニメーション生成装置。
前記生成されたキャラクタのアニメーションと共に、前記取得された音声または前記合成された音声を再生する音声再生部を更に備えることを特徴とする請求項５または請求項６に記載のアニメーション生成装置。
前記入力データの音声の有音区間を検出し、前記キャラクタの台詞の開始時刻および前記台詞の終了時刻を判定する台詞時刻判定部を更に備えることを特徴とする請求項５から請求項７のいずれかに記載のアニメーション生成装置。
前記台詞の開始時刻および前記台詞の終了時刻に応じて、前記アニメーションデータを変換する時間長調整部を更に備えることを特徴とする請求項８記載のアニメーション生成装置。
前記アニメーションは、前記キャラクタが全身動作または表情変化する際の、任意の時刻における前記キャラクタの任意のボーン（bone）またはポリゴン（polygon）の空間座標であることを特徴とする請求項１から請求項９のいずれかに記載のアニメーション生成装置。
任意の情報に基づいて、キャラクタのアニメーションを生成するアニメーション生成方法であって、
少なくともテキストデータを含み、解析された任意の複数の入力データ中の複数の感情分類または前記複数の入力データ中の顔文字含有度合い、文体の特徴、および盛り上がり度合いから算出される複数の主観度における時間的変化量の大きい成分から定まる複数の動的特徴量、並びに前記感情分類および感情の強度を示す感情データを用いて、時間的アニメーションを生成するステップと、
前記複数の入力データ中の感情分類または前記複数の入力データ中の主観度における時間的変化量の小さい成分から定まる静的特徴量を用いて、空間的アニメーションを生成するステップと、
前記時間的アニメーションおよび前記空間的アニメーションに対応する解析前の入力データ、前記時間的アニメーション並びに前記空間的アニメーションを用いて画像信号を生成し、前記生成した画像信号を出力するステップと、を少なくとも含むことを特徴とするアニメーション生成方法。
任意の情報に基づいて、キャラクタのアニメーションを生成するアニメーション生成装置のプログラムであって、
少なくともテキストデータを含み、解析された任意の複数の入力データ中の複数の感情分類または前記複数の入力データ中の顔文字含有度合い、文体の特徴、および盛り上がり度合いから算出される複数の主観度における時間的変化量の大きい成分から定まる複数の動的特徴量、並びに前記感情分類および感情の強度を示す感情データを用いて、時間的アニメーションを生成する処理と、
前記複数の入力データ中の感情分類または前記複数の入力データ中の主観度における時間的変化量の小さい成分から定まる静的特徴量を用いて、空間的アニメーションを生成する処理と、
前記時間的アニメーションおよび前記空間的アニメーションに対応する解析前の入力データ、前記時間的アニメーション並びに前記空間的アニメーションを用いて画像信号を生成し、前記生成した画像信号を出力する処理と、の一連の処理をコンピュータに実行させることを特徴とするプログラム。