JP4917920B2

JP4917920B2 - コンテンツ生成装置及びコンテンツ生成プログラム

Info

Publication number: JP4917920B2
Application number: JP2007054295A
Authority: JP
Inventors: 斉周浜口; 浩之金子; 誠喜井上; 守道家
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2007-03-05
Filing date: 2007-03-05
Publication date: 2012-04-18
Anticipated expiration: 2027-03-05
Also published as: JP2008217447A

Description

本発明は、コンテンツ生成装置及びコンテンツ生成プログラムに係り、特に、肉声データから得られる感情情報に基づいて、その肉声に最適な演出を付加したコンテンツを生成するためのコンテンツ生成装置及びコンテンツ生成プログラムに関する。

従来より、ニュースやスポーツ等の情報提供番組等の映像コンテンツを映像コンテンツ制作者が制作する際に、映像を生成する前に所定の記述様式により予め台本を作成し、これを専用のソフトウェア等に入力することで、台本に従ったＣＧ（ＣｏｍｐｕｔｅｒＧｒａｐｈｉｃｓ）キャラクタ等の仮想物体の仮想空間上の動作やカメラワークを行う映像を生成することが可能な仕組みが存在している（例えば、特許文献１参照。）。

なお、上述した特許文献１に示されている技術では、ＴＶＭＬ（ＴＶｐｒｏｇｒａｍＭａｒｋｉｎｇＬａｎｇｕａｇｅ）を用いて番組の制作を行っている。ここで、ＴＶＭＬとは、テレビ番組を制作するためのオブジェクトベース記述言語である。ＴＶＭＬは、テレビ番組の映像と音声を、素材と台本（演出内容）とに分けて記述するものであり、番組台本を記述すれば、パソコン等で動作するソフトウェア等がこれを読取り、即座にテレビ番組として視聴（提示）することができるものである。ＴＶＭＬを利用することで、ＣＧキャラクタの動作やカメラワークをその都度指定し、アドリブ的に制御することができる。

また、ＴＶＭＬを用いた番組制作では、制作者側で制作された番組の台本や、その台本に記述される番組制作エンジン（ＡＰＥ：ＡｕｔｏｍａｔｉｃＰｒｏｄｕｃｔｉｏｎＥｎｇｉｎｅ）、制作した番組に用いられる素材データ等を用いて番組を制作する。ここで、上述した番組制作エンジンとは、番組に登場する番組司会者や出演者等のＣＧキャラクタや番組における１つの動作の単位で「タイトル表示」、「ズームイン」、「ＣＧキャラクタの動作」等のイベントが予め定義されたものであり、この番組制作エンジンを用いることにより、ニュースやバラエティ、スポーツ、ドラマ等の所定のジャンルの番組制作を効率的に実現することができる。

ここで、ＣＧ等を用いて例えばテレビ番組用の映像コンテンツを生成する場合、出演者であるＣＧキャラクタの喋りの質を確保するため、合成音声ではなく肉声を利用することが多い。この場合、予め出演者のセリフを録音しておき、これらの声に合わせて手動でＣＧキャラクタの表情や振る舞いを付加したＣＧ映像コンテンツを生成する。或いは、先にＣＧキャラクタの表情や振る舞いが付加されたＣＧ映像を生成しておき、その後ＣＧ映像を再生しながら肉声を割り当てるいわゆるアフレコ（アフター・レコーディング）処理によりＣＧ映像コンテンツを生成する。

また、上記以外の手法としては、音声合成アプリケーションによる合成音声を用いて一旦合成音声でＣＧ映像コンテンツを作成し、その後、このＣＧ映像コンテンツを再生させながら肉声に置換する方法が存在している（例えば、特許文献２参照。）。
特開２００５−３１８２５４号公報特開２００４−７１０１３号公報

しかしながら、上述した従来技術の場合、予め肉声を録音し、その音声を聞いた上でＣＧキャラクタの表情やジェスチャーを付加する場合では、セリフを簡単に変更することができない。また、セリフに対応したキャラクタ等の演出対象物に対する表情やジェスチャー等の振る舞い（演出）の付加は人手で行うため手間と時間がかかってしまう。

また、ＣＧキャラクタの表情やジェスチャーは既に決められているため、それに合うように肉声を割り当てなければならないが、肉声を割り当てるまでは実際にセリフが入ったＣＧ映像コンテンツを見ることができない。また、これについてもセリフを簡単に変えることができず、更に、演出対象物に対する演出の付加を人手で行う必要がある。

また、従来技術である上述した特許文献２に示されている手法では、予め合成音声によりＣＧ映像コンテンツを作成できるため、セリフを変更した上で、事前にＣＧ映像コンテンツ全体を確認することができる。しかしながら、合成音声によるＣＧ映像コンテンツ生成後のアフレコ処理では、アフレコした肉声に合った適切な表情やジェスチャー等を演出対象物に実現させるには、やはりアフレコ後の音声を聞きながら人手で調整する必要がある。

本発明は、上述した問題点に鑑みなされたものであり、肉声データから得られる感情情報に基づいて、その肉声に最適な演出を付加したコンテンツを生成するためのコンテンツ生成装置及びコンテンツ生成プログラムを提供することを目的とする。

上記課題を解決するために、本件発明は、以下の特徴を有する課題を解決するための手段を採用している。

請求項１に記載された発明は、入力される肉声データから得られる感情情報に基づいて、演出対象物の表情又は動作に対する演出を行わせたコンテンツを生成するコンテンツ生成装置において、予め生成されたコンテンツのスクリプトを所定単位毎に読み込む読み込み手段と、前記読み込み手段により得られたスクリプトが、前記演出対象物のセリフを含む場合に、前記演出対象物を使用する使用者の前記セリフの肉声を録音するための録音手段と、前記録音手段により録音された前記セリフの肉声データから感情推定を行う感情推定手段と、前記感情推定手段により得られる感情の種別及び強さからなる感情情報に対応して、前記演出対象物に対して予め設定された表情又は動作を行わせるための演出情報を抽出する演出手段と、前記録音手段により録音された前記セリフの肉声データと前記演出手段により得られる前記演出情報とを用いて生成されたスクリプトを、前記読み込み手段により読み込まれた前記セリフを含むスクリプトと置換するスクリプト生成手段とを有することを特徴とする。

請求項１記載の発明によれば、肉声データから得られる感情情報に基づいて、その肉声に最適な演出を付加したコンテンツを生成することができる。また、肉声から得られる感情情報に対応して、演出対象物に高精度な演出を行わせることができる。これにより、適切な演出の番組を迅速に制作することができる。

請求項２に記載された発明は、前記演出手段は、演出情報を設定する際には、前記感情の種別及び強さ毎に前記演出対象物の表情又は動作に対して下限値と上限値を設定し、前記演出情報を抽出する際には、前記下限値から前記上限値との間でランダムに値を決定することを特徴とする。

請求項２記載の発明によれば、ある特定の動作だけでなく、ある程度の範囲の中で汎用的に動作を行わせることができる。これにより、使用者等に飽きさせない演出を行うことができる。

請求項３に記載された発明は、前記録音手段において、前記使用者の肉声を録音するために前記予め生成されたコンテンツを再生し、前記肉声を録音する直前で前記コンテンツを停止させる再生手段を有することを特徴とする。

請求項３記載の発明によれば、スクリプトを再生させながら、必要箇所毎に肉声を録音することができる。また、再生された内容を見ながら、使用者等に音声を録音させることができるため、コンテンツの流れに沿った適切な感情による肉声の入力を実現することができる。

請求項４に記載された発明は、コンピュータを、請求項１乃至３の何れか１項に記載のコンテンツ生成装置が有する各手段として機能させるためのコンテンツ生成プログラムである。

請求項４記載の発明によれば、肉声データから得られる感情情報に基づいて、その肉声に最適な演出を付加したコンテンツを生成することができる。また、肉声から得られる感情情報に対応して、演出対象物に高精度な演出を行わせることができる。これにより、適切な演出の番組を迅速に制作することができる。更に、実行プログラムをコンピュータにインストールすることにより、容易にコンテンツ生成を実現することができる。

本発明によれば、肉声データから得られる感情情報に基づいて、その肉声に最適な演出を付加したコンテンツを生成することができる。

＜本発明の概要＞
本発明では、例えばテレビ番組用のＣＧ映像等を有するコンテンツの生成において、アフレコにより肉声（生声）を利用した際に、肉声の感情に合わせてＣＧキャラクタ等の演出対象物に対する表情やジェスチャー等の振る舞い（演出）を自動的に付加するものである。

具体的には、本発明はテレビ番組等を主とした映像コンテンツ制作の分野に関わるものであり、ＣＧを用いたテレビ番組用の映像コンテンツを制作する際、例えば映像コンテンツの出演者であるＣＧキャラクタにセリフを喋らせるのに、肉声を使って音声のリアリティを向上させる場合があるが、この場合に肉声の持つ感情情報を用いて肉声の感情に合ったＣＧキャラクタの表情やジェスチャーを自動的に付加することを可能とする。

以下に、上述したような特徴を有する本発明におけるコンテンツ生成装置及びコンテンツ生成プログラムを好適に実施した形態について、図面を用いて詳細に説明する。

なお、本実施形態では、コンテンツの一例として番組を用いる。また、演出対象物の一例として、番組に出演しているＣＧキャラクタを用いる。更に、本実施形態では、番組の生成や提示等に用いられるスクリプトの一例として、ＴＶＭＬを用いる。なお、本発明は、ＴＶＭＬに限定されるものではなく、ＴＶＭＬ以外の表現形式を用いてもよい。

＜コンテンツ生成装置：機能構成例＞
図１は、コンテンツ生成装置の一構成例を示す図である。図１に示すコンテンツ生成装置１０は、入力手段１１と、出力手段１２と、蓄積手段１３と、スクリプト生成手段１４と、録音処理手段１５と、感情推定手段１６と、演出手段１７と、再生手段１８と、送受信手段１９と、制御手段２０とを有するよう構成されている。

入力手段１１は、使用者や制作者等からのコンテンツ生成指示や、音声入力指示、音声（肉声）、感情推定指示、スクリプト生成指示、再生指示等、本装置を実施するための各種入力を受け付ける。なお、入力手段１１は、例えばキーボードや、マウス等のポインティングデバイス、マイク等の音声入力デバイス等からなる。

出力手段１２は、入力手段１１により入力された指示内容や、録音された音声、指示内容に基づいて生成されたコンテンツ、そのコンテンツに係る映像及び音声等の編集内容、編集結果等の内容を表示したり、録音した肉声等の音声データ等を出力する。なお、出力手段１２は、ディスプレイやスピーカ等からなる。

蓄積手段１３は、入力される音声や、コンテンツを生成するための画像や映像、音声、テキストデータ等の各種データからなる複数の素材データ、生成されたコンテンツ、感情推定手段１６において推定された感情の内容、演出手段１７における演出の設定内容（例えば、ＣＧキャラクタ演出内容等）、スクリプト生成手段１７におけるスクリプト生成結果等を蓄積する。

また、蓄積手段１３は、台本に対応するＴＶＭＬスクリプト、番組制作エンジンとしてのＡＰＥスクリプト、番組や対話シーンの生成時に使用することができる番組セットアップ用のＴＶＭＬスクリプト、番組生成データ（テンプレート）、番組に登場するキャラクタとの対話シーンを実現するための対話シーン生成データ（テンプレート）、対話応答用辞書（レスポンススクリプト）等が蓄積される。

ここで、上述した番組セットアップ用のＴＶＭＬスクリプトとは、番組としてどのようなスタジオセット、小道具、照明、出演者（出演者同士の関係（性別、年齢、性格、職業（歌手、コメンテータ、コメディアン等）も含む）、音声を用いるか等の番組の初期設定情報が指定されたスクリプトである。また、対話応答用辞書とは、例えば視聴者からの問い合わせに対して想定される回答データが蓄積されたものである。したがって、蓄積手段１３は、例えばデータベース等のように文字情報や画像情報、その他の情報の集合物であり、問い合わせの内容から蓄積された各種情報を検索することができるように体系的に構成されていてもよい。

なお、蓄積手段１３は、上述した各種データを、送受信手段１９を介してインターネットやや通信回線等に代表される通信ネットワークに接続された外部装置等から取得することもできる。

スクリプト生成手段１４は、予め蓄積された合成音声を利用した元となるＴＶＭＬスクリプトを入力し、元のコンテンツに含まれるＣＧキャラクタ等の振る舞い等の演出を記述した演出ＴＶＭＬスクリプトを、元のＴＶＭＬスクリプトにおける合成音声でＣＧキャラクタを喋らせる指示に対応するＴＶＭＬスクリプトの直前に組み込む。また、スクリプト生成手段１４は、合成音声を予め録音した肉声でＣＧキャラクタが喋るようにＴＶＭＬスクリプトへの置換処理を行う。

つまり、スクリプト生成手段１４は、感情推定手段１６により得られる演出用のスクリプトを、既に設定されたＣＧキャラクタの演出がある場合には、その演出のＴＶＭＬスクリプトを新たに生成したスクリプトに置換し、ＣＧキャラクタの演出がない場合には、生成したスクリプトを付加する。なお、この場合には、使用者等が録音した肉声の音声データからなるセリフが用いられる。

録音処理手段１５は、マイク等の入力手段から得られる使用者等からの音声（肉声等）で所定の言葉や文章を録音する。なお、録音処理手段１５は、所定のファイル形式（例えば、ＷＡＶＥ，ＡＩＦＦ，ＭＰ３，ａｕ，ＷＭＡ、ｒａｍ、ＡＡＣ等）のファイルデータを生成し、生成した音声データを蓄積手段１３やスクリプト生成手段１４等に出力する。

感情推定手段１６は、録音処理手段１５により録音された肉声（人間の生声等）に対する感情を推定する。また、感情推定手段１６における推定結果（感情の種別、強さ等）等の予め設定される条件に対してＣＧキャラクタの振る舞い（演出）が設定される。

ここで、感情推定手段１６は、例えば録音したセリフ等の肉声データを入力し、感情推定結果として、肉声の感情の種類（例えば、平常、怒り、喜び、悲しみ等）と、その強さ（度合い、レベル）を出力する。なお、感情推定手段１６における感情の種類と、強さの推定は、例えば、予め設定される感情推定エンジン（例えば、ＳＴ）等を用いて解析することができる。なお、感情推定手段１６における具体的な推定手法については後述する。

演出手段１７は、感情推定手段１６により得られる推定結果に基づいてコンテンツに登場するＣＧキャラクタ等の表情やジェスチャー等の振る舞いを表現するＴＶＭＬスクリプトを、蓄積手段１３に蓄積されたデータ群から選択してスクリプト生成手段１４に出力する。また、演出手段１７は、例えば推定結果として得られる肉声の感情の種類や、その強さ毎に使用者等が容易に演出設定を行えるようにＧＵＩ等による入力フォームを用いて設定を入力することができる。これにより、容易かつ効率的に適切な演出を入力することができる。なお、演出手段１７における演出設定の詳細な説明については後述する。

再生手段１８は、予め生成された元となるＴＶＭＬスクリプトを読み込み、使用者等が肉声を録音する直前までの映像を再生し、その場所で停止する。なお、肉声を録音する直前とは、例えば、元となるＴＶＭＬスクリプトに含まれる合成音声が出力される部分の直前等があるが、これに限定されるものではない。これにより、使用者等は、スクリプトを再生させながら録音処理手段１５を用いて必要箇所毎に肉声を録音することができる。また、再生された内容を見ながら、使用者等に音声を録音させることができるため、コンテンツの流れに沿った適切な感情による肉声の入力を実現することができる。

また、再生手段１８は、スクリプト生成手段１４から得られる本実施形態による最終的なＣＧキャラクタの演出を含むＴＶＭＬスクリプトと、それに対応する肉声からなる音声データとに基づいて番組を再生する。

なお、再生手段１８は、ＴＶＭＬプレイヤー等の機能を有している。ここで、ＴＶＭＬプレイヤーとは、ＴＶＭＬで記述されたスクリプトを読み取り、番組の映像や音声等をリアルタイムに出力することができるソフトウェアである。また、ＴＶＭＬプレイヤーは、スタジオセットをリアルタイムＣＧで生成し、ＣＧスタジオセットの中に登場する番組司会者や出演者等のＣＧキャラクタがＴＶＭＬスクリプト中に記述されたセリフを喋り、演技するところを表示する機能を有する。

また、ＴＶＭＬプレイヤーは、その他にも動画再生、文字フォント、及び画像によるタイトル表示やスーパーインポーズ、オーディオデータファイル再生によるＢＧＭ再生、音声によるナレーション等をリアルタイムに生成し、番組の映像、音声を作成する機能を有する。再生手段１８は、これらの機能を用いることで効率的で高精度な番組や対話シーンを再生することができる。

送受信手段１９は、インターネットや通信回線等に代表される通信ネットワークを介して接続される外部装置等から元となるＴＶＭＬスクリプトや、演出設定内容、予め録音された肉声データ、感情推定エンジン、素材データ、ＡＰＥ、各種スクリプト群等を受信するための通信インタフェイスである。また、送受信手段１９は、本実施形態により生成されたＴＶＭＬスクリプト、番組、録音された肉声データ、新たに設定された演出内容等を通信ネットワークを介して他の外部装置等に送信することもできる。

制御手段２０は、コンテンツ生成装置１０における各機能構成全体の制御を行う。具体的には、制御手段２０は、入力手段１１により入力された使用者からの入力情報に基づいて肉声の録音処理を行ったり、取得した肉声データから感情推定処理を行ったり、推定結果からＣＧキャラクタの振る舞い等の演出の設定を行ったり、設定された演出に基づいてスクリプトの生成を行ったり、生成されたスクリプトを再生する等の各種制御処理を行う。

これにより、肉声データから得られる感情情報に基づいて、その肉声に最適な演出を付加したコンテンツを生成することができる。具体的には、例えばアフレコ処理を行う際に、肉声の持つ感情情報を基にして、肉声の感情に適したＣＧキャラクタの表情やジェスチャー等を表現する演出処理を自動的に付加することができる。したがって、コンテンツ生成処理では、アフレコ処理でＣＧキャラクタの合成音声によるセリフを肉声に置換するだけで、人手を介さず自動的に最適な振る舞い等の演出が付加されたＣＧ映像コンテンツを生成することが可能となる。

＜コンテンツ処理概要＞
次に、上述したコンテンツ生成装置１０を用いたコンテンツ生成までのコンテンツ処理概要について図を用いて説明する。図２は、コンテンツ生成処理の概要の一例を示す図である。

図２に示す例では、まず合成音声を利用してＣＧキャラクタが会話等を行うコンテンツを元となるＴＶＭＬスクリプトとして入力すると、スクリプト生成手段１４において、スクリプト読出処理３１と、スクリプト置換・付加処理３２とを行う。

具体的には、スクリプト生成手段１４は、合成音声で出演者が喋る記述がされている元となるスクリプトを文字列として所定単位（例えば、１行又は１コマンド）毎に読み込み、読み込んだスクリプト内に所定の合成音声でＣＧキャラクタを喋らせる指示に対応するＴＶＭＬスクリプトがある場合、録音処理手段１５における録音処理において、そこまでのＴＶＭＬスクリプトを再生手段１８としてのＴＶＭＬプレイヤーで再生させる。また、合成音声の直前で再生が停止され、録音処理により合成音声で喋ったセリフを人が入力手段１１としてのマイクに向かって喋り、肉声の録音処理を行う。

＜録音処理の具体例＞
ここで、録音処理手段１５における録音処理の具体例について図を用いて説明する。図３は、録音処理の内容を説明するための一例を示す図である。なお、図３（ａ）は、録音処理を行うための音声入力フォームの一例であり、図３（ｂ）は、元となるＴＶＭＬスクリプトの再生画面の一例を示している。

図３（ａ）に示す音声入力フォーム４０は、メニュー表示領域４１と、録音編集領域４２と、ボタン領域４３とを有するよう構成されている。また、図３（ｂ）には、再生画面５０にＣＧキャラクタ５１が表示され、合成音声のセリフを喋る直前の動作で停止状態となっている。

メニュー表示領域４１は、元のＴＶＭＬファイルや、既に録音された肉声データファイルを読み出したり、読み出したＴＶＭＬファイルのファイル名を表示したり、肉声を録音した肉声データにファイル名を付けて蓄積手段１３等の所定の記憶領域に蓄積したり、所定のファイルに関する各種オプションを設定する。

また、録音編集領域４２は、図３（ｂ）示すような「楽しい」というセリフを合成音声で発音させているＣＧキャラクタに対して、図２に示すように使用者３３等は、マイク等の入力手段１１を用いて、録音編集領域４２にある録音ボタン４４を押して所定時間内に肉声によるセリフ（図３においては、「楽しい」）の入力を行う。このとき、録音ボタン４４を押すと、図３（ｂ）に示す画面のＣＧキャラクタも動作させることもできるため、口の動きやジェスチャー等を見ながら適切なタイミングで最適な肉声の入力を行うことができる。

更に、予め設定された合成音声の音声出力時間は、ステータス表示領域４５に表示されるため、使用者等は録音する肉声の長さを容易に把握することができ、長さを調整することができる。

また、録音編集領域４２では、録音した結果を音や映像によりプレビューしたり、録音をキャンセルしたり、元のＴＶＭＬスクリプトに含まれる次のセリフ（次の行）について録音をしたり、キャプション（タイトル、説明文等）等を付けるか否かの設定等を行うことができる。

ボタン領域４３は、録音処理を中止する「中止ボタン」、録音した音声を全てプレビューする「全てプレビューボタン」、録音した音声ファイルを例えばＷＡＶＥファイル形式等の所定のファイル形式で蓄積手段１３等の所定の領域に保存する「保存ボタン」、音声ファイルを圧縮して保存する「圧縮して保存ボタン」等を有している。なお、ボタン領域４３には、予備領域や各種データ表示領域等も含まれている。

なお、上述する録音処理においては、１行分の録音が終了した場合に、例えば「録音が完了しました」とダイアログメッセージを表示したり、ＴＶＭＬスクリプトファイル全体のアフレコが終了した場合には、例えば「収録作業が完了しました。」等とダイアログメッセージを表示したり、アフレコ後のファイルを保存した場合には、例えば「ファイルを保存しました」といったダイアログを表示するようにしてもよい。これにより、使用者３３等は、対応する画面を参照しながら、高精度に肉声を入力することができる。

次に、図２では、マイク等の入力手段１１により入力される録音したセリフ等の音声データのファイル（例えば、ＷＡＶＥファイル）を感情推定手段１６に入力して感情推定処理により解析を行い、肉声の感情の種類（平常、怒り、喜び、悲しみ）と、その強さ等の感情情報を出力する。

＜感情推定処理について＞
ここで、感情推定処理について説明する。感情推定処理では、例えば入力される肉声等の音声データから、その音声の強度やテンポ、抑揚等を検出し、検出された強度、テンポ、及び抑揚等の時間軸方向の変化量のパターンと、そのパターンに関連づけて予め蓄積されている感情状態とに基づいて対応する感情状態を出力する。

また、その他にも、例えば声の音量、声の波形、声のピッチ、又は音韻等の音声認識を行い、その結果と上述の声の条件に対応して予め設定した閾値とを比較することで、その人の感情を推定する手法や、発言内容に対して形態素解析を行い、その音声認識の結果から予め設定された感情辞書を用いて発話の感情を推定する手法等を用いることができる。

なお、感情推定処理では、例えば予め設定された感情推定エンジンを用いて肉声に対する感情を推定することができる。ここで、感情推定エンジンとしては、例えばＳＴ（ＳｅｎｓｉｂｉｌｉｔｙＴｅｃｈｎｏｌｏｇｙ：感性制御技術）を用いることができる。ＳＴは、コンピュータに人の感性情報を理解させ、反応させるというソフトウェア技術であり、具体的には、人の発話から得られる話者の感情情報（例えば、怒り、喜び、悲しみ、平常、笑い、興奮等）を、音声認識等を通じて得られたワード情報に付加することで、例えば話者の感情推移に応じた連続応答シナリオシステム等の構築が可能である。

また、上述した感情推定手法は、既に周知の技術であり、例えば特開平５−１２０２３号公報、特開平９−２２２９６号公報、特開平１１−１１９７９１号公報、特開２００２−９１４８２号公報等に示されている。

図２において、上述した感情推定手段１６による感情推定処理により推定された感情情報に基づいて、推定される感情情報（感情の種別、感情の強さ等）を出力する。出力された感情情報は、演出手段１７による設定処理により、蓄積手段１３に予め蓄積されたＣＧキャラクタの演出スクリプト群の中から、感情情報に対応した振る舞いを行うためのＴＶＭＬスクリプトを取得する。

＜演出設定＞
ここで、ＣＧキャラクタ演出ＤＢ等の蓄積手段１３に蓄積されているＣＧキャラクタの演出の設定手法について図を用いて説明する。図４は、演出設定の内容を説明するための一例の図である。また、図５は、図４に対応する演出設定入力フォームにより設定された演出内容の一例を示す図である。

演出手段１７における演出設定処理は、感情推定手段１６における感情推定処理により得られる結果に基づいて、ＣＧキャラクタを対象にして、表情や顔の角度（上を向く、下を向く等）、うなずき、首を横に振る等の振る舞いを生成するＴＶＭＬスクリプトを推定結果（例えば、感情の種別や感情の強さ等）に合わせてそれぞれ設定する。

なお、本実施形態では、演出設定時に使用者に容易に演出の設定を行わせるための演出設定入力フォーム６０を有している。演出設定入力フォーム６０は、具体的には、タグ表示領域６１、各種設定領域６２と、ボタン領域６３とを有するように構成されている。

タグ表示領域６１は、予め設定される感情推定手段１６により得られる感情情報に含まれる感情の種別（平常、怒り、喜び、悲しみ等）、及び感情の強さ（レベル１、レベル２、レベル３等）毎に各種設定領域６２を表示できるようにタグが形成されている。また、各種設定領域６２には、それぞれの感情の種別及びレベル毎に、例えば「表情（種類、程度）」、「顔の向き（縦、横）」、「うなずき（する／しない、回数、スピード）」、「首ふり（する／しない、回数、スピード、振りの程度）」、「使用者設定（ポーズ名、スピード等）」等のうち、少なくとも１つを設定できるようになっている。

また、設定後は、ボタン領域６３にある「設定ボタン」を押すことにより設定が行われ、例えば図５に示すような各感情の種別及びレベルによるＣＧキャラクタ演出ＤＢが蓄積される。また、ボタン領域６３において、「キャンセルボタン」を押すことによりそれまでの設定がキャンセルされる。

また、図５には、設定内容の一例として、各感情情報に応じて付加する振る舞い（演出）の内容とその程度が示されている。具体的には、それぞれ感情の種別及び強さに応じて表情、表情程度、顔の位置、動作等が設定されている。つまり、この設定内容に基づいて演出用のスクリプトが生成される。

なお、図５において、例えば「うなずく」、「大きくうなずく」、「首を横に振る」については、その動作をする又はしないを乱数等によりランダムに決定させるようにすることができる。また、例えば、感情の種別が「喜び」である場合には、どのレベル（レベル１、レベル２、レベル３、・・・）においても「表情程度」に所定の範囲が設定されており、その範囲内で乱数等によりランダムに値が決定させるようにすることができる。

なお、上述したように、感情情報に応じて付加する振る舞いは、例えば表情とその程度、顔を上又は下に向ける角度、うなずき、首を横に振る動作であるが本発明においてはこれに限定されるものではない。また、表情の程度については、感情のレベル毎に下限値と上限値を設定し、その中から毎回ランダムに値を決定することができる。また、うなずき、及び首を横に振る動作についても、その動作を付加する／しないは毎回ランダムに決定することができる。これにより、ＣＧキャラクタに対して、ある特定の動作だけでなく、ある程度の範囲の中で汎用的に動作を行わせることができる。これにより、使用者等に飽きさせない演出を行うことができる。

また、図５に示す演出内容以外にも、例えば番組におけるスタジオの照明やカメラワーク、スイッチング等の仮想空間上の演出対象物について設定することができる。これにより、高演出のコンテンツを提供することができる。

また、図２における演出処理では、感情推定処理の出力を用いて、蓄積手段１３に蓄積された図５に示すようなＣＧキャラクタ演出ＤＢから感情に適したＣＧキャラクタの表情やジェスチャー等の振る舞いを選択し、それに対応するＴＶＭＬスクリプトを生成して、スクリプト生成手段１４のスクリプト置換・付加処理３２に出力する。

更に、スクリプト置換・付加処理３２では、演出手段１７により得られたＣＧキャラクタの演出情報に基づいてスクリプトの置換や付加を行う。また、スクリプト置換・付加処理３２は、上述した録音処理により得られた肉声を入力し、肉声を利用したＴＶＭＬスクリプトを生成し、再生手段１８としてのＴＶＭＬプレイヤーにより再生され、コンテンツ３４が出力される。

＜スクリプト生成例＞
ここで、本実施形態により生成されるスクリプト例について、図を用いて説明する。図６は、本実施形態により生成されるスクリプトの一例を示す図である。なお、図６（ａ）は、元となるＴＶＭＬスクリプトの一例を示し、図６（ｂ）は、本実施形態により生成された後のＴＶＭＬスクリプトの一例を示す図である。なお、図６（ａ）、（ｂ）の左側には、便宜上行番号を付している。

本実施形態におけるスクリプト生成では、まず図６（ａ）に示すように、合成音声によりＣＧキャラクタに喋らせるためのスクリプトに含まれる所定のコマンド（例えば、ｔａｌｋコマンド（図６（ａ）における（０５）行目））を検出すると、そこまでのスクリプトがＴＶＭＬプレイヤー上に表示され、ＣＧキャラクタを停止させる。

そこで、使用者等は、合成音声と同じセリフを録音する。なお、録音された肉声は、ユニークなファイル名をつけて保存する（例えば、図６の例では、ｖｏｉｃｅ００１．ｗａｖ）。

次に、録音された肉声に基づく感情推定を行い、感情の種別とレベルを出力する（図６の例では、感情は「喜び（ｈａｐｐｙ）」で、レベルは「２」とする）。

次に、感情情報に基づいて、ＣＧキャラクタの表情と程度を決定するＴＶＭＬスクリプトを生成する。（図６の例では、表情はｈａｐｐｙで、程度は０．６）。また、感情情報に基づいて、ＣＧキャラクタの振る舞いを決定し、そのＴＶＭＬスクリプトを生成する（図６の例では、顔の角度は７度上を向き、うなずく動作（する・しないをランダムに選択した場合で０．５）とする）。

更に、図６（ａ）に示す元のスクリプトの（０５）行目の箇所を、図６（ｂ）に示すよう（０５）〜（０８）行目に示すように置換・付加する。そして、その結果をＴＶＭＬスクリプトとして出力する。

なお、上述したコンテンツ生成は、入力されるＴＶＭＬスクリプトの最終行まで行い、最終的にメモリ等に一時的に蓄積された肉声利用のＴＶＭＬスクリプトが出力される。

上述したように、コンテンツ生成装置１０の機能構成により、肉声データから得られる感情情報に基づいて、その肉声に最適な演出を付加したコンテンツを生成することができる。具体的には、合成音声を利用して、セリフを変えながら、番組全体を一旦作成することができ、作成した番組を再生させながら、再生箇所毎に肉声を録音することができる。また、肉声を録音するだけで、録音した肉声の感情に合わせたＣＧキャラクタの振る舞いが自動的に付加され、適切な演出の番組が自動的に生成できる。

＜コンテンツ生成プログラム＞
ここで、上述したコンテンツ生成装置１０は、上述した専用の装置構成により本発明におけるコンテンツの生成を行うこともできるが、各構成における処理をコンピュータに実行させるための実行プログラムを生成し、例えば、汎用のパーソナルコンピュータやサーバ等にプログラムをインストールすることにより、コンテンツ生成処理を実現することができる。

＜ハードウェア構成＞
ここで、本発明における実行可能なコンピュータのハードウェア構成例について図を用いて説明する。図７は、本発明におけるコンテンツ生成処理が実現可能なハードウェア構成の一例を示す図である。

図７におけるコンピュータ本体には、入力装置７１と、出力装置７２と、ドライブ装置７３と、補助記憶装置７４と、メモリ装置７５と、各種制御を行うＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）７６と、ネットワーク接続装置７７とを有するよう構成されており、これらはシステムバスＢで相互に接続されている。

入力装置７１は、使用者が操作するキーボード及びマウス等のポインティングデバイスやマイク等の音声入力デバイス等を有しており、使用者からのプログラムの実行等、各種操作信号を入力する。出力装置７２は、本発明における処理を行うためのコンピュータ本体を操作するのに必要な各種ウィンドウやデータ等を表示するディスプレイや音声を出力するスピーカ等を有し、ＣＰＵ７６が有する制御プログラムによりプログラムの実行経過や結果等を表示又は音声出力することができる。

ここで、本発明において、コンピュータ本体にインストールされる実行プログラムは、例えばＣＤ−ＲＯＭ等の記録媒体７８等により提供される。プログラムを記録した記録媒体７８は、ドライブ装置７３にセット可能であり、記録媒体７８に含まれる実行プログラムが、記録媒体７８からドライブ装置７３を介して補助記憶装置７４にインストールされる。

補助記憶装置７４は、ハードディスク等のストレージ手段であり、本発明における実行プログラムや、コンピュータに設けられた制御プログラム等を蓄積し必要に応じて入出力を行うことができる。

メモリ装置７５は、ＣＰＵ７６により補助記憶装置７４から読み出された実行プログラム等を格納する。なお、メモリ装置７５は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）やＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等からなる。

ＣＰＵ７６は、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）等の制御プログラム、メモリ装置７５に格納されている実行プログラムに基づいて、各種演算や各ハードウェア構成部とのデータの入出力等、コンピュータ全体の処理を制御して各処理を実現することができる。また、ＣＰＵ７６は、プログラムの実行中に必要な各種情報を補助記憶装置７４から取得することができ、またＣＰＵ７６は、処理結果等を格納することもできる。

ネットワーク接続装置７７は、通信ネットワーク等と接続することにより、実行プログラムを通信ネットワークに接続されている他の端末等から取得したり、プログラムを実行することで得られた実行結果又は本発明における実行プログラム自体を他の端末等に提供することができる。

上述したようなハードウェア構成により、特別な装置構成を必要とせず、低コストで効率的にコンテンツ生成処理を実現することができる。また、プログラムをインストールすることにより、コンテンツ生成処理を容易に実現することができる。

＜コンテンツ生成処理＞
次に、本発明における実行プログラムによるコンテンツ生成処理手順についてフローチャートを用いて説明する。なお、以下の処理の説明では、コンテンツの一例として「番組」を用いているが本発明においては特に限定されるものではない。また、以下に示す予め生成されたＴＶＭＬスクリプトには、合成音声を出力するスクリプトを含むものとする。

＜コンテンツ生成処理手順＞
図８は、本実施形態におけるコンテンツ生成処理手順の一例を示すフローチャートである。図８において、まず、既存のＴＶＭＬスクリプトを文字列として１行読み込む（Ｓ０１）。

ここで、最終行までの処理が終了したか否かを判断し（Ｓ０２）、終了していない場合（Ｓ０２において、ＮＯ）、その読み込んだ行が所定のスクリプトであるか否かを判断する（Ｓ０３）。ここで、所定のスクリプトとは、例えば合成音声により生成された所定のＣＧキャラクタを喋らせるスクリプトのコマンド（例えば、“ｔａｌｋ”等）を含んでいるか否かにより判断する。

Ｓ０３の処理において、所定のスクリプトでない場合（Ｓ０３において、ＮＯ）、バッファ（メモリ）等にその読み込んだＴＶＭＬスクリプトを追加し（Ｓ０４）、Ｓ０１の処理に戻り、次のスクリプトを読み込んで以降の処理を行う。

また、Ｓ０３の処理において、読み込んだスクリプト行が所定のスクリプトである場合（Ｓ０３において、ＹＥＳ）、読み込んだＴＶＭＬスクリプトをバッファの最後に追加して、バッファに存在するＴＶＭＬスクリプトをＴＶＭＬプレイヤーで再生させる（Ｓ０５）。なお、上述のＴＶＭＬスクリプトによる再生処理では、ＣＧキャラクタを既存の合成音声で喋らせる直前で再生が停止させる。

次に、合成音声により喋るセリフと同一のセリフを使用者等が喋り、その肉声をマイク等の音声入力手段により録音する録音処理を行う（Ｓ０６）。なお、録音処理では肉声をＷＡＶＥファイル等のファイル形式で蓄積する。

次に、録音したセリフの肉声データを、例えば感情推定エンジン（ＳＴ）に入力し、ＳＴによりＷＡＶＥファイルを解析し、肉声の感情の種類（平常、怒り、喜び、悲しみ）と、その強さを出力する感情推定処理を行う（Ｓ０７）。

また、Ｓ０７の処理により得られる感情推定結果に基づいて、感情に適したＣＧキャラクタの表情やジェスチャー等の振る舞いを表現する演出内容を選択し、その選択した演出に内容に対応するＴＶＭＬスクリプトを生成する演出処理を行う（Ｓ０８）。

次に、上述したＳ０８の演出処理により得られるＴＶＭＬスクリプトを元のＴＶＭＬスクリプトの合成音声でＣＧキャラクタを喋らせる指示に対応するＴＶＭＬスクリプトの直前に組み込み、また、合成音声から録音した肉声でＣＧキャラクタが喋るように、対応するＴＶＭＬスクリプトの置換処理を行う（Ｓ０９）。

また、Ｓ０９の処理が終了後、再生用のバッファに蓄積されたデータをクリアし（Ｓ１０）、Ｓ０１に戻り、中断していた元のＴＶＭＬスクリプトを中断箇所の次の行から読み込み上述した各処理を行う。

また、Ｓ０２の処理において、最終行の処理が完了した場合（Ｓ０２において、ＹＥＳ）、新たに生成されたＴＶＭＬスクリプトを出力して処理を終了する（Ｓ１１）。

上述したように、本発明における実行プログラムを用いて肉声データから得られる感情情報に基づいて、その肉声に最適な演出を付加したコンテンツを容易に生成することができる。

上述したように本発明によれば、肉声データから得られる感情情報に基づいて、その肉声に最適な演出を付加したコンテンツを生成することができる。具体的には、合成音声を利用して、セリフを変えながら、番組全体を一旦作成することができる。また、作成した番組を再生させながら、再生箇所毎に肉声を録音することができる。また、肉声を録音するだけで、録音した肉声の感情に合わせたＣＧキャラクタの振る舞いが自動的に付加され、適切な演出の番組が自動的に生成できる。

なお、本発明における演出内容は、上述したようにＣＧキャラクタに対する振る舞い等に限定されるものではなく、例えばスタジオのカメラワークや照明等、仮想空間上の演出対象物に対する演出であればよい。

また、本発明におけるコンテンツ生成処理により生成されたコンテンツは、例えば使用者が自分のチャンネルに自分の作成した台本をアップロードして番組としてインターネット上に公開するといった、いわゆるブログテレビとして使用したり、ニュース番組を自動生成したり、コミュニティ番組の制作、教育ツール、広告ツールとして広く適用することができる。

以上本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。

コンテンツ生成装置の一構成例を示す図である。コンテンツ生成処理の概要の一例を示す図である。録音処理の内容を説明するための一例を示す図である。演出設定の内容を説明するための一例の図である。図４に対応する演出設定入力フォームにより設定された演出内容の一例を示す図である。本実施形態により生成されるスクリプトの一例を示す図である。本発明におけるコンテンツ生成処理が実現可能なハードウェア構成の一例を示す図である。本実施形態におけるコンテンツ生成処理手順の一例を示すフローチャートである。

符号の説明

１０コンテンツ生成装置
１１入力手段
１２出力手段
１３蓄積手段
１４スクリプト生成手段
１５録音処理手段
１６感情推定手段
１７演出手段
１８再生手段
１９送受信手段
２０制御手段
３１スクリプト読出処理
３２スクリプト置換・付加処理
３３使用者
３４コンテンツ
４０音声入力フォーム
４１メニュー表示領域
４２録音編集領域
４３，６３ボタン領域
４４録音ボタン
４５ステータス表示領域
５０再生画面
５１ＣＧキャラクタ
６０演出設定入力フォーム
６１タグ表示領域
６２各種設定領域
７１入力装置
７２出力装置
７３ドライブ装置
７４補助記憶装置
７５メモリ装置
７６ＣＰＵ
７７ネットワーク接続装置
７８記録媒体

Claims

入力される肉声データから得られる感情情報に基づいて、演出対象物の表情又は動作に対する演出を行わせたコンテンツを生成するコンテンツ生成装置において、
予め生成されたコンテンツのスクリプトを所定単位毎に読み込む読み込み手段と、
前記読み込み手段により得られたスクリプトが、前記演出対象物のセリフを含む場合に、前記演出対象物を使用する使用者の前記セリフの肉声を録音するための録音手段と、
前記録音手段により録音された前記セリフの肉声データから感情推定を行う感情推定手段と、
前記感情推定手段により得られる感情の種別及び強さからなる感情情報に対応して、前記演出対象物に対して予め設定された表情又は動作を行わせるための演出情報を抽出する演出手段と、
前記録音手段により録音された前記セリフの肉声データと前記演出手段により得られる前記演出情報とを用いて生成されたスクリプトを、前記読み込み手段により読み込まれた前記セリフを含むスクリプトと置換するスクリプト生成手段とを有することを特徴とするコンテンツ生成装置。
前記演出手段は、
演出情報を設定する際には、前記感情の種別及び強さ毎に前記演出対象物の表情又は動作に対して下限値と上限値を設定し、前記演出情報を抽出する際には、前記下限値から前記上限値との間でランダムに値を決定することを特徴とする請求項１に記載のコンテンツ生成装置。
前記録音手段において、前記使用者の肉声を録音するために前記予め生成されたコンテンツを再生し、前記肉声を録音する直前で前記コンテンツを停止させる再生手段を有することを特徴とする請求項１又は２に記載のコンテンツ生成装置。
コンピュータを、請求項１乃至３の何れか１項に記載のコンテンツ生成装置が有する各手段として機能させるためのコンテンツ生成プログラム。