JP4917920B2 - コンテンツ生成装置及びコンテンツ生成プログラム - Google Patents

コンテンツ生成装置及びコンテンツ生成プログラム Download PDF

Info

Publication number
JP4917920B2
JP4917920B2 JP2007054295A JP2007054295A JP4917920B2 JP 4917920 B2 JP4917920 B2 JP 4917920B2 JP 2007054295 A JP2007054295 A JP 2007054295A JP 2007054295 A JP2007054295 A JP 2007054295A JP 4917920 B2 JP4917920 B2 JP 4917920B2
Authority
JP
Japan
Prior art keywords
script
content
emotion
voice
recording
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007054295A
Other languages
English (en)
Other versions
JP2008217447A (ja
Inventor
斉周 浜口
浩之 金子
誠喜 井上
守 道家
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2007054295A priority Critical patent/JP4917920B2/ja
Publication of JP2008217447A publication Critical patent/JP2008217447A/ja
Application granted granted Critical
Publication of JP4917920B2 publication Critical patent/JP4917920B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Processing Or Creating Images (AREA)

Description

本発明は、コンテンツ生成装置及びコンテンツ生成プログラムに係り、特に、肉声データから得られる感情情報に基づいて、その肉声に最適な演出を付加したコンテンツを生成するためのコンテンツ生成装置及びコンテンツ生成プログラムに関する。
従来より、ニュースやスポーツ等の情報提供番組等の映像コンテンツを映像コンテンツ制作者が制作する際に、映像を生成する前に所定の記述様式により予め台本を作成し、これを専用のソフトウェア等に入力することで、台本に従ったCG(Computer Graphics)キャラクタ等の仮想物体の仮想空間上の動作やカメラワークを行う映像を生成することが可能な仕組みが存在している(例えば、特許文献1参照。)。
なお、上述した特許文献1に示されている技術では、TVML(TV program Marking Language)を用いて番組の制作を行っている。ここで、TVMLとは、テレビ番組を制作するためのオブジェクトベース記述言語である。TVMLは、テレビ番組の映像と音声を、素材と台本(演出内容)とに分けて記述するものであり、番組台本を記述すれば、パソコン等で動作するソフトウェア等がこれを読取り、即座にテレビ番組として視聴(提示)することができるものである。TVMLを利用することで、CGキャラクタの動作やカメラワークをその都度指定し、アドリブ的に制御することができる。
また、TVMLを用いた番組制作では、制作者側で制作された番組の台本や、その台本に記述される番組制作エンジン(APE:Automatic Production Engine)、制作した番組に用いられる素材データ等を用いて番組を制作する。ここで、上述した番組制作エンジンとは、番組に登場する番組司会者や出演者等のCGキャラクタや番組における1つの動作の単位で「タイトル表示」、「ズームイン」、「CGキャラクタの動作」等のイベントが予め定義されたものであり、この番組制作エンジンを用いることにより、ニュースやバラエティ、スポーツ、ドラマ等の所定のジャンルの番組制作を効率的に実現することができる。
ここで、CG等を用いて例えばテレビ番組用の映像コンテンツを生成する場合、出演者であるCGキャラクタの喋りの質を確保するため、合成音声ではなく肉声を利用することが多い。この場合、予め出演者のセリフを録音しておき、これらの声に合わせて手動でCGキャラクタの表情や振る舞いを付加したCG映像コンテンツを生成する。或いは、先にCGキャラクタの表情や振る舞いが付加されたCG映像を生成しておき、その後CG映像を再生しながら肉声を割り当てるいわゆるアフレコ(アフター・レコーディング)処理によりCG映像コンテンツを生成する。
また、上記以外の手法としては、音声合成アプリケーションによる合成音声を用いて一旦合成音声でCG映像コンテンツを作成し、その後、このCG映像コンテンツを再生させながら肉声に置換する方法が存在している(例えば、特許文献2参照。)。
特開2005−318254号公報 特開2004−71013号公報
しかしながら、上述した従来技術の場合、予め肉声を録音し、その音声を聞いた上でCGキャラクタの表情やジェスチャーを付加する場合では、セリフを簡単に変更することができない。また、セリフに対応したキャラクタ等の演出対象物に対する表情やジェスチャー等の振る舞い(演出)の付加は人手で行うため手間と時間がかかってしまう。
また、CGキャラクタの表情やジェスチャーは既に決められているため、それに合うように肉声を割り当てなければならないが、肉声を割り当てるまでは実際にセリフが入ったCG映像コンテンツを見ることができない。また、これについてもセリフを簡単に変えることができず、更に、演出対象物に対する演出の付加を人手で行う必要がある。
また、従来技術である上述した特許文献2に示されている手法では、予め合成音声によりCG映像コンテンツを作成できるため、セリフを変更した上で、事前にCG映像コンテンツ全体を確認することができる。しかしながら、合成音声によるCG映像コンテンツ生成後のアフレコ処理では、アフレコした肉声に合った適切な表情やジェスチャー等を演出対象物に実現させるには、やはりアフレコ後の音声を聞きながら人手で調整する必要がある。
本発明は、上述した問題点に鑑みなされたものであり、肉声データから得られる感情情報に基づいて、その肉声に最適な演出を付加したコンテンツを生成するためのコンテンツ生成装置及びコンテンツ生成プログラムを提供することを目的とする。
上記課題を解決するために、本件発明は、以下の特徴を有する課題を解決するための手段を採用している。
請求項1に記載された発明は、入力される肉声データから得られる感情情報に基づいて、演出対象物の表情又は動作に対する演出を行わせたコンテンツを生成するコンテンツ生成装置において、予め生成されたコンテンツのスクリプトを所定単位毎に読み込む読み込み手段と、前記読み込み手段により得られたスクリプトが、前記演出対象物のセリフを含む場合に、前記演出対象物を使用する使用者の前記セリフの肉声を録音するための録音手段と、前記録音手段により録音された前記セリフの肉声データから感情推定を行う感情推定手段と、前記感情推定手段により得られる感情の種別及び強さからなる感情情報に対応して、前記演出対象物に対して予め設定された表情又は動作を行わせるための演出情報を抽出する演出手段と、前記録音手段により録音された前記セリフの肉声データと前記演出手段により得られる前記演出情報とを用いて生成されたスクリプトを、前記読み込み手段により読み込まれた前記セリフを含むスクリプトと置換するスクリプト生成手段とを有することを特徴とする。
請求項1記載の発明によれば、肉声データから得られる感情情報に基づいて、その肉声に最適な演出を付加したコンテンツを生成することができる。また、肉声から得られる感情情報に対応して、演出対象物に高精度な演出を行わせることができる。これにより、適切な演出の番組を迅速に制作することができる。
請求項に記載された発明は、前記演出手段は、演出情報を設定する際には、前記感情の種別及び強さ毎に前記演出対象物の表情又は動作に対して下限値と上限値を設定し、前記演出情報を抽出する際には、前記下限値から前記上限値との間でランダムに値を決定することを特徴とする。
請求項記載の発明によれば、ある特定の動作だけでなく、ある程度の範囲の中で汎用的に動作を行わせることができる。これにより、使用者等に飽きさせない演出を行うことができる。
請求項に記載された発明は、前記録音手段において、前記使用者の肉声を録音するために前記予め生成されたコンテンツを再生し、前記肉声を録音する直前で前記コンテンツを停止させる再生手段を有することを特徴とする。
請求項記載の発明によれば、スクリプトを再生させながら、必要箇所毎に肉声を録音することができる。また、再生された内容を見ながら、使用者等に音声を録音させることができるため、コンテンツの流れに沿った適切な感情による肉声の入力を実現することができる。
請求項に記載された発明は、コンピュータを、請求項1乃至3の何れか1項に記載のコンテンツ生成装置が有する各手段として機能させるためのコンテンツ生成プログラムである
請求項記載の発明によれば、肉声データから得られる感情情報に基づいて、その肉声に最適な演出を付加したコンテンツを生成することができる。また、肉声から得られる感情情報に対応して、演出対象物に高精度な演出を行わせることができる。これにより、適切な演出の番組を迅速に制作することができる。更に、実行プログラムをコンピュータにインストールすることにより、容易にコンテンツ生成を実現することができる。
本発明によれば、肉声データから得られる感情情報に基づいて、その肉声に最適な演出を付加したコンテンツを生成することができる。
<本発明の概要>
本発明では、例えばテレビ番組用のCG映像等を有するコンテンツの生成において、アフレコにより肉声(生声)を利用した際に、肉声の感情に合わせてCGキャラクタ等の演出対象物に対する表情やジェスチャー等の振る舞い(演出)を自動的に付加するものである。
具体的には、本発明はテレビ番組等を主とした映像コンテンツ制作の分野に関わるものであり、CGを用いたテレビ番組用の映像コンテンツを制作する際、例えば映像コンテンツの出演者であるCGキャラクタにセリフを喋らせるのに、肉声を使って音声のリアリティを向上させる場合があるが、この場合に肉声の持つ感情情報を用いて肉声の感情に合ったCGキャラクタの表情やジェスチャーを自動的に付加することを可能とする。
以下に、上述したような特徴を有する本発明におけるコンテンツ生成装置及びコンテンツ生成プログラムを好適に実施した形態について、図面を用いて詳細に説明する。
なお、本実施形態では、コンテンツの一例として番組を用いる。また、演出対象物の一例として、番組に出演しているCGキャラクタを用いる。更に、本実施形態では、番組の生成や提示等に用いられるスクリプトの一例として、TVMLを用いる。なお、本発明は、TVMLに限定されるものではなく、TVML以外の表現形式を用いてもよい。
<コンテンツ生成装置:機能構成例>
図1は、コンテンツ生成装置の一構成例を示す図である。図1に示すコンテンツ生成装置10は、入力手段11と、出力手段12と、蓄積手段13と、スクリプト生成手段14と、録音処理手段15と、感情推定手段16と、演出手段17と、再生手段18と、送受信手段19と、制御手段20とを有するよう構成されている。
入力手段11は、使用者や制作者等からのコンテンツ生成指示や、音声入力指示、音声(肉声)、感情推定指示、スクリプト生成指示、再生指示等、本装置を実施するための各種入力を受け付ける。なお、入力手段11は、例えばキーボードや、マウス等のポインティングデバイス、マイク等の音声入力デバイス等からなる。
出力手段12は、入力手段11により入力された指示内容や、録音された音声、指示内容に基づいて生成されたコンテンツ、そのコンテンツに係る映像及び音声等の編集内容、編集結果等の内容を表示したり、録音した肉声等の音声データ等を出力する。なお、出力手段12は、ディスプレイやスピーカ等からなる。
蓄積手段13は、入力される音声や、コンテンツを生成するための画像や映像、音声、テキストデータ等の各種データからなる複数の素材データ、生成されたコンテンツ、感情推定手段16において推定された感情の内容、演出手段17における演出の設定内容(例えば、CGキャラクタ演出内容等)、スクリプト生成手段17におけるスクリプト生成結果等を蓄積する。
また、蓄積手段13は、台本に対応するTVMLスクリプト、番組制作エンジンとしてのAPEスクリプト、番組や対話シーンの生成時に使用することができる番組セットアップ用のTVMLスクリプト、番組生成データ(テンプレート)、番組に登場するキャラクタとの対話シーンを実現するための対話シーン生成データ(テンプレート)、対話応答用辞書(レスポンススクリプト)等が蓄積される。
ここで、上述した番組セットアップ用のTVMLスクリプトとは、番組としてどのようなスタジオセット、小道具、照明、出演者(出演者同士の関係(性別、年齢、性格、職業(歌手、コメンテータ、コメディアン等)も含む)、音声を用いるか等の番組の初期設定情報が指定されたスクリプトである。また、対話応答用辞書とは、例えば視聴者からの問い合わせに対して想定される回答データが蓄積されたものである。したがって、蓄積手段13は、例えばデータベース等のように文字情報や画像情報、その他の情報の集合物であり、問い合わせの内容から蓄積された各種情報を検索することができるように体系的に構成されていてもよい。
なお、蓄積手段13は、上述した各種データを、送受信手段19を介してインターネットやや通信回線等に代表される通信ネットワークに接続された外部装置等から取得することもできる。
スクリプト生成手段14は、予め蓄積された合成音声を利用した元となるTVMLスクリプトを入力し、元のコンテンツに含まれるCGキャラクタ等の振る舞い等の演出を記述した演出TVMLスクリプトを、元のTVMLスクリプトにおける合成音声でCGキャラクタを喋らせる指示に対応するTVMLスクリプトの直前に組み込む。また、スクリプト生成手段14は、合成音声を予め録音した肉声でCGキャラクタが喋るようにTVMLスクリプトへの置換処理を行う。
つまり、スクリプト生成手段14は、感情推定手段16により得られる演出用のスクリプトを、既に設定されたCGキャラクタの演出がある場合には、その演出のTVMLスクリプトを新たに生成したスクリプトに置換し、CGキャラクタの演出がない場合には、生成したスクリプトを付加する。なお、この場合には、使用者等が録音した肉声の音声データからなるセリフが用いられる。
録音処理手段15は、マイク等の入力手段から得られる使用者等からの音声(肉声等)で所定の言葉や文章を録音する。なお、録音処理手段15は、所定のファイル形式(例えば、WAVE,AIFF,MP3,au,WMA、ram、AAC等)のファイルデータを生成し、生成した音声データを蓄積手段13やスクリプト生成手段14等に出力する。
感情推定手段16は、録音処理手段15により録音された肉声(人間の生声等)に対する感情を推定する。また、感情推定手段16における推定結果(感情の種別、強さ等)等の予め設定される条件に対してCGキャラクタの振る舞い(演出)が設定される。
ここで、感情推定手段16は、例えば録音したセリフ等の肉声データを入力し、感情推定結果として、肉声の感情の種類(例えば、平常、怒り、喜び、悲しみ等)と、その強さ(度合い、レベル)を出力する。なお、感情推定手段16における感情の種類と、強さの推定は、例えば、予め設定される感情推定エンジン(例えば、ST)等を用いて解析することができる。なお、感情推定手段16における具体的な推定手法については後述する。
演出手段17は、感情推定手段16により得られる推定結果に基づいてコンテンツに登場するCGキャラクタ等の表情やジェスチャー等の振る舞いを表現するTVMLスクリプトを、蓄積手段13に蓄積されたデータ群から選択してスクリプト生成手段14に出力する。また、演出手段17は、例えば推定結果として得られる肉声の感情の種類や、その強さ毎に使用者等が容易に演出設定を行えるようにGUI等による入力フォームを用いて設定を入力することができる。これにより、容易かつ効率的に適切な演出を入力することができる。なお、演出手段17における演出設定の詳細な説明については後述する。
再生手段18は、予め生成された元となるTVMLスクリプトを読み込み、使用者等が肉声を録音する直前までの映像を再生し、その場所で停止する。なお、肉声を録音する直前とは、例えば、元となるTVMLスクリプトに含まれる合成音声が出力される部分の直前等があるが、これに限定されるものではない。これにより、使用者等は、スクリプトを再生させながら録音処理手段15を用いて必要箇所毎に肉声を録音することができる。また、再生された内容を見ながら、使用者等に音声を録音させることができるため、コンテンツの流れに沿った適切な感情による肉声の入力を実現することができる。
また、再生手段18は、スクリプト生成手段14から得られる本実施形態による最終的なCGキャラクタの演出を含むTVMLスクリプトと、それに対応する肉声からなる音声データとに基づいて番組を再生する。
なお、再生手段18は、TVMLプレイヤー等の機能を有している。ここで、TVMLプレイヤーとは、TVMLで記述されたスクリプトを読み取り、番組の映像や音声等をリアルタイムに出力することができるソフトウェアである。また、TVMLプレイヤーは、スタジオセットをリアルタイムCGで生成し、CGスタジオセットの中に登場する番組司会者や出演者等のCGキャラクタがTVMLスクリプト中に記述されたセリフを喋り、演技するところを表示する機能を有する。
また、TVMLプレイヤーは、その他にも動画再生、文字フォント、及び画像によるタイトル表示やスーパーインポーズ、オーディオデータファイル再生によるBGM再生、音声によるナレーション等をリアルタイムに生成し、番組の映像、音声を作成する機能を有する。再生手段18は、これらの機能を用いることで効率的で高精度な番組や対話シーンを再生することができる。
送受信手段19は、インターネットや通信回線等に代表される通信ネットワークを介して接続される外部装置等から元となるTVMLスクリプトや、演出設定内容、予め録音された肉声データ、感情推定エンジン、素材データ、APE、各種スクリプト群等を受信するための通信インタフェイスである。また、送受信手段19は、本実施形態により生成されたTVMLスクリプト、番組、録音された肉声データ、新たに設定された演出内容等を通信ネットワークを介して他の外部装置等に送信することもできる。
制御手段20は、コンテンツ生成装置10における各機能構成全体の制御を行う。具体的には、制御手段20は、入力手段11により入力された使用者からの入力情報に基づいて肉声の録音処理を行ったり、取得した肉声データから感情推定処理を行ったり、推定結果からCGキャラクタの振る舞い等の演出の設定を行ったり、設定された演出に基づいてスクリプトの生成を行ったり、生成されたスクリプトを再生する等の各種制御処理を行う。
これにより、肉声データから得られる感情情報に基づいて、その肉声に最適な演出を付加したコンテンツを生成することができる。具体的には、例えばアフレコ処理を行う際に、肉声の持つ感情情報を基にして、肉声の感情に適したCGキャラクタの表情やジェスチャー等を表現する演出処理を自動的に付加することができる。したがって、コンテンツ生成処理では、アフレコ処理でCGキャラクタの合成音声によるセリフを肉声に置換するだけで、人手を介さず自動的に最適な振る舞い等の演出が付加されたCG映像コンテンツを生成することが可能となる。
<コンテンツ処理概要>
次に、上述したコンテンツ生成装置10を用いたコンテンツ生成までのコンテンツ処理概要について図を用いて説明する。図2は、コンテンツ生成処理の概要の一例を示す図である。
図2に示す例では、まず合成音声を利用してCGキャラクタが会話等を行うコンテンツを元となるTVMLスクリプトとして入力すると、スクリプト生成手段14において、スクリプト読出処理31と、スクリプト置換・付加処理32とを行う。
具体的には、スクリプト生成手段14は、合成音声で出演者が喋る記述がされている元となるスクリプトを文字列として所定単位(例えば、1行又は1コマンド)毎に読み込み、読み込んだスクリプト内に所定の合成音声でCGキャラクタを喋らせる指示に対応するTVMLスクリプトがある場合、録音処理手段15における録音処理において、そこまでのTVMLスクリプトを再生手段18としてのTVMLプレイヤーで再生させる。また、合成音声の直前で再生が停止され、録音処理により合成音声で喋ったセリフを人が入力手段11としてのマイクに向かって喋り、肉声の録音処理を行う。
<録音処理の具体例>
ここで、録音処理手段15における録音処理の具体例について図を用いて説明する。図3は、録音処理の内容を説明するための一例を示す図である。なお、図3(a)は、録音処理を行うための音声入力フォームの一例であり、図3(b)は、元となるTVMLスクリプトの再生画面の一例を示している。
図3(a)に示す音声入力フォーム40は、メニュー表示領域41と、録音編集領域42と、ボタン領域43とを有するよう構成されている。また、図3(b)には、再生画面50にCGキャラクタ51が表示され、合成音声のセリフを喋る直前の動作で停止状態となっている。
メニュー表示領域41は、元のTVMLファイルや、既に録音された肉声データファイルを読み出したり、読み出したTVMLファイルのファイル名を表示したり、肉声を録音した肉声データにファイル名を付けて蓄積手段13等の所定の記憶領域に蓄積したり、所定のファイルに関する各種オプションを設定する。
また、録音編集領域42は、図3(b)示すような「楽しい」というセリフを合成音声で発音させているCGキャラクタに対して、図2に示すように使用者33等は、マイク等の入力手段11を用いて、録音編集領域42にある録音ボタン44を押して所定時間内に肉声によるセリフ(図3においては、「楽しい」)の入力を行う。このとき、録音ボタン44を押すと、図3(b)に示す画面のCGキャラクタも動作させることもできるため、口の動きやジェスチャー等を見ながら適切なタイミングで最適な肉声の入力を行うことができる。
更に、予め設定された合成音声の音声出力時間は、ステータス表示領域45に表示されるため、使用者等は録音する肉声の長さを容易に把握することができ、長さを調整することができる。
また、録音編集領域42では、録音した結果を音や映像によりプレビューしたり、録音をキャンセルしたり、元のTVMLスクリプトに含まれる次のセリフ(次の行)について録音をしたり、キャプション(タイトル、説明文等)等を付けるか否かの設定等を行うことができる。
ボタン領域43は、録音処理を中止する「中止ボタン」、録音した音声を全てプレビューする「全てプレビューボタン」、録音した音声ファイルを例えばWAVEファイル形式等の所定のファイル形式で蓄積手段13等の所定の領域に保存する「保存ボタン」、音声ファイルを圧縮して保存する「圧縮して保存ボタン」等を有している。なお、ボタン領域43には、予備領域や各種データ表示領域等も含まれている。
なお、上述する録音処理においては、1行分の録音が終了した場合に、例えば「録音が完了しました」とダイアログメッセージを表示したり、TVMLスクリプトファイル全体のアフレコが終了した場合には、例えば「収録作業が完了しました。」等とダイアログメッセージを表示したり、アフレコ後のファイルを保存した場合には、例えば「ファイルを保存しました」といったダイアログを表示するようにしてもよい。これにより、使用者33等は、対応する画面を参照しながら、高精度に肉声を入力することができる。
次に、図2では、マイク等の入力手段11により入力される録音したセリフ等の音声データのファイル(例えば、WAVEファイル)を感情推定手段16に入力して感情推定処理により解析を行い、肉声の感情の種類(平常、怒り、喜び、悲しみ)と、その強さ等の感情情報を出力する。
<感情推定処理について>
ここで、感情推定処理について説明する。感情推定処理では、例えば入力される肉声等の音声データから、その音声の強度やテンポ、抑揚等を検出し、検出された強度、テンポ、及び抑揚等の時間軸方向の変化量のパターンと、そのパターンに関連づけて予め蓄積されている感情状態とに基づいて対応する感情状態を出力する。
また、その他にも、例えば声の音量、声の波形、声のピッチ、又は音韻等の音声認識を行い、その結果と上述の声の条件に対応して予め設定した閾値とを比較することで、その人の感情を推定する手法や、発言内容に対して形態素解析を行い、その音声認識の結果から予め設定された感情辞書を用いて発話の感情を推定する手法等を用いることができる。
なお、感情推定処理では、例えば予め設定された感情推定エンジンを用いて肉声に対する感情を推定することができる。ここで、感情推定エンジンとしては、例えばST(Sensibility Technology:感性制御技術)を用いることができる。STは、コンピュータに人の感性情報を理解させ、反応させるというソフトウェア技術であり、具体的には、人の発話から得られる話者の感情情報(例えば、怒り、喜び、悲しみ、平常、笑い、興奮等)を、音声認識等を通じて得られたワード情報に付加することで、例えば話者の感情推移に応じた連続応答シナリオシステム等の構築が可能である。
また、上述した感情推定手法は、既に周知の技術であり、例えば特開平5−12023号公報、特開平9−22296号公報、特開平11−119791号公報、特開2002−91482号公報等に示されている。
図2において、上述した感情推定手段16による感情推定処理により推定された感情情報に基づいて、推定される感情情報(感情の種別、感情の強さ等)を出力する。出力された感情情報は、演出手段17による設定処理により、蓄積手段13に予め蓄積されたCGキャラクタの演出スクリプト群の中から、感情情報に対応した振る舞いを行うためのTVMLスクリプトを取得する。
<演出設定>
ここで、CGキャラクタ演出DB等の蓄積手段13に蓄積されているCGキャラクタの演出の設定手法について図を用いて説明する。図4は、演出設定の内容を説明するための一例の図である。また、図5は、図4に対応する演出設定入力フォームにより設定された演出内容の一例を示す図である。
演出手段17における演出設定処理は、感情推定手段16における感情推定処理により得られる結果に基づいて、CGキャラクタを対象にして、表情や顔の角度(上を向く、下を向く等)、うなずき、首を横に振る等の振る舞いを生成するTVMLスクリプトを推定結果(例えば、感情の種別や感情の強さ等)に合わせてそれぞれ設定する。
なお、本実施形態では、演出設定時に使用者に容易に演出の設定を行わせるための演出設定入力フォーム60を有している。演出設定入力フォーム60は、具体的には、タグ表示領域61、各種設定領域62と、ボタン領域63とを有するように構成されている。
タグ表示領域61は、予め設定される感情推定手段16により得られる感情情報に含まれる感情の種別(平常、怒り、喜び、悲しみ等)、及び感情の強さ(レベル1、レベル2、レベル3等)毎に各種設定領域62を表示できるようにタグが形成されている。また、各種設定領域62には、それぞれの感情の種別及びレベル毎に、例えば「表情(種類、程度)」、「顔の向き(縦、横)」、「うなずき(する/しない、回数、スピード)」、「首ふり(する/しない、回数、スピード、振りの程度)」、「使用者設定(ポーズ名、スピード等)」等のうち、少なくとも1つを設定できるようになっている。
また、設定後は、ボタン領域63にある「設定ボタン」を押すことにより設定が行われ、例えば図5に示すような各感情の種別及びレベルによるCGキャラクタ演出DBが蓄積される。また、ボタン領域63において、「キャンセルボタン」を押すことによりそれまでの設定がキャンセルされる。
また、図5には、設定内容の一例として、各感情情報に応じて付加する振る舞い(演出)の内容とその程度が示されている。具体的には、それぞれ感情の種別及び強さに応じて表情、表情程度、顔の位置、動作等が設定されている。つまり、この設定内容に基づいて演出用のスクリプトが生成される。
なお、図5において、例えば「うなずく」、「大きくうなずく」、「首を横に振る」については、その動作をする又はしないを乱数等によりランダムに決定させるようにすることができる。また、例えば、感情の種別が「喜び」である場合には、どのレベル(レベル1、レベル2、レベル3、・・・)においても「表情程度」に所定の範囲が設定されており、その範囲内で乱数等によりランダムに値が決定させるようにすることができる。
なお、上述したように、感情情報に応じて付加する振る舞いは、例えば表情とその程度、顔を上又は下に向ける角度、うなずき、首を横に振る動作であるが本発明においてはこれに限定されるものではない。また、表情の程度については、感情のレベル毎に下限値と上限値を設定し、その中から毎回ランダムに値を決定することができる。また、うなずき、及び首を横に振る動作についても、その動作を付加する/しないは毎回ランダムに決定することができる。これにより、CGキャラクタに対して、ある特定の動作だけでなく、ある程度の範囲の中で汎用的に動作を行わせることができる。これにより、使用者等に飽きさせない演出を行うことができる。
また、図5に示す演出内容以外にも、例えば番組におけるスタジオの照明やカメラワーク、スイッチング等の仮想空間上の演出対象物について設定することができる。これにより、高演出のコンテンツを提供することができる。
また、図2における演出処理では、感情推定処理の出力を用いて、蓄積手段13に蓄積された図5に示すようなCGキャラクタ演出DBから感情に適したCGキャラクタの表情やジェスチャー等の振る舞いを選択し、それに対応するTVMLスクリプトを生成して、スクリプト生成手段14のスクリプト置換・付加処理32に出力する。
更に、スクリプト置換・付加処理32では、演出手段17により得られたCGキャラクタの演出情報に基づいてスクリプトの置換や付加を行う。また、スクリプト置換・付加処理32は、上述した録音処理により得られた肉声を入力し、肉声を利用したTVMLスクリプトを生成し、再生手段18としてのTVMLプレイヤーにより再生され、コンテンツ34が出力される。
<スクリプト生成例>
ここで、本実施形態により生成されるスクリプト例について、図を用いて説明する。図6は、本実施形態により生成されるスクリプトの一例を示す図である。なお、図6(a)は、元となるTVMLスクリプトの一例を示し、図6(b)は、本実施形態により生成された後のTVMLスクリプトの一例を示す図である。なお、図6(a)、(b)の左側には、便宜上行番号を付している。
本実施形態におけるスクリプト生成では、まず図6(a)に示すように、合成音声によりCGキャラクタに喋らせるためのスクリプトに含まれる所定のコマンド(例えば、talkコマンド(図6(a)における(05)行目))を検出すると、そこまでのスクリプトがTVMLプレイヤー上に表示され、CGキャラクタを停止させる。
そこで、使用者等は、合成音声と同じセリフを録音する。なお、録音された肉声は、ユニークなファイル名をつけて保存する(例えば、図6の例では、voice001.wav)。
次に、録音された肉声に基づく感情推定を行い、感情の種別とレベルを出力する(図6の例では、感情は「喜び(happy)」で、レベルは「2」とする)。
次に、感情情報に基づいて、CGキャラクタの表情と程度を決定するTVMLスクリプトを生成する。(図6の例では、表情はhappyで、程度は0.6)。また、感情情報に基づいて、CGキャラクタの振る舞いを決定し、そのTVMLスクリプトを生成する(図6の例では、顔の角度は7度上を向き、うなずく動作(する・しないをランダムに選択した場合で0.5)とする)。
更に、図6(a)に示す元のスクリプトの(05)行目の箇所を、図6(b)に示すよう(05)〜(08)行目に示すように置換・付加する。そして、その結果をTVMLスクリプトとして出力する。
なお、上述したコンテンツ生成は、入力されるTVMLスクリプトの最終行まで行い、最終的にメモリ等に一時的に蓄積された肉声利用のTVMLスクリプトが出力される。
上述したように、コンテンツ生成装置10の機能構成により、肉声データから得られる感情情報に基づいて、その肉声に最適な演出を付加したコンテンツを生成することができる。具体的には、合成音声を利用して、セリフを変えながら、番組全体を一旦作成することができ、作成した番組を再生させながら、再生箇所毎に肉声を録音することができる。また、肉声を録音するだけで、録音した肉声の感情に合わせたCGキャラクタの振る舞いが自動的に付加され、適切な演出の番組が自動的に生成できる。
<コンテンツ生成プログラム>
ここで、上述したコンテンツ生成装置10は、上述した専用の装置構成により本発明におけるコンテンツの生成を行うこともできるが、各構成における処理をコンピュータに実行させるための実行プログラムを生成し、例えば、汎用のパーソナルコンピュータやサーバ等にプログラムをインストールすることにより、コンテンツ生成処理を実現することができる。
<ハードウェア構成>
ここで、本発明における実行可能なコンピュータのハードウェア構成例について図を用いて説明する。図7は、本発明におけるコンテンツ生成処理が実現可能なハードウェア構成の一例を示す図である。
図7におけるコンピュータ本体には、入力装置71と、出力装置72と、ドライブ装置73と、補助記憶装置74と、メモリ装置75と、各種制御を行うCPU(Central Processing Unit)76と、ネットワーク接続装置77とを有するよう構成されており、これらはシステムバスBで相互に接続されている。
入力装置71は、使用者が操作するキーボード及びマウス等のポインティングデバイスやマイク等の音声入力デバイス等を有しており、使用者からのプログラムの実行等、各種操作信号を入力する。出力装置72は、本発明における処理を行うためのコンピュータ本体を操作するのに必要な各種ウィンドウやデータ等を表示するディスプレイや音声を出力するスピーカ等を有し、CPU76が有する制御プログラムによりプログラムの実行経過や結果等を表示又は音声出力することができる。
ここで、本発明において、コンピュータ本体にインストールされる実行プログラムは、例えばCD−ROM等の記録媒体78等により提供される。プログラムを記録した記録媒体78は、ドライブ装置73にセット可能であり、記録媒体78に含まれる実行プログラムが、記録媒体78からドライブ装置73を介して補助記憶装置74にインストールされる。
補助記憶装置74は、ハードディスク等のストレージ手段であり、本発明における実行プログラムや、コンピュータに設けられた制御プログラム等を蓄積し必要に応じて入出力を行うことができる。
メモリ装置75は、CPU76により補助記憶装置74から読み出された実行プログラム等を格納する。なお、メモリ装置75は、ROM(Read Only Memory)やRAM(Random Access Memory)等からなる。
CPU76は、OS(Operating System)等の制御プログラム、メモリ装置75に格納されている実行プログラムに基づいて、各種演算や各ハードウェア構成部とのデータの入出力等、コンピュータ全体の処理を制御して各処理を実現することができる。また、CPU76は、プログラムの実行中に必要な各種情報を補助記憶装置74から取得することができ、またCPU76は、処理結果等を格納することもできる。
ネットワーク接続装置77は、通信ネットワーク等と接続することにより、実行プログラムを通信ネットワークに接続されている他の端末等から取得したり、プログラムを実行することで得られた実行結果又は本発明における実行プログラム自体を他の端末等に提供することができる。
上述したようなハードウェア構成により、特別な装置構成を必要とせず、低コストで効率的にコンテンツ生成処理を実現することができる。また、プログラムをインストールすることにより、コンテンツ生成処理を容易に実現することができる。
<コンテンツ生成処理>
次に、本発明における実行プログラムによるコンテンツ生成処理手順についてフローチャートを用いて説明する。なお、以下の処理の説明では、コンテンツの一例として「番組」を用いているが本発明においては特に限定されるものではない。また、以下に示す予め生成されたTVMLスクリプトには、合成音声を出力するスクリプトを含むものとする。
<コンテンツ生成処理手順>
図8は、本実施形態におけるコンテンツ生成処理手順の一例を示すフローチャートである。図8において、まず、既存のTVMLスクリプトを文字列として1行読み込む(S01)。
ここで、最終行までの処理が終了したか否かを判断し(S02)、終了していない場合(S02において、NO)、その読み込んだ行が所定のスクリプトであるか否かを判断する(S03)。ここで、所定のスクリプトとは、例えば合成音声により生成された所定のCGキャラクタを喋らせるスクリプトのコマンド(例えば、“talk”等)を含んでいるか否かにより判断する。
S03の処理において、所定のスクリプトでない場合(S03において、NO)、バッファ(メモリ)等にその読み込んだTVMLスクリプトを追加し(S04)、S01の処理に戻り、次のスクリプトを読み込んで以降の処理を行う。
また、S03の処理において、読み込んだスクリプト行が所定のスクリプトである場合(S03において、YES)、読み込んだTVMLスクリプトをバッファの最後に追加して、バッファに存在するTVMLスクリプトをTVMLプレイヤーで再生させる(S05)。なお、上述のTVMLスクリプトによる再生処理では、CGキャラクタを既存の合成音声で喋らせる直前で再生が停止させる。
次に、合成音声により喋るセリフと同一のセリフを使用者等が喋り、その肉声をマイク等の音声入力手段により録音する録音処理を行う(S06)。なお、録音処理では肉声をWAVEファイル等のファイル形式で蓄積する。
次に、録音したセリフの肉声データを、例えば感情推定エンジン(ST)に入力し、STによりWAVEファイルを解析し、肉声の感情の種類(平常、怒り、喜び、悲しみ)と、その強さを出力する感情推定処理を行う(S07)。
また、S07の処理により得られる感情推定結果に基づいて、感情に適したCGキャラクタの表情やジェスチャー等の振る舞いを表現する演出内容を選択し、その選択した演出に内容に対応するTVMLスクリプトを生成する演出処理を行う(S08)。
次に、上述したS08の演出処理により得られるTVMLスクリプトを元のTVMLスクリプトの合成音声でCGキャラクタを喋らせる指示に対応するTVMLスクリプトの直前に組み込み、また、合成音声から録音した肉声でCGキャラクタが喋るように、対応するTVMLスクリプトの置換処理を行う(S09)。
また、S09の処理が終了後、再生用のバッファに蓄積されたデータをクリアし(S10)、S01に戻り、中断していた元のTVMLスクリプトを中断箇所の次の行から読み込み上述した各処理を行う。
また、S02の処理において、最終行の処理が完了した場合(S02において、YES)、新たに生成されたTVMLスクリプトを出力して処理を終了する(S11)。
上述したように、本発明における実行プログラムを用いて肉声データから得られる感情情報に基づいて、その肉声に最適な演出を付加したコンテンツを容易に生成することができる。
上述したように本発明によれば、肉声データから得られる感情情報に基づいて、その肉声に最適な演出を付加したコンテンツを生成することができる。具体的には、合成音声を利用して、セリフを変えながら、番組全体を一旦作成することができる。また、作成した番組を再生させながら、再生箇所毎に肉声を録音することができる。また、肉声を録音するだけで、録音した肉声の感情に合わせたCGキャラクタの振る舞いが自動的に付加され、適切な演出の番組が自動的に生成できる。
なお、本発明における演出内容は、上述したようにCGキャラクタに対する振る舞い等に限定されるものではなく、例えばスタジオのカメラワークや照明等、仮想空間上の演出対象物に対する演出であればよい。
また、本発明におけるコンテンツ生成処理により生成されたコンテンツは、例えば使用者が自分のチャンネルに自分の作成した台本をアップロードして番組としてインターネット上に公開するといった、いわゆるブログテレビとして使用したり、ニュース番組を自動生成したり、コミュニティ番組の制作、教育ツール、広告ツールとして広く適用することができる。
以上本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。
コンテンツ生成装置の一構成例を示す図である。 コンテンツ生成処理の概要の一例を示す図である。 録音処理の内容を説明するための一例を示す図である。 演出設定の内容を説明するための一例の図である。 図4に対応する演出設定入力フォームにより設定された演出内容の一例を示す図である。 本実施形態により生成されるスクリプトの一例を示す図である。 本発明におけるコンテンツ生成処理が実現可能なハードウェア構成の一例を示す図である。 本実施形態におけるコンテンツ生成処理手順の一例を示すフローチャートである。
符号の説明
10 コンテンツ生成装置
11 入力手段
12 出力手段
13 蓄積手段
14 スクリプト生成手段
15 録音処理手段
16 感情推定手段
17 演出手段
18 再生手段
19 送受信手段
20 制御手段
31 スクリプト読出処理
32 スクリプト置換・付加処理
33 使用者
34 コンテンツ
40 音声入力フォーム
41 メニュー表示領域
42 録音編集領域
43,63 ボタン領域
44 録音ボタン
45 ステータス表示領域
50 再生画面
51 CGキャラクタ
60 演出設定入力フォーム
61 タグ表示領域
62 各種設定領域
71 入力装置
72 出力装置
73 ドライブ装置
74 補助記憶装置
75 メモリ装置
76 CPU
77 ネットワーク接続装置
78 記録媒体

Claims (4)

  1. 入力される肉声データから得られる感情情報に基づいて、演出対象物の表情又は動作に対する演出を行わせたコンテンツを生成するコンテンツ生成装置において、
    予め生成されたコンテンツのスクリプトを所定単位毎に読み込む読み込み手段と、
    前記読み込み手段により得られたスクリプトが、前記演出対象物のセリフを含む場合に、前記演出対象物を使用する使用者の前記セリフの肉声を録音するための録音手段と、
    前記録音手段により録音された前記セリフの肉声データから感情推定を行う感情推定手段と、
    前記感情推定手段により得られる感情の種別及び強さからなる感情情報に対応して、前記演出対象物に対して予め設定された表情又は動作を行わせるための演出情報を抽出する演出手段と、
    前記録音手段により録音された前記セリフの肉声データと前記演出手段により得られる前記演出情報とを用いて生成されたスクリプトを、前記読み込み手段により読み込まれた前記セリフを含むスクリプトと置換するスクリプト生成手段とを有することを特徴とするコンテンツ生成装置。
  2. 前記演出手段は、
    演出情報を設定する際には、前記感情の種別及び強さ毎に前記演出対象物の表情又は動作に対して下限値と上限値を設定し、前記演出情報を抽出する際には、前記下限値から前記上限値との間でランダムに値を決定することを特徴とする請求項に記載のコンテンツ生成装置。
  3. 前記録音手段において、前記使用者の肉声を録音するために前記予め生成されたコンテンツを再生し、前記肉声を録音する直前で前記コンテンツを停止させる再生手段を有することを特徴とする請求項1又は2に記載のコンテンツ生成装置。
  4. コンピュータを、請求項1乃至3の何れか1項に記載のコンテンツ生成装置が有する各手段として機能させるためのコンテンツ生成プログラム。
JP2007054295A 2007-03-05 2007-03-05 コンテンツ生成装置及びコンテンツ生成プログラム Expired - Fee Related JP4917920B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007054295A JP4917920B2 (ja) 2007-03-05 2007-03-05 コンテンツ生成装置及びコンテンツ生成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007054295A JP4917920B2 (ja) 2007-03-05 2007-03-05 コンテンツ生成装置及びコンテンツ生成プログラム

Publications (2)

Publication Number Publication Date
JP2008217447A JP2008217447A (ja) 2008-09-18
JP4917920B2 true JP4917920B2 (ja) 2012-04-18

Family

ID=39837407

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007054295A Expired - Fee Related JP4917920B2 (ja) 2007-03-05 2007-03-05 コンテンツ生成装置及びコンテンツ生成プログラム

Country Status (1)

Country Link
JP (1) JP4917920B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010140278A (ja) * 2008-12-11 2010-06-24 Nippon Hoso Kyokai <Nhk> 音声情報可視化装置及び音声情報可視化プログラム
JP6069152B2 (ja) * 2013-09-24 2017-02-01 Kddi株式会社 仕草生成装置、仕草生成方法およびコンピュータプログラム
US20220351437A1 (en) * 2019-09-24 2022-11-03 XVI Inc. Animation production system
WO2021059365A1 (ja) * 2019-09-24 2021-04-01 株式会社エクシヴィ アニメーション制作システム
KR102180576B1 (ko) * 2020-05-18 2020-11-18 주식회사 일루니 사용자의 플레잉에 기초하여 재프로그래밍되는 인터랙티브 콘텐츠 제공 방법 및 장치
CN111833418B (zh) * 2020-07-14 2024-03-29 北京百度网讯科技有限公司 动画交互方法、装置、设备以及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3469231B2 (ja) * 1996-03-13 2003-11-25 シャープ株式会社 アニメーション検索装置
JP2874858B2 (ja) * 1997-01-30 1999-03-24 株式会社エイ・ティ・アール知能映像通信研究所 対話型映画システム
JP4017290B2 (ja) * 1999-07-07 2007-12-05 日本放送協会 自動番組制作装置および自動番組制作プログラムを記録した記録媒体
JP4052561B2 (ja) * 2002-08-05 2008-02-27 日本放送協会 映像付帯音声データ記録方法、映像付帯音声データ記録装置および映像付帯音声データ記録プログラム
JP4490726B2 (ja) * 2004-04-28 2010-06-30 日本放送協会 番組制作システム、番組制作管理サーバ、及び番組制作管理プログラム
TW200540732A (en) * 2004-06-04 2005-12-16 Bextech Inc System and method for automatically generating animation

Also Published As

Publication number Publication date
JP2008217447A (ja) 2008-09-18

Similar Documents

Publication Publication Date Title
CN110858408B (zh) 动画制作系统
JP3610083B2 (ja) マルチメディアプレゼンテーション装置および方法
KR20070020252A (ko) 메시지를 수정하기 위한 방법 및 시스템
US20100085363A1 (en) Photo Realistic Talking Head Creation, Content Creation, and Distribution System and Method
US20180226101A1 (en) Methods and systems for interactive multimedia creation
JP4917920B2 (ja) コンテンツ生成装置及びコンテンツ生成プログラム
JP6665446B2 (ja) 情報処理装置、プログラム及び音声合成方法
JP2011175598A (ja) 手話アニメーション生成装置及び手話アニメーション生成プログラム
JP2016038601A (ja) Cgキャラクタ対話装置及びcgキャラクタ対話プログラム
KR20200105700A (ko) 얼굴 표정들에 기초한 음성 효과들
JP2010140278A (ja) 音声情報可視化装置及び音声情報可視化プログラム
JP5041853B2 (ja) コンテンツ生成装置及びコンテンツ生成プログラム
JP4865469B2 (ja) コンテンツ制作サーバ、コンテンツ提示装置、コンテンツ制作プログラム、及びコンテンツ提示プログラム
CN115315960B (zh) 内容修正装置、内容发布服务器、内容修正方法以及记录介质
US11765435B2 (en) Text tagging and graphical enhancement
JP4917917B2 (ja) コンテンツ生成装置及びコンテンツ生成プログラム
JP4052561B2 (ja) 映像付帯音声データ記録方法、映像付帯音声データ記録装置および映像付帯音声データ記録プログラム
JP4796466B2 (ja) コンテンツ管理サーバ、コンテンツ提示装置、コンテンツ管理プログラム、及びコンテンツ提示プログラム
JP2019213160A (ja) 動画編集装置、動画編集方法、及び動画編集プログラム
JP4778302B2 (ja) 対話型コンテンツ提示装置及び対話型コンテンツ提示プログラム
KR20100134022A (ko) 실사 토킹 헤드 생성, 콘텐트 생성, 분배 시스템 및 방법
JP5297404B2 (ja) 番組制作装置及び番組制作プログラム
JP4563418B2 (ja) 音声処理装置、音声処理方法、ならびに、プログラム
KR20070109103A (ko) 온라인 복합 콘텐츠 제작 시스템
JP2002197488A (ja) リップシンクデータ生成装置並びに方法、情報記憶媒体、及び情報記憶媒体の製造方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090728

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110614

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20110712

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110722

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20110712

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120104

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120127

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150203

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4917920

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees