JP2010140278A

JP2010140278A - 音声情報可視化装置及び音声情報可視化プログラム

Info

Publication number: JP2010140278A
Application number: JP2008316254A
Authority: JP
Inventors: Narichika Hamaguchi; 斉周浜口; Hiroyuki Kaneko; 浩之金子; Seiki Inoue; 誠喜井上; Mamoru Doke; 守道家
Original assignee: Nippon Hoso Kyokai NHK; NHK Engineering Services Inc; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp; NHK Engineering System Inc
Priority date: 2008-12-11
Filing date: 2008-12-11
Publication date: 2010-06-24

Abstract

【課題】音声情報から得られる感情情報を効率的に付加して演出された可視化コンテンツを実現する。
【解決手段】入力される音声情報から予め設定された演出対象物を可視化させ、所定の演出を行わせる音声情報可視化装置において、少なくとも１つの音声情報から感情推定を行う感情推定手段と、前記感情推定手段により得られる感情の種別及び強さからなる感情情報に対応して予め設定された前記演出対象物に対する振る舞いを決定する振る舞い決定手段と、前記振る舞い決定手段により得られる振る舞い情報に基づいて生成されたスクリプトを生成するスクリプト生成手段と、前記スクリプト生成手段により得られるスクリプトと前記音声情報とを同期させて合成させる合成手段とを有することにより、上記課題を解決する。
【選択図】図１

Description

本発明は、音声情報可視化装置及び音声情報可視化プログラムに係り、特に、音声情報から得られる感情情報を効率的に付加して演出された可視化コンテンツを実現するための音声情報可視化装置及び音声情報可視化プログラムに関する。

従来、ニュースやスポーツ等の情報提供番組等の映像コンテンツを映像コンテンツ制作者が制作する際に、映像を生成する前に所定の記述様式により予め台本を作成し、これを専用のソフトウェア等に入力することで、台本に従ったＣＧ（ＣｏｍｐｕｔｅｒＧｒａｐｈｉｃｓ）キャラクタ等の仮想物体の仮想空間上の動作や、カメラワークを行う映像を生成することが可能な仕組みが存在している（例えば、特許文献１参照。）。

ここで、例えばＣＧ等を用いてテレビ番組用の映像コンテンツを生成する場合には、出演者であるＣＧキャラクタの喋りの質を確保するため、合成音声ではなく肉声を利用することがある。この場合、ＣＧキャラクタが実際喋っているように演出するため、その場で喋っている声に合わせて、適当に口を動かす作業を行う。また、より効果的な演出を行うために、手動でＣＧキャラクタの表情やジェスチャー等の振る舞い付加したＣＧ映像コンテンツを生成する。

以上のようにして生成されたＣＧ映像は、テレビ番組と同様に映像と音声からなるコンテンツとして放送される。したがって、例えばラジオ番組をＣＧにより可視化し、いわゆる「見えるラジオサービス」として提供することができる。
特開２００５−３１８２５４号公報

しかしながら、例えば上述した従来技術に示すように「見えるラジオサービス」を提供する際、ＣＧキャラクタ（演出対象物）の表情やジェスチャーの付加において、より効果的な番組とするためには、無表情で動きの無いＣＧキャラクタがラジオ番組の出演者の肉声で喋っているだけでは難しく、ＣＧキャラク夕の表情付加やジェスチャー等の演出が必要となる。しかしながら、肉声に適した表情やジェスチャーのためにはラジオ番組の出演者自らがＣＧキャラク夕の動作を操作するか、それらを付加するオペレータによる操作が必要となる。

また、映像・音声の配信において、ＣＧにより可視化したラジオ番組を聴取者（この場合は視聴者）に配信するためには、ラジオ放送に割り当てられた帯域の中で映像音声コンテンツを配信する必要がある。このため、高画質な映像音声コンテンツを聴取者に配信することができない。これは、ＣＧにより可視化された番組ではなく、実際のラジオスタジオの映像を配信する際においても同様である。

本発明は、上述した問題点に鑑みなされたものであり、音声情報から得られる感情情報を効率的に付加して演出された可視化コンテンツを実現するための音声情報可視化装置及び音声情報可視化プログラムを提供することを目的とする。

上記課題を解決するために、本件発明は、以下の特徴を有する課題を解決するための手段を採用している。

請求項１に記載された発明は、入力される音声情報から予め設定された演出対象物を可視化させ、所定の演出を行わせる音声情報可視化装置において、少なくとも１つの音声情報から感情推定を行う感情推定手段と、前記感情推定手段により得られる感情の種別及び強さからなる感情情報に対応して予め設定された前記演出対象物に対する振る舞いを決定する振る舞い決定手段と、前記振る舞い決定手段により得られる振る舞い情報に基づいて生成されたスクリプトを生成するスクリプト生成手段と、前記スクリプト生成手段により得られるスクリプトと前記音声情報とを同期させて合成させる合成手段とを有することを特徴とする。

請求項１記載の発明によれば、音声情報から得られる感情情報を効率的に付加して演出された可視化コンテンツを実現することができる。これにより、適切な演出からなる番組等のコンテンツを迅速に制作することができる。

請求項２に記載された発明は、前記振る舞い決定手段は、前記演出情報として、前記演出対象物の表情又は動作に関する情報を含むことを特徴とする。

請求項２記載の発明によれば、音声情報から得られる感情情報に対応して、演出対象物に高精度な演出を行わせることができる。

請求項３に記載された発明は、前記振る舞い決定手段は、前記演出対象物に応じて前記表情又は動作に対して重み付けさせた演出情報を生成することを特徴とする。

請求項３記載の発明によれば、ある特定の動作だけでなく、ある程度の範囲の中で汎用的に動作を行わせることができる。これにより、使用者等に飽きさせない演出を行うことができる。

請求項４に記載された発明は、前記スクリプトを生成手段は、前記音声情報を再生する際のコンテンツ全体に対する演出用スクリプトを生成することを特徴とする。

請求項４記載の発明によれば、コンテンツ全体のスクリプトを音声情報から得られるスクリプトに対応させることができる。また、コンテンツの流れに沿った適切な感情による音声情報の入力を実現することができる。

請求項５に記載された発明は、入力される音声情報から予め設定された演出対象物を可視化させ、所定の演出を行わせる音声情報可視化プログラムにおいて、
コンピュータを、少なくとも１つの音声情報から感情推定を行う感情推定手段、前記感情推定手段により得られる感情の種別及び強さからなる感情情報に対応して予め設定された前記演出対象物に対する振る舞いを決定する振る舞い決定手段、前記振る舞い決定手段により得られる振る舞い情報に基づいて生成されたスクリプトを生成するスクリプト生成手段、及び、前記スクリプト生成手段により得られるスクリプトと前記音声情報とを同期させて合成させる合成手段として機能させる。

請求項５記載の発明によれば、音声情報から得られる感情情報を効率的に付加して演出された可視化コンテンツを実現することができる。これにより、適切な演出からなる番組等のコンテンツを迅速に制作することができる。更に、実行プログラムをコンピュータにインストールすることにより、容易に音声情報可視化を実現することができる。

本発明によれば、音声情報から得られる感情情報を効率的に付加して演出された可視化コンテンツを実現することができる。

＜本発明の概要＞
本発明では、例えば音声情報等を用いたラジオ番組の制作において、番組出演者の音声が持つ感情情報を用いて、ラジオ番組をＣＧ等で可視化する際に演出を自動的に付加するものである。

具体的には、本発明は、例えばラジオ番組制作及び配信に関し、ラジオ番組を可視化するため、テレビ番組を主とした映像コンテンツ制作の分野に関わるものである。ＣＧを用いたテレピ番組用の映像コンテンツを制作する際、映像ニンテンツの出演者であるＣＧキャラクタに人間の肉声による台詞を喋らせる場合に効果的な演出を目的として、台詞の内容に合わせてＣＧキャラク夕の表情やジェスチャーを付加する場合がある。このような場合に、肉声の持つ感情情報を用いて、肉声の感情に合ったＣＧキャラクタの表情やジェスチャーを自動的に付加することを可能とするものである。

以下に、上述したような特徴を有する本発明における音声情報可視化装置及び音声情報可視化プログラムを好適に実施した形態について、図面を用いて詳細に説明する。

なお、本実施形態では、音声情報を有するコンテンツの一例としてラジオ番組を用いる。また、演出対象物の一例として、その番組に出演しているＣＧキャラクタを用いる。更に、本実施形態では、番組の生成や提示等に用いられるスクリプトの一例として、ＴＶＭＬ（ＴＶｐｒｏｇｒａｍＭａｒｋｉｎｇＬａｎｇｕａｇｅ）を用いる。

ここで、ＴＶＭＬとは、テレビ番組を制作するためのオブジェクトベース記述言語である。ＴＶＭＬは、テレビ番組の映像と音声を、素材と台本（演出内容）とに分けて記述するものであり、番組台本を記述すれば、パソコン等で動作するソフトウェア等がこれを読取り、即座にテレビ番組として視聴（提示）することができるものである。ＴＶＭＬを利用することで、ＣＧキャラクタの動作やカメラワークをその都度指定し、アドリブ的に制御することができる。

また、ＴＶＭＬを用いた番組制作では、制作者側で制作された番組の台本や、その台本に記述される番組制作エンジン（ＡＰＥ：ＡｕｔｏｍａｔｉｃＰｒｏｄｕｃｔｉｏｎＥｎｇｉｎｅ）、制作した番組に用いられる素材データ等を用いて番組を制作する。ここで、上述した番組制作エンジンとは、番組に登場する番組司会者や出演者等のＣＧキャラクタや番組における１つの動作の単位で「タイトル表示」、「ズームイン」、「ＣＧキャラクタの動作」等のイベントが予め定義されたものであり、この番組制作エンジンを用いることにより、ニュースやバラエティ、スポーツ、ドラマ等の所定のジャンルの番組制作を効率的に実現することができる。なお、本発明は、ＴＶＭＬに限定されるものではなく、ＴＶＭＬ以外の表現形式を用いてもよい。

＜ラジオ番組システム：第１の実施形態＞
図１は、第１の実施形態におけるラジオ番組システムの概略構成例を示す図である。なお、図１に示すラジオ番組システム１は、放送局側と聴取者側とを含むシステム全体の概略を示すものである。なお、第１の実施形態では、演出パターンを聴取者側で設定する場合の例を示している。

図１に示す音声情報可視化システムとしてのラジオ番組システム１は、スタジオ１０と、音声ミキサー１１と、音声情報可視化装置１２と、聴取者端末１３とを有するよう構成されている。ここで、以下の説明では、放送局側と聴取者側とに分けて説明する。

＜放送局側＞
スタジオ１０には、音声入力手段として少なくとも１つのマイク２１（図１においては、マイク２１−１，２１−２）を有するよう構成されている。また、音声情報可視化装置１２は、感情推定手段３１と、振る舞い決定手段３２と、ＣＧキャラクタ振る舞いＤＢ（ＤＢ：データベース）３３と、スクリプト置換・付加手段３４と、番組パターンＤＢ３５と、合成手段３６と、変調手段３７とを有するよう構成されている。

スタジオ１０は、マイク２１−１，２１−２により得られる出演者等からの音声情報を音声ミキサー１１及び音声情報可視化装置１２にある感情推定手段３１に出力する。なお、１つのマイクにより入力される音声は、１人（１種類）に限定されず、複数の種類でもよい。

音声ミキサー１１は、スタジオ１０から得られる少なくとも１つの音声情報として入力される音声信号を、他の音声、例えば効果音やＢＧＭ（バックグラウンドミュージック）等とミキシングし、１つの音声データとして加工する。また、音声ミキサー１１は、得られた音声情報を音声情報可視化装置１２の合成手段３６に出力する。

音声情報可視化装置１２において、感情推定手段３１は、入力される少なくとも１つの音声情報のそれぞれに対する感情推定を行う。ここで、感情推定手段３１は、出演者等の声や歌等からなる音声情報からその出演者毎の現在の感情を推定する。つまり、感情推定手段３１は、感情推定結果として、肉声の感情の種類（例えば、平常、怒り、喜び、悲しみ等）と、その強さ（度合い、レベル）を出力する。なお、感情推定手段３１における感情の種類と強さの推定は、例えば予め設定される感情推定エンジン（例えば、ＳＴ（ＳｅｎｓｉｂｉｌｉｔｙＴｅｃｈｎｏｌｏｇｙ：感性制御技術））等を用いて解析することができる。また、感情推定手段３１は、得られた推定内容のうち、例えば「喜び」、「怒り」、「悲しみ」、「平静」、そしてそれらの強さ等からなる感情データとしての振る舞い推定情報を振る舞い決定手段３２に出力する。なお、感情推定手段３１における具体的な推定手法については後述する。

振る舞い決定手段３２は、感情推定手段３１から得られる振る舞い推定情報に基づいて、ＣＧキャラクタ振る舞いＤＢ３３に予め蓄積されている多数の振る舞い情報を参照し、出演者の代わりとなるＣＧキャラクタ（演出対象物）の表情と、その程度（レベル）、及び振る舞い（ジェスチャー）等の振る舞い決定情報の内容を抽出する。また、振る舞い決定手段３２は、得られた振る舞い決定情報をスクリプト置換・付加手段３４に出力する。

ＣＧキャラクタ振る舞いＤＢ３３は、予め多数の振る舞い情報が蓄積されている。ここで、振る舞い情報としては、例えばキャラクタがどのような表情のときにどのような振る舞い動作を行うかの情報等が蓄積される。したがって、ＣＧキャラクタ振る舞いＤＢ３３により、振る舞い推定情報をキーにして対象となる振る舞い情報が抽出される。

スクリプト置換・付加手段３４は、動作スクリプトＤＢ３５に多数蓄積されているＣＧキャラクタに対する動作情報から、上述した振る舞い決定手段３２から得られる振る舞い決定情報により決定された表情やジェスチャー等を行うためのＴＶＭＬスクリプトを抽出し、出力データに対してスクリプト情報として置換又は付加する。

なお、第１の実施形態では、演出パターンを聴取者側で設定する場合の例を示しているため、スクリプト置換・付加手段３４は、振る舞い情報付きのＴＶＭＬスクリプトをそのまま合成手段３６に出力する。

動作スクリプトＤＢ３５は、ＣＧキャラクタに対する動作として、表情、表情の強さ、うなずき、うなずきの程度、立ち上がる、腕を上げる等の動作情報を、動作スクリプトに置換、付加するためのデータベースであり、予め多数の動作情報が蓄積されている。したがって、動作スクリプトＤＢ３５により、振る舞い決定情報をキーにして対象となる振る舞い情報付きのＴＶＭＬスクリプトが抽出される。

合成手段３６は、音声ミキサー１１から得られる音声情報と、スクリプト置換・付加手段３４から得られる振る舞い情報付きのＴＶＭＬスクリプトを合成する。また、合成手段３６は、得られた合成信号を変調手段３７に出力する。

変調手段３７は、合成手段３６により得られた合成信号を放送波として出力するための信号に変調し、変調されたラジオ番組信号を聴取者側に出力する。

ここで、放送局側から聴取者側に配信される信号は、本発明においては放送波に限定されず、例えばインターネット等に代表される通信ネットワーク等を用いて配信されてもよい。

＜感情推定手段３１における感情推定処理について＞
ここで、上述した感情推定手段３１における感情推定処理について説明する。感情推定処理では、例えば入力される肉声等の音声データから、その音声の強度やテンポ、抑揚等を検出し、その検出された強度、テンポ、及び抑揚等の時間軸方向の変化量のパターンと、そのパターンに関連付けて予め蓄積されている感情状態とに基づいて、対応する感情状態を出力する。

また、その他にも、例えば声の音量、声の波形、声のピッチ、又は音韻等の音声認識を行い、その結果と上述の声の条件に対応して予め設定した閾値とを比較することで、その人の感情を推定する手法や、発言内容に対して形態素解析を行い、その音声認識の結果から予め設定された感情辞書を用いて発話の感情を推定する手法等を用いることができる。

なお、感情推定処理では、例えば予め設定された感情推定エンジンを用いて肉声に対する感情を推定することができる。ここで、感情推定エンジンとしては、例えば上述したようにＳＴを用いることができる。ＳＴは、コンピュータに人の感性情報を理解させ、反応させるというソフトウェア技術であり、具体的には人の発話から得られる話者の感情情報（例えば、怒り、喜び、悲しみ、平常、笑い、興奮等）を、音声認識等を通じて得られたワード情報に付加することで、例えば話者の感情推移に応じた連続応答シナリオシステム等の構築が可能である。

また、上述した感情推定手法は、例えば特開平５−１２０２３号公報、特開平９−２２２９６号公報、特開平１１−１１９７９１号公報、特開２００２−９１４８２号公報等に示されている技術を使用することができる。

つまり、本実施形態では、上述した図１に示す感情推定手段３１による感情推定処理により、推定された感情情報（感情の種別、感情の強さ等）が出力される。

＜演出項目とその内容＞
ここで、上述した感情推定手段３１により得られる感情を基づいて付加されるＣＧキャラクタのジェスチャー例について図を用いて説明する。図２は、演出項目とその内容について説明するための図である。図２には、ＣＧキャラクタに対して行うことができる演出項目とその内容が設定されている。図２に示すように、演出項目としては、例えば「表情」、「表情の程度」、「顔の向き（角度）」、「うなづき」、「首を横に振る」、「立ち上がる」、「座っているときの姿勢」、「相手を見る時間の長さ」、「腕のジェスチャ」等がある。

本実施形態では、ラジオ番組出演者の音声の感情に基づいて、ＣＧキャラクタのジェスチャーを設定する。つまり、図２に示すような演出項目に対して、音声情報等により番組出演者が出演中に行うことができる表情及びジェスチャーが設定されることになる。なお、本発明において実現できる演出項目とその内容の種類については図２に示す内容に限定されるものではない。

＜ＣＧキャラクタジェスチャー決定処理＞
次に、ラジオ番組出演者の音声情報から、ＣＧキャラクタのジェスチャーを決定する処理について図を用いて具体的に説明する。図３は、ＣＧキャラクタのジェスチャー決定処理を具体的に説明するための図である。図３に示すように、番組出演者の肉声を感情推定手段３１に入力する。感情推定手段３１は、推定した感情データを出力する。図３の例では、感情は「喜び」で、その強さは「７」としている。これらの情報を、振る舞い推定情報として、振る舞い決定手段３２に出力する。

振る舞い決定手段３２は、振る舞い推定情報に含まれる推定した感情データに応じた動作群をＣＧキャラクタ振る舞いＤＢ３３より取得する。なお、図３の例では、表情は「喜び」で、表情の強さは「７×０．１＋α（図３では、α＝０．１とする）」で、うなずきが「１度」で、うなずきの程度は「７×０．１＋α」で、「立ち上がる」動作で、「腕を上げる」動作が決定されている。これにより、スクリプト置換・付加手段３４では、上述の振る舞い決定情報に基づいて番組パターンＤＢ３５を参照し、図３に示すようなＴＶＭＬスクリプトが生成される。つまり、予め設定されるＴＶＭＬスクリプトに含まれる変数（タイプ（ｔｙｐｅ）、アクション（ａｃｔｉｏｎ）、ポーズ（ｐｏｓｅ）等）に対して振る舞い決定手段３２で得られた振る舞い決定情報が置換又は付加される。

ここで、上述のαは、出演者モデルに合わせて付加される重みを示している。これにより、ＣＧモデルのデザインが決定され、大げさな表現をするキャラクタやおとなしいキャラクタ等のキャラクタ特性を任意に設定することができる。

＜聴取者側＞
次に、図１に示すラジオ番組システム１の聴取者側の処理について説明する。聴取者端末１３は、復調手段４１と、分離手段４２と、演出設定手段４３と、ＴＶＭＬスクリプト生成手段４４と、番組パターンＤＢ４５と、ＴＶＭＬスクリプトコントローラ４６と、ＴＶＭＬプレイヤー４７と、表示手段４８とを有するよう構成されている。

聴取者端末１３において、上述したように放送局側から配信されるラジオ番組信号を受信すると、復調手段４１は、受信した信号を復調し、分離手段４２に出力する。

分離手段４２は、復調手段４１により復調された信号に対して、ラジオ音声と振る舞い情報付きのＴＶＭＬスクリプトとを分類する。また、分離手段４２は、分類した振る舞い情報付きのＴＶＭＬスクリプトをＴＶＭＬスクリプト生成手段４４に出力し、ラジオ音声をＴＶＭＬスクリプトコントローラ４６に出力する。

演出設定手段４３は、初期設定として聴取者が聴取したい番組パターンを選択する。具体的には、例えば男女による対談形式や男性一人による解説、女性一人による喋り等の演出内容を含む番組パターン等を選択する。また、演出設定手段４３は、演出設定情報をＴＶＭＬスクリプト生成手段４４に出力する。

ＴＶＭＬスクリプト生成手段４４は、分離手段４２により得られるＴＶＭＬスクリプトと、演出設定手段４３により得られる演出設定情報とを用いて、番組パターンＤＢ４５に含まれる多数のラジオ番組全体の番組パターンのうち、対応する番組パターンを抽出し、抽出した番組バターンに基づいてラジオ番組全体の番組生成スクリプトをＴＶＭＬ形式で生成する。また、ＴＶＭＬスクリプト生成手段４４は、生成したＴＶＭＬスクリプトをＴＶＭＬスクリプトコントローラ４６に出力する。

なお、上述の実施形態において、ＴＶＭＬスクリプト生成手段４４は、演出設定手段４３により演出設定情報を取得したが、本発明においてはこの限りではなく、例えば放送波にシステム起動信号及び番組パターンを重畳して送信し、そのデータを分離手段４２で分離した状態で分類手段４２から取得してもよい。

番組パターンＤＢ４５は、予め設定された番組の出演者、ＣＧキャラクタ、番組制作エンジン、番組設定等の番組パターン情報が多数蓄積されている。したがって、番組パターンＤＢ４５により、ＴＶＭＬスクリプトや演出設定情報等をキーにして対象となる番組パターンが抽出される。

ＴＶＭＬスクリプトコントローラ４６は、分離手段４２により得られるラジオ音声と、ＴＶＭＬスクリプト生成手段４４とから得られるＴＶＭＬスクリプトに基づいて目的とするラジオ番組用のＴＶＭＬスクリプトデータを生成し、生成したラジオ番組信号をＴＶＭＬプレイヤー４７に出力する。

ＴＶＭＬプレイヤー４７は、ＴＶＭＬスクリプトコントローラ４６により生成されたラジオ番組信号を再生して音声情報を可視化しラジオ番組を表示手段４８により出力させる。

表示手段４８は、音声を出力すると共に対応する画像や映像を表示する。なお、表示手段４８は、具体的には画像出力手段としてのディスプレイや音声出力手段としてのスピーカ等からなる。

＜演出設定手段４３における演出設定内容＞
ここで、上述した演出設定手段における設定内容の一例について図を用いて説明する。図４は、演出設定内容の一例を示す図である。図４に示すように、演出設定内容では、演出設定手段４３において、対談形式（男女）、一人解析（男）、一人喋り（女）等、予め設定された演出条件から、何れかを選択する。これにより、番組パターンＤＢ４５から対応するデータを抽出して、番組パターン、初期設定ＴＶＭＬスクリプトを生成し、ＴＶＭＬスクリプト生成手段４４によりＴＶＭＬスクリプト生成し、ＴＶＭＬスクリプトコントローラ４６により目的とするラジオ番組用のＴＶＭＬスクリプトデータを生成し、ＴＶＭＬプレイヤー４７によりラジオ番組信号を再生して音声情報を可視化して、表示手段４８によりラジオ番組を出力することができる。

このように、上述した第１の実施形態により、音声情報から得られる感情情報を効率的に付加して演出された可視化コンテンツを実現することができる。また、第１の実施形態によれば、聴取者側が個別に意図する同一のラジオ番組を視聴することができる。

＜ラジオ番組システム：第２の実施形態＞
次に、本発明におけるラジオ番組システムの第２の実施形態について図を用いて説明する。第２の実施形態では、演出パターンを放送局側（音声情報可視化装置１２）で設定する場合の例を示す。

図５は、第２の実施形態におけるラジオ番組システムの概略構成例を示す図である。なお、図１に示すラジオ番組システム１と同様の構成部分については、同一の番号を付するものとし、ここでの詳細な説明は省略する。

図５に示す音声情報可視化システムとしてのラジオ番組システム２は、音声情報可視化装置１２において、番組全体スクリプト生成手段５１を有している。番組全体スクリプト生成手段５１は、スクリプト置換・付加手段３４により得られるスクリプトを用いて聴取者端末１３で提供されるラジオ番組全体のスクリプトを生成する。これにより、放送局側が意図する同一のラジオ番組を各聴取者側に提供することができる。また、第２の実施形態によれば、聴取者端末１３では、第１の実施形態と比較すると、演出設定手段４３、ＴＶＭＬスクリプト生成手段４４、番組パターンＤＢ４５等の構成を省略することができ、聴取者側の構成を簡易にすることができる。

このように、上述した第２の実施形態により、音声情報から得られる感情情報を効率的に付加して演出された可視化コンテンツを実現することができる。

なお、上述の第１の実施形態と第２の実施形態は、組み合わせた構成にすることもできる。その場合には、放送局側（音声情報可視化装置１２）において、番組全体のスクリプトを生成するか否かを選択して切り替えるスイッチ（切り替え手段）を設けて、聴取者側の設定や放送局側の設定、コンテンツの内容等に基づいて任意に切り換え可能な構成にしてもよい。

上述した第１及び第２の実施形態によれば、音声情報から得られる感情情報を効率的に付加して演出された可視化コンテンツを実現することができる。また、第１及び第２の実施形態によれば、ラジオ番組でありながら、人手を加えずに出演者の感情に合わせた表情や振る舞いを行うＣＧキャラクタによる映像を聴取者に提示でき、より魅力的なラジオ番組の制作が可能となる。また、ＣＧキャラクタを出演者に似せたものにすることにより、番組制作現場の映像により近付けることができる。また、聴取者の身近な人物に似せたＣＧキャラクタにすることで、聴取者それぞれにとって面白い演出効果が期待できる。更に、上述した効果を映像を生成するための広い送信帯域を要することなく実現することができる。

＜音声情報可視化プログラム＞
ここで、上述した音声情報可視化装置１２及び聴取者端末１３は、上述した専用の装置構成により本発明における音声情報の可視化を行うこともできるが、上述した各装置の各構成における処理をコンピュータに実行させるための実行プログラム（音声情報可視化プログラム）を生成し、例えば、汎用のパーソナルコンピュータやサーバ等にプログラムをインストールすることにより、音声情報可視化処理を実現することができる。

また、コンピュータ本体にインストールされる実行プログラムは、例えばＣＤ−ＲＯＭ等の記録媒体等により提供することができる。この場合、実行プログラムを記録した記録媒体は、コンピュータが備えるドライブ装置等にセットされ、記録媒体に含まれる実行プログラムが、記録媒体からドライブ装置を介してコンピュータが備える補助記憶装置等にインストールされる。

なお、記録媒体としては、ＣＤ−ＲＯＭ以外でも、例えばフレキシブルディスク、光磁気ディスク等のように情報を光学的、電気的或いは磁気的に記録する記録媒体、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、フラッシュメモリ等のように情報を電気的に記録する半導体メモリ等、様々なタイプの記録媒体を用いることができる。

また、コンピュータは、通信ネットワークに接続可能なネットワーク接続装置等を備え、通信ネットワークに接続されている他の端末等から実行プログラムを取得したり、プログラムを実行することで得られた実行結果又は本発明における実行プログラム自体を他の端末等に提供することができる。

なお、コンピュータが備える補助記憶装置は、ハードディスク等のストレージ手段であり、本発明における実行プログラムや、コンピュータに設けられた制御プログラム等を蓄積し必要に応じて入出力を行うことができる。また、コンピュータが備えるメモリ装置は、ＣＰＵにより補助記憶装置から読み出された実行プログラム等を格納する。なお、メモリ装置は、ＲＯＭやＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等からなる。

また、コンピュータは、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）を備え、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）等の制御プログラムや実行プログラムに基づいて、各種演算や各構成部間のデータの入出力等、コンピュータ全体の処理を制御して各処理を実現することができる。

これにより、特別な装置構成を必要とせず、低コストで効率的に音声情報可視化処理を実現することができる。また、プログラムをインストールすることにより、音声情報可視化処理を容易に実現することができる。

＜音声情報可視化処理＞
次に、本発明における実行プログラムによる音声情報可視化処理手順についてフローチャートを用いて説明する。なお、以下の処理の説明では、コンテンツの一例として「ラジオ番組」を用いているが本発明においては特に限定されるものではない。また、以下に示す予め生成されたＴＶＭＬスクリプトには、合成音声を出力するスクリプトを含むものとする。

＜放送局側：音声情報可視化処理手順＞
まず、放送局側における音声情報可視化処理手順について説明する。図６は、本実施形態における音声情報可視化処理手順の一例を示すフローチャートである。図６において、まず音声を入力し（Ｓ０１）、感情推定処理を行う（Ｓ０２）。次に、Ｓ０２の処理により得られた推定された感情データとしての振る舞い推定情報に対応させてＣＧキャラクタの振る舞いを決定する（Ｓ０３）。また、Ｓ０３の処理により得られた振る舞い決定情報に対応するＴＶＭＬスクリプトを生成する（Ｓ０４）。

ここで、番組全体のスクリプトを生成するか否かを判断し（Ｓ０５）、番組全体のスクリプトを生成する場合（Ｓ０５において、ＹＥＳ）、番組全体スクリプトを生成する（Ｓ０６）。また、番組全体スクリプトを生成しない場合（Ｓ０５において、ＮＯ）、又はＳ０６の処理が終了した後、音声情報とスクリプトとを合成し（Ｓ０７）、変調処理を行い（Ｓ０８）、変調後の信号を例えば放送波として出力する（Ｓ０９）。なお、上述したＳ０５の処理では、例えば提供する番組の内容や設定条件等により放送局側で番組全体スクリプトを生成するか聴取者側で番組全体スクリプトを生成するかが設定される。

＜聴取者側：聴取処理手順＞
次に、聴取者側における聴取処理手順について説明する。図７は、聴取処理手順の一例を示す図である。図７に示す聴取処理は、まず、放送波を入力し（Ｓ１１）、復調処理を行い（Ｓ１２）、音声情報と、ＴＶＭＬスクリプトとに分離する（Ｓ１３）。

ここで、Ｓ１３の処理において、分離したスクリプトが番組全体スクリプトを生成しているか否かを判断し（Ｓ１４）、番組全体スクリプトが生成されていない場合（Ｓ１４において、ＮＯ）、番組全体スクリプトを生成する（Ｓ１５）。また、Ｓ１４の処理において、番組全体スクリプトが生成されている場合（Ｓ１４において、ＹＥＳ）、又はＳ１５の処理が終了後、番組全体スクリプトと音声信号から番組を生成する（Ｓ１６）。また、生成した番組を再生し（Ｓ１７）、表示手段等により番組を出力する（Ｓ１８）。

上述したように本発明によれば、音声情報から得られる感情情報を効率的に付加して演出された可視化コンテンツを実現することができる。

具体的には、例えば、コンテンツの一例であるラジオ番組の場合には、ラジオ番組でありながら、人手を加えずに出演者の感情に合わせた表情や振る舞いを行うＣＧキャラクタによる映像を聴取者に提示でき、より魅力的なラジオ番組の制作が可能となる。また、ＣＧキャラクタを出演者に似せたものにすることにより、番組制作現場の映像により近付けることができる。

また、本発明によれば、聴取者の身近な人物に似せたＣＧキャラクタにすることで、聴取者それぞれにとって面白い演出効果が期待できる。更に、上述した効果を、映像を生成するための広い送信帯域を要することなく実現することができる。

以上本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。

第１の実施形態におけるラジオ番組システムの概略構成例を示す図である。演出項目とその内容について説明するための図である。ＣＧキャラクタのジェスチャー決定処理を具体的に説明するための図である。演出設定内容の一例を示す図である。第２の実施形態におけるラジオ番組システムの概略構成例を示す図である。本実施形態における音声情報可視化処理手順の一例を示すフローチャートである。本実施形態における聴取処理手順の一例を示すフローチャートである。

符号の説明

１，２ラジオ番組システム
１０スタジオ
１１音声ミキサー
１２音声情報可視化装置
１３聴取者端末
２１マイク
３１感情推定手段
３２振る舞い決定手段
３３ＣＧキャラクタ振る舞いＤＢ
３４スクリプト置換・付加手段
３５番組パターンＤＢ
３６合成手段
３７変調手段
４１復調手段
４２分離手段
４３演出設定手段
４４ＴＶＭＬスクリプト生成手段
４５番組パターンＤＢ
４６ＴＶＭＬスクリプトコントローラ
４７ＴＶＭＬプレイヤー
４８表示手段
５１番組全体スクリプト生成手段

Claims

入力される音声情報から予め設定された演出対象物を可視化させ、所定の演出を行わせる音声情報可視化装置において、
少なくとも１つの音声情報から感情推定を行う感情推定手段と、
前記感情推定手段により得られる感情の種別及び強さからなる感情情報に対応して予め設定された前記演出対象物に対する振る舞いを決定する振る舞い決定手段と、
前記振る舞い決定手段により得られる振る舞い情報に基づいて生成されたスクリプトを生成するスクリプト生成手段と、
前記スクリプト生成手段により得られるスクリプトと前記音声情報とを同期させて合成させる合成手段とを有することを特徴とする音声情報可視化装置。
前記振る舞い決定手段は、
前記演出情報として、前記演出対象物の表情又は動作に関する情報を含むことを特徴とする請求項１に記載の音声情報可視化装置。
前記振る舞い決定手段は、
前記演出対象物に応じて前記表情又は動作に対して重み付けさせた演出情報を生成することを特徴とする請求項２に記載の音声情報可視化装置。
前記スクリプトを生成手段は、
前記音声情報を再生する際のコンテンツ全体に対する演出用スクリプトを生成することを特徴とする請求項１乃至３の何れか１項に記載の音声情報可視化装置。
入力される音声情報から予め設定された演出対象物を可視化させ、所定の演出を行わせる音声情報可視化プログラムにおいて、
コンピュータを、
少なくとも１つの音声情報から感情推定を行う感情推定手段、
前記感情推定手段により得られる感情の種別及び強さからなる感情情報に対応して予め設定された前記演出対象物に対する振る舞いを決定する振る舞い決定手段、
前記振る舞い決定手段により得られる振る舞い情報に基づいて生成されたスクリプトを生成するスクリプト生成手段、及び、
前記スクリプト生成手段により得られるスクリプトと前記音声情報とを同期させて合成させる合成手段として機能させることを特徴とする音声情報可視化プログラム。