JP2010140278A - 音声情報可視化装置及び音声情報可視化プログラム - Google Patents

音声情報可視化装置及び音声情報可視化プログラム Download PDF

Info

Publication number
JP2010140278A
JP2010140278A JP2008316254A JP2008316254A JP2010140278A JP 2010140278 A JP2010140278 A JP 2010140278A JP 2008316254 A JP2008316254 A JP 2008316254A JP 2008316254 A JP2008316254 A JP 2008316254A JP 2010140278 A JP2010140278 A JP 2010140278A
Authority
JP
Japan
Prior art keywords
information
script
program
emotion
behavior
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008316254A
Other languages
English (en)
Inventor
Narichika Hamaguchi
斉周 浜口
Hiroyuki Kaneko
浩之 金子
Seiki Inoue
誠喜 井上
Mamoru Doke
守 道家
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
NHK Engineering System Inc
Original Assignee
Nippon Hoso Kyokai NHK
NHK Engineering Services Inc
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, NHK Engineering Services Inc, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2008316254A priority Critical patent/JP2010140278A/ja
Publication of JP2010140278A publication Critical patent/JP2010140278A/ja
Pending legal-status Critical Current

Links

Abstract

【課題】音声情報から得られる感情情報を効率的に付加して演出された可視化コンテンツを実現する。
【解決手段】入力される音声情報から予め設定された演出対象物を可視化させ、所定の演出を行わせる音声情報可視化装置において、少なくとも1つの音声情報から感情推定を行う感情推定手段と、前記感情推定手段により得られる感情の種別及び強さからなる感情情報に対応して予め設定された前記演出対象物に対する振る舞いを決定する振る舞い決定手段と、前記振る舞い決定手段により得られる振る舞い情報に基づいて生成されたスクリプトを生成するスクリプト生成手段と、前記スクリプト生成手段により得られるスクリプトと前記音声情報とを同期させて合成させる合成手段とを有することにより、上記課題を解決する。
【選択図】図1

Description

本発明は、音声情報可視化装置及び音声情報可視化プログラムに係り、特に、音声情報から得られる感情情報を効率的に付加して演出された可視化コンテンツを実現するための音声情報可視化装置及び音声情報可視化プログラムに関する。
従来、ニュースやスポーツ等の情報提供番組等の映像コンテンツを映像コンテンツ制作者が制作する際に、映像を生成する前に所定の記述様式により予め台本を作成し、これを専用のソフトウェア等に入力することで、台本に従ったCG(Computer Graphics)キャラクタ等の仮想物体の仮想空間上の動作や、カメラワークを行う映像を生成することが可能な仕組みが存在している(例えば、特許文献1参照。)。
ここで、例えばCG等を用いてテレビ番組用の映像コンテンツを生成する場合には、出演者であるCGキャラクタの喋りの質を確保するため、合成音声ではなく肉声を利用することがある。この場合、CGキャラクタが実際喋っているように演出するため、その場で喋っている声に合わせて、適当に口を動かす作業を行う。また、より効果的な演出を行うために、手動でCGキャラクタの表情やジェスチャー等の振る舞い付加したCG映像コンテンツを生成する。
以上のようにして生成されたCG映像は、テレビ番組と同様に映像と音声からなるコンテンツとして放送される。したがって、例えばラジオ番組をCGにより可視化し、いわゆる「見えるラジオサービス」として提供することができる。
特開2005−318254号公報
しかしながら、例えば上述した従来技術に示すように「見えるラジオサービス」を提供する際、CGキャラクタ(演出対象物)の表情やジェスチャーの付加において、より効果的な番組とするためには、無表情で動きの無いCGキャラクタがラジオ番組の出演者の肉声で喋っているだけでは難しく、CGキャラク夕の表情付加やジェスチャー等の演出が必要となる。しかしながら、肉声に適した表情やジェスチャーのためにはラジオ番組の出演者自らがCGキャラク夕の動作を操作するか、それらを付加するオペレータによる操作が必要となる。
また、映像・音声の配信において、CGにより可視化したラジオ番組を聴取者(この場合は視聴者)に配信するためには、ラジオ放送に割り当てられた帯域の中で映像音声コンテンツを配信する必要がある。このため、高画質な映像音声コンテンツを聴取者に配信することができない。これは、CGにより可視化された番組ではなく、実際のラジオスタジオの映像を配信する際においても同様である。
本発明は、上述した問題点に鑑みなされたものであり、音声情報から得られる感情情報を効率的に付加して演出された可視化コンテンツを実現するための音声情報可視化装置及び音声情報可視化プログラムを提供することを目的とする。
上記課題を解決するために、本件発明は、以下の特徴を有する課題を解決するための手段を採用している。
請求項1に記載された発明は、入力される音声情報から予め設定された演出対象物を可視化させ、所定の演出を行わせる音声情報可視化装置において、少なくとも1つの音声情報から感情推定を行う感情推定手段と、前記感情推定手段により得られる感情の種別及び強さからなる感情情報に対応して予め設定された前記演出対象物に対する振る舞いを決定する振る舞い決定手段と、前記振る舞い決定手段により得られる振る舞い情報に基づいて生成されたスクリプトを生成するスクリプト生成手段と、前記スクリプト生成手段により得られるスクリプトと前記音声情報とを同期させて合成させる合成手段とを有することを特徴とする。
請求項1記載の発明によれば、音声情報から得られる感情情報を効率的に付加して演出された可視化コンテンツを実現することができる。これにより、適切な演出からなる番組等のコンテンツを迅速に制作することができる。
請求項2に記載された発明は、前記振る舞い決定手段は、前記演出情報として、前記演出対象物の表情又は動作に関する情報を含むことを特徴とする。
請求項2記載の発明によれば、音声情報から得られる感情情報に対応して、演出対象物に高精度な演出を行わせることができる。
請求項3に記載された発明は、前記振る舞い決定手段は、前記演出対象物に応じて前記表情又は動作に対して重み付けさせた演出情報を生成することを特徴とする。
請求項3記載の発明によれば、ある特定の動作だけでなく、ある程度の範囲の中で汎用的に動作を行わせることができる。これにより、使用者等に飽きさせない演出を行うことができる。
請求項4に記載された発明は、前記スクリプトを生成手段は、前記音声情報を再生する際のコンテンツ全体に対する演出用スクリプトを生成することを特徴とする。
請求項4記載の発明によれば、コンテンツ全体のスクリプトを音声情報から得られるスクリプトに対応させることができる。また、コンテンツの流れに沿った適切な感情による音声情報の入力を実現することができる。
請求項5に記載された発明は、入力される音声情報から予め設定された演出対象物を可視化させ、所定の演出を行わせる音声情報可視化プログラムにおいて、
コンピュータを、少なくとも1つの音声情報から感情推定を行う感情推定手段、前記感情推定手段により得られる感情の種別及び強さからなる感情情報に対応して予め設定された前記演出対象物に対する振る舞いを決定する振る舞い決定手段、前記振る舞い決定手段により得られる振る舞い情報に基づいて生成されたスクリプトを生成するスクリプト生成手段、及び、前記スクリプト生成手段により得られるスクリプトと前記音声情報とを同期させて合成させる合成手段として機能させる。
請求項5記載の発明によれば、音声情報から得られる感情情報を効率的に付加して演出された可視化コンテンツを実現することができる。これにより、適切な演出からなる番組等のコンテンツを迅速に制作することができる。更に、実行プログラムをコンピュータにインストールすることにより、容易に音声情報可視化を実現することができる。
本発明によれば、音声情報から得られる感情情報を効率的に付加して演出された可視化コンテンツを実現することができる。
<本発明の概要>
本発明では、例えば音声情報等を用いたラジオ番組の制作において、番組出演者の音声が持つ感情情報を用いて、ラジオ番組をCG等で可視化する際に演出を自動的に付加するものである。
具体的には、本発明は、例えばラジオ番組制作及び配信に関し、ラジオ番組を可視化するため、テレビ番組を主とした映像コンテンツ制作の分野に関わるものである。CGを用いたテレピ番組用の映像コンテンツを制作する際、映像ニンテンツの出演者であるCGキャラクタに人間の肉声による台詞を喋らせる場合に効果的な演出を目的として、台詞の内容に合わせてCGキャラク夕の表情やジェスチャーを付加する場合がある。このような場合に、肉声の持つ感情情報を用いて、肉声の感情に合ったCGキャラクタの表情やジェスチャーを自動的に付加することを可能とするものである。
以下に、上述したような特徴を有する本発明における音声情報可視化装置及び音声情報可視化プログラムを好適に実施した形態について、図面を用いて詳細に説明する。
なお、本実施形態では、音声情報を有するコンテンツの一例としてラジオ番組を用いる。また、演出対象物の一例として、その番組に出演しているCGキャラクタを用いる。更に、本実施形態では、番組の生成や提示等に用いられるスクリプトの一例として、TVML(TV program Marking Language)を用いる。
ここで、TVMLとは、テレビ番組を制作するためのオブジェクトベース記述言語である。TVMLは、テレビ番組の映像と音声を、素材と台本(演出内容)とに分けて記述するものであり、番組台本を記述すれば、パソコン等で動作するソフトウェア等がこれを読取り、即座にテレビ番組として視聴(提示)することができるものである。TVMLを利用することで、CGキャラクタの動作やカメラワークをその都度指定し、アドリブ的に制御することができる。
また、TVMLを用いた番組制作では、制作者側で制作された番組の台本や、その台本に記述される番組制作エンジン(APE:Automatic Production Engine)、制作した番組に用いられる素材データ等を用いて番組を制作する。ここで、上述した番組制作エンジンとは、番組に登場する番組司会者や出演者等のCGキャラクタや番組における1つの動作の単位で「タイトル表示」、「ズームイン」、「CGキャラクタの動作」等のイベントが予め定義されたものであり、この番組制作エンジンを用いることにより、ニュースやバラエティ、スポーツ、ドラマ等の所定のジャンルの番組制作を効率的に実現することができる。なお、本発明は、TVMLに限定されるものではなく、TVML以外の表現形式を用いてもよい。
<ラジオ番組システム:第1の実施形態>
図1は、第1の実施形態におけるラジオ番組システムの概略構成例を示す図である。なお、図1に示すラジオ番組システム1は、放送局側と聴取者側とを含むシステム全体の概略を示すものである。なお、第1の実施形態では、演出パターンを聴取者側で設定する場合の例を示している。
図1に示す音声情報可視化システムとしてのラジオ番組システム1は、スタジオ10と、音声ミキサー11と、音声情報可視化装置12と、聴取者端末13とを有するよう構成されている。ここで、以下の説明では、放送局側と聴取者側とに分けて説明する。
<放送局側>
スタジオ10には、音声入力手段として少なくとも1つのマイク21(図1においては、マイク21−1,21−2)を有するよう構成されている。また、音声情報可視化装置12は、感情推定手段31と、振る舞い決定手段32と、CGキャラクタ振る舞いDB(DB:データベース)33と、スクリプト置換・付加手段34と、番組パターンDB35と、合成手段36と、変調手段37とを有するよう構成されている。
スタジオ10は、マイク21−1,21−2により得られる出演者等からの音声情報を音声ミキサー11及び音声情報可視化装置12にある感情推定手段31に出力する。なお、1つのマイクにより入力される音声は、1人(1種類)に限定されず、複数の種類でもよい。
音声ミキサー11は、スタジオ10から得られる少なくとも1つの音声情報として入力される音声信号を、他の音声、例えば効果音やBGM(バックグラウンドミュージック)等とミキシングし、1つの音声データとして加工する。また、音声ミキサー11は、得られた音声情報を音声情報可視化装置12の合成手段36に出力する。
音声情報可視化装置12において、感情推定手段31は、入力される少なくとも1つの音声情報のそれぞれに対する感情推定を行う。ここで、感情推定手段31は、出演者等の声や歌等からなる音声情報からその出演者毎の現在の感情を推定する。つまり、感情推定手段31は、感情推定結果として、肉声の感情の種類(例えば、平常、怒り、喜び、悲しみ等)と、その強さ(度合い、レベル)を出力する。なお、感情推定手段31における感情の種類と強さの推定は、例えば予め設定される感情推定エンジン(例えば、ST(Sensibility Technology:感性制御技術))等を用いて解析することができる。また、感情推定手段31は、得られた推定内容のうち、例えば「喜び」、「怒り」、「悲しみ」、「平静」、そしてそれらの強さ等からなる感情データとしての振る舞い推定情報を振る舞い決定手段32に出力する。なお、感情推定手段31における具体的な推定手法については後述する。
振る舞い決定手段32は、感情推定手段31から得られる振る舞い推定情報に基づいて、CGキャラクタ振る舞いDB33に予め蓄積されている多数の振る舞い情報を参照し、出演者の代わりとなるCGキャラクタ(演出対象物)の表情と、その程度(レベル)、及び振る舞い(ジェスチャー)等の振る舞い決定情報の内容を抽出する。また、振る舞い決定手段32は、得られた振る舞い決定情報をスクリプト置換・付加手段34に出力する。
CGキャラクタ振る舞いDB33は、予め多数の振る舞い情報が蓄積されている。ここで、振る舞い情報としては、例えばキャラクタがどのような表情のときにどのような振る舞い動作を行うかの情報等が蓄積される。したがって、CGキャラクタ振る舞いDB33により、振る舞い推定情報をキーにして対象となる振る舞い情報が抽出される。
スクリプト置換・付加手段34は、動作スクリプトDB35に多数蓄積されているCGキャラクタに対する動作情報から、上述した振る舞い決定手段32から得られる振る舞い決定情報により決定された表情やジェスチャー等を行うためのTVMLスクリプトを抽出し、出力データに対してスクリプト情報として置換又は付加する。
なお、第1の実施形態では、演出パターンを聴取者側で設定する場合の例を示しているため、スクリプト置換・付加手段34は、振る舞い情報付きのTVMLスクリプトをそのまま合成手段36に出力する。
動作スクリプトDB35は、CGキャラクタに対する動作として、表情、表情の強さ、うなずき、うなずきの程度、立ち上がる、腕を上げる等の動作情報を、動作スクリプトに置換、付加するためのデータベースであり、予め多数の動作情報が蓄積されている。したがって、動作スクリプトDB35により、振る舞い決定情報をキーにして対象となる振る舞い情報付きのTVMLスクリプトが抽出される。
合成手段36は、音声ミキサー11から得られる音声情報と、スクリプト置換・付加手段34から得られる振る舞い情報付きのTVMLスクリプトを合成する。また、合成手段36は、得られた合成信号を変調手段37に出力する。
変調手段37は、合成手段36により得られた合成信号を放送波として出力するための信号に変調し、変調されたラジオ番組信号を聴取者側に出力する。
ここで、放送局側から聴取者側に配信される信号は、本発明においては放送波に限定されず、例えばインターネット等に代表される通信ネットワーク等を用いて配信されてもよい。
<感情推定手段31における感情推定処理について>
ここで、上述した感情推定手段31における感情推定処理について説明する。感情推定処理では、例えば入力される肉声等の音声データから、その音声の強度やテンポ、抑揚等を検出し、その検出された強度、テンポ、及び抑揚等の時間軸方向の変化量のパターンと、そのパターンに関連付けて予め蓄積されている感情状態とに基づいて、対応する感情状態を出力する。
また、その他にも、例えば声の音量、声の波形、声のピッチ、又は音韻等の音声認識を行い、その結果と上述の声の条件に対応して予め設定した閾値とを比較することで、その人の感情を推定する手法や、発言内容に対して形態素解析を行い、その音声認識の結果から予め設定された感情辞書を用いて発話の感情を推定する手法等を用いることができる。
なお、感情推定処理では、例えば予め設定された感情推定エンジンを用いて肉声に対する感情を推定することができる。ここで、感情推定エンジンとしては、例えば上述したようにSTを用いることができる。STは、コンピュータに人の感性情報を理解させ、反応させるというソフトウェア技術であり、具体的には人の発話から得られる話者の感情情報(例えば、怒り、喜び、悲しみ、平常、笑い、興奮等)を、音声認識等を通じて得られたワード情報に付加することで、例えば話者の感情推移に応じた連続応答シナリオシステム等の構築が可能である。
また、上述した感情推定手法は、例えば特開平5−12023号公報、特開平9−22296号公報、特開平11−119791号公報、特開2002−91482号公報等に示されている技術を使用することができる。
つまり、本実施形態では、上述した図1に示す感情推定手段31による感情推定処理により、推定された感情情報(感情の種別、感情の強さ等)が出力される。
<演出項目とその内容>
ここで、上述した感情推定手段31により得られる感情を基づいて付加されるCGキャラクタのジェスチャー例について図を用いて説明する。図2は、演出項目とその内容について説明するための図である。図2には、CGキャラクタに対して行うことができる演出項目とその内容が設定されている。図2に示すように、演出項目としては、例えば「表情」、「表情の程度」、「顔の向き(角度)」、「うなづき」、「首を横に振る」、「立ち上がる」、「座っているときの姿勢」、「相手を見る時間の長さ」、「腕のジェスチャ」等がある。
本実施形態では、ラジオ番組出演者の音声の感情に基づいて、CGキャラクタのジェスチャーを設定する。つまり、図2に示すような演出項目に対して、音声情報等により番組出演者が出演中に行うことができる表情及びジェスチャーが設定されることになる。なお、本発明において実現できる演出項目とその内容の種類については図2に示す内容に限定されるものではない。
<CGキャラクタジェスチャー決定処理>
次に、ラジオ番組出演者の音声情報から、CGキャラクタのジェスチャーを決定する処理について図を用いて具体的に説明する。図3は、CGキャラクタのジェスチャー決定処理を具体的に説明するための図である。図3に示すように、番組出演者の肉声を感情推定手段31に入力する。感情推定手段31は、推定した感情データを出力する。図3の例では、感情は「喜び」で、その強さは「7」としている。これらの情報を、振る舞い推定情報として、振る舞い決定手段32に出力する。
振る舞い決定手段32は、振る舞い推定情報に含まれる推定した感情データに応じた動作群をCGキャラクタ振る舞いDB33より取得する。なお、図3の例では、表情は「喜び」で、表情の強さは「7×0.1+α(図3では、α=0.1とする)」で、うなずきが「1度」で、うなずきの程度は「7×0.1+α」で、「立ち上がる」動作で、「腕を上げる」動作が決定されている。これにより、スクリプト置換・付加手段34では、上述の振る舞い決定情報に基づいて番組パターンDB35を参照し、図3に示すようなTVMLスクリプトが生成される。つまり、予め設定されるTVMLスクリプトに含まれる変数(タイプ(type)、アクション(action)、ポーズ(pose)等)に対して振る舞い決定手段32で得られた振る舞い決定情報が置換又は付加される。
ここで、上述のαは、出演者モデルに合わせて付加される重みを示している。これにより、CGモデルのデザインが決定され、大げさな表現をするキャラクタやおとなしいキャラクタ等のキャラクタ特性を任意に設定することができる。
<聴取者側>
次に、図1に示すラジオ番組システム1の聴取者側の処理について説明する。聴取者端末13は、復調手段41と、分離手段42と、演出設定手段43と、TVMLスクリプト生成手段44と、番組パターンDB45と、TVMLスクリプトコントローラ46と、TVMLプレイヤー47と、表示手段48とを有するよう構成されている。
聴取者端末13において、上述したように放送局側から配信されるラジオ番組信号を受信すると、復調手段41は、受信した信号を復調し、分離手段42に出力する。
分離手段42は、復調手段41により復調された信号に対して、ラジオ音声と振る舞い情報付きのTVMLスクリプトとを分類する。また、分離手段42は、分類した振る舞い情報付きのTVMLスクリプトをTVMLスクリプト生成手段44に出力し、ラジオ音声をTVMLスクリプトコントローラ46に出力する。
演出設定手段43は、初期設定として聴取者が聴取したい番組パターンを選択する。具体的には、例えば男女による対談形式や男性一人による解説、女性一人による喋り等の演出内容を含む番組パターン等を選択する。また、演出設定手段43は、演出設定情報をTVMLスクリプト生成手段44に出力する。
TVMLスクリプト生成手段44は、分離手段42により得られるTVMLスクリプトと、演出設定手段43により得られる演出設定情報とを用いて、番組パターンDB45に含まれる多数のラジオ番組全体の番組パターンのうち、対応する番組パターンを抽出し、抽出した番組バターンに基づいてラジオ番組全体の番組生成スクリプトをTVML形式で生成する。また、TVMLスクリプト生成手段44は、生成したTVMLスクリプトをTVMLスクリプトコントローラ46に出力する。
なお、上述の実施形態において、TVMLスクリプト生成手段44は、演出設定手段43により演出設定情報を取得したが、本発明においてはこの限りではなく、例えば放送波にシステム起動信号及び番組パターンを重畳して送信し、そのデータを分離手段42で分離した状態で分類手段42から取得してもよい。
番組パターンDB45は、予め設定された番組の出演者、CGキャラクタ、番組制作エンジン、番組設定等の番組パターン情報が多数蓄積されている。したがって、番組パターンDB45により、TVMLスクリプトや演出設定情報等をキーにして対象となる番組パターンが抽出される。
TVMLスクリプトコントローラ46は、分離手段42により得られるラジオ音声と、TVMLスクリプト生成手段44とから得られるTVMLスクリプトに基づいて目的とするラジオ番組用のTVMLスクリプトデータを生成し、生成したラジオ番組信号をTVMLプレイヤー47に出力する。
TVMLプレイヤー47は、TVMLスクリプトコントローラ46により生成されたラジオ番組信号を再生して音声情報を可視化しラジオ番組を表示手段48により出力させる。
表示手段48は、音声を出力すると共に対応する画像や映像を表示する。なお、表示手段48は、具体的には画像出力手段としてのディスプレイや音声出力手段としてのスピーカ等からなる。
<演出設定手段43における演出設定内容>
ここで、上述した演出設定手段における設定内容の一例について図を用いて説明する。図4は、演出設定内容の一例を示す図である。図4に示すように、演出設定内容では、演出設定手段43において、対談形式(男女)、一人解析(男)、一人喋り(女)等、予め設定された演出条件から、何れかを選択する。これにより、番組パターンDB45から対応するデータを抽出して、番組パターン、初期設定TVMLスクリプトを生成し、TVMLスクリプト生成手段44によりTVMLスクリプト生成し、TVMLスクリプトコントローラ46により目的とするラジオ番組用のTVMLスクリプトデータを生成し、TVMLプレイヤー47によりラジオ番組信号を再生して音声情報を可視化して、表示手段48によりラジオ番組を出力することができる。
このように、上述した第1の実施形態により、音声情報から得られる感情情報を効率的に付加して演出された可視化コンテンツを実現することができる。また、第1の実施形態によれば、聴取者側が個別に意図する同一のラジオ番組を視聴することができる。
<ラジオ番組システム:第2の実施形態>
次に、本発明におけるラジオ番組システムの第2の実施形態について図を用いて説明する。第2の実施形態では、演出パターンを放送局側(音声情報可視化装置12)で設定する場合の例を示す。
図5は、第2の実施形態におけるラジオ番組システムの概略構成例を示す図である。なお、図1に示すラジオ番組システム1と同様の構成部分については、同一の番号を付するものとし、ここでの詳細な説明は省略する。
図5に示す音声情報可視化システムとしてのラジオ番組システム2は、音声情報可視化装置12において、番組全体スクリプト生成手段51を有している。番組全体スクリプト生成手段51は、スクリプト置換・付加手段34により得られるスクリプトを用いて聴取者端末13で提供されるラジオ番組全体のスクリプトを生成する。これにより、放送局側が意図する同一のラジオ番組を各聴取者側に提供することができる。また、第2の実施形態によれば、聴取者端末13では、第1の実施形態と比較すると、演出設定手段43、TVMLスクリプト生成手段44、番組パターンDB45等の構成を省略することができ、聴取者側の構成を簡易にすることができる。
このように、上述した第2の実施形態により、音声情報から得られる感情情報を効率的に付加して演出された可視化コンテンツを実現することができる。
なお、上述の第1の実施形態と第2の実施形態は、組み合わせた構成にすることもできる。その場合には、放送局側(音声情報可視化装置12)において、番組全体のスクリプトを生成するか否かを選択して切り替えるスイッチ(切り替え手段)を設けて、聴取者側の設定や放送局側の設定、コンテンツの内容等に基づいて任意に切り換え可能な構成にしてもよい。
上述した第1及び第2の実施形態によれば、音声情報から得られる感情情報を効率的に付加して演出された可視化コンテンツを実現することができる。また、第1及び第2の実施形態によれば、ラジオ番組でありながら、人手を加えずに出演者の感情に合わせた表情や振る舞いを行うCGキャラクタによる映像を聴取者に提示でき、より魅力的なラジオ番組の制作が可能となる。また、CGキャラクタを出演者に似せたものにすることにより、番組制作現場の映像により近付けることができる。また、聴取者の身近な人物に似せたCGキャラクタにすることで、聴取者それぞれにとって面白い演出効果が期待できる。更に、上述した効果を映像を生成するための広い送信帯域を要することなく実現することができる。
<音声情報可視化プログラム>
ここで、上述した音声情報可視化装置12及び聴取者端末13は、上述した専用の装置構成により本発明における音声情報の可視化を行うこともできるが、上述した各装置の各構成における処理をコンピュータに実行させるための実行プログラム(音声情報可視化プログラム)を生成し、例えば、汎用のパーソナルコンピュータやサーバ等にプログラムをインストールすることにより、音声情報可視化処理を実現することができる。
また、コンピュータ本体にインストールされる実行プログラムは、例えばCD−ROM等の記録媒体等により提供することができる。この場合、実行プログラムを記録した記録媒体は、コンピュータが備えるドライブ装置等にセットされ、記録媒体に含まれる実行プログラムが、記録媒体からドライブ装置を介してコンピュータが備える補助記憶装置等にインストールされる。
なお、記録媒体としては、CD−ROM以外でも、例えばフレキシブルディスク、光磁気ディスク等のように情報を光学的、電気的或いは磁気的に記録する記録媒体、ROM(Read Only Memory)、フラッシュメモリ等のように情報を電気的に記録する半導体メモリ等、様々なタイプの記録媒体を用いることができる。
また、コンピュータは、通信ネットワークに接続可能なネットワーク接続装置等を備え、通信ネットワークに接続されている他の端末等から実行プログラムを取得したり、プログラムを実行することで得られた実行結果又は本発明における実行プログラム自体を他の端末等に提供することができる。
なお、コンピュータが備える補助記憶装置は、ハードディスク等のストレージ手段であり、本発明における実行プログラムや、コンピュータに設けられた制御プログラム等を蓄積し必要に応じて入出力を行うことができる。また、コンピュータが備えるメモリ装置は、CPUにより補助記憶装置から読み出された実行プログラム等を格納する。なお、メモリ装置は、ROMやRAM(Random Access Memory)等からなる。
また、コンピュータは、CPU(Central Processing Unit)を備え、OS(Operating System)等の制御プログラムや実行プログラムに基づいて、各種演算や各構成部間のデータの入出力等、コンピュータ全体の処理を制御して各処理を実現することができる。
これにより、特別な装置構成を必要とせず、低コストで効率的に音声情報可視化処理を実現することができる。また、プログラムをインストールすることにより、音声情報可視化処理を容易に実現することができる。
<音声情報可視化処理>
次に、本発明における実行プログラムによる音声情報可視化処理手順についてフローチャートを用いて説明する。なお、以下の処理の説明では、コンテンツの一例として「ラジオ番組」を用いているが本発明においては特に限定されるものではない。また、以下に示す予め生成されたTVMLスクリプトには、合成音声を出力するスクリプトを含むものとする。
<放送局側:音声情報可視化処理手順>
まず、放送局側における音声情報可視化処理手順について説明する。図6は、本実施形態における音声情報可視化処理手順の一例を示すフローチャートである。図6において、まず音声を入力し(S01)、感情推定処理を行う(S02)。次に、S02の処理により得られた推定された感情データとしての振る舞い推定情報に対応させてCGキャラクタの振る舞いを決定する(S03)。また、S03の処理により得られた振る舞い決定情報に対応するTVMLスクリプトを生成する(S04)。
ここで、番組全体のスクリプトを生成するか否かを判断し(S05)、番組全体のスクリプトを生成する場合(S05において、YES)、番組全体スクリプトを生成する(S06)。また、番組全体スクリプトを生成しない場合(S05において、NO)、又はS06の処理が終了した後、音声情報とスクリプトとを合成し(S07)、変調処理を行い(S08)、変調後の信号を例えば放送波として出力する(S09)。なお、上述したS05の処理では、例えば提供する番組の内容や設定条件等により放送局側で番組全体スクリプトを生成するか聴取者側で番組全体スクリプトを生成するかが設定される。
<聴取者側:聴取処理手順>
次に、聴取者側における聴取処理手順について説明する。図7は、聴取処理手順の一例を示す図である。図7に示す聴取処理は、まず、放送波を入力し(S11)、復調処理を行い(S12)、音声情報と、TVMLスクリプトとに分離する(S13)。
ここで、S13の処理において、分離したスクリプトが番組全体スクリプトを生成しているか否かを判断し(S14)、番組全体スクリプトが生成されていない場合(S14において、NO)、番組全体スクリプトを生成する(S15)。また、S14の処理において、番組全体スクリプトが生成されている場合(S14において、YES)、又はS15の処理が終了後、番組全体スクリプトと音声信号から番組を生成する(S16)。また、生成した番組を再生し(S17)、表示手段等により番組を出力する(S18)。
上述したように本発明によれば、音声情報から得られる感情情報を効率的に付加して演出された可視化コンテンツを実現することができる。
具体的には、例えば、コンテンツの一例であるラジオ番組の場合には、ラジオ番組でありながら、人手を加えずに出演者の感情に合わせた表情や振る舞いを行うCGキャラクタによる映像を聴取者に提示でき、より魅力的なラジオ番組の制作が可能となる。また、CGキャラクタを出演者に似せたものにすることにより、番組制作現場の映像により近付けることができる。
また、本発明によれば、聴取者の身近な人物に似せたCGキャラクタにすることで、聴取者それぞれにとって面白い演出効果が期待できる。更に、上述した効果を、映像を生成するための広い送信帯域を要することなく実現することができる。
以上本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。
第1の実施形態におけるラジオ番組システムの概略構成例を示す図である。 演出項目とその内容について説明するための図である。 CGキャラクタのジェスチャー決定処理を具体的に説明するための図である。 演出設定内容の一例を示す図である。 第2の実施形態におけるラジオ番組システムの概略構成例を示す図である。 本実施形態における音声情報可視化処理手順の一例を示すフローチャートである。 本実施形態における聴取処理手順の一例を示すフローチャートである。
符号の説明
1,2 ラジオ番組システム
10 スタジオ
11 音声ミキサー
12 音声情報可視化装置
13 聴取者端末
21 マイク
31 感情推定手段
32 振る舞い決定手段
33 CGキャラクタ振る舞いDB
34 スクリプト置換・付加手段
35 番組パターンDB
36 合成手段
37 変調手段
41 復調手段
42 分離手段
43 演出設定手段
44 TVMLスクリプト生成手段
45 番組パターンDB
46 TVMLスクリプトコントローラ
47 TVMLプレイヤー
48 表示手段
51 番組全体スクリプト生成手段

Claims (5)

  1. 入力される音声情報から予め設定された演出対象物を可視化させ、所定の演出を行わせる音声情報可視化装置において、
    少なくとも1つの音声情報から感情推定を行う感情推定手段と、
    前記感情推定手段により得られる感情の種別及び強さからなる感情情報に対応して予め設定された前記演出対象物に対する振る舞いを決定する振る舞い決定手段と、
    前記振る舞い決定手段により得られる振る舞い情報に基づいて生成されたスクリプトを生成するスクリプト生成手段と、
    前記スクリプト生成手段により得られるスクリプトと前記音声情報とを同期させて合成させる合成手段とを有することを特徴とする音声情報可視化装置。
  2. 前記振る舞い決定手段は、
    前記演出情報として、前記演出対象物の表情又は動作に関する情報を含むことを特徴とする請求項1に記載の音声情報可視化装置。
  3. 前記振る舞い決定手段は、
    前記演出対象物に応じて前記表情又は動作に対して重み付けさせた演出情報を生成することを特徴とする請求項2に記載の音声情報可視化装置。
  4. 前記スクリプトを生成手段は、
    前記音声情報を再生する際のコンテンツ全体に対する演出用スクリプトを生成することを特徴とする請求項1乃至3の何れか1項に記載の音声情報可視化装置。
  5. 入力される音声情報から予め設定された演出対象物を可視化させ、所定の演出を行わせる音声情報可視化プログラムにおいて、
    コンピュータを、
    少なくとも1つの音声情報から感情推定を行う感情推定手段、
    前記感情推定手段により得られる感情の種別及び強さからなる感情情報に対応して予め設定された前記演出対象物に対する振る舞いを決定する振る舞い決定手段、
    前記振る舞い決定手段により得られる振る舞い情報に基づいて生成されたスクリプトを生成するスクリプト生成手段、及び、
    前記スクリプト生成手段により得られるスクリプトと前記音声情報とを同期させて合成させる合成手段として機能させることを特徴とする音声情報可視化プログラム。
JP2008316254A 2008-12-11 2008-12-11 音声情報可視化装置及び音声情報可視化プログラム Pending JP2010140278A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008316254A JP2010140278A (ja) 2008-12-11 2008-12-11 音声情報可視化装置及び音声情報可視化プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008316254A JP2010140278A (ja) 2008-12-11 2008-12-11 音声情報可視化装置及び音声情報可視化プログラム

Publications (1)

Publication Number Publication Date
JP2010140278A true JP2010140278A (ja) 2010-06-24

Family

ID=42350367

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008316254A Pending JP2010140278A (ja) 2008-12-11 2008-12-11 音声情報可視化装置及び音声情報可視化プログラム

Country Status (1)

Country Link
JP (1) JP2010140278A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012039280A (ja) * 2010-08-05 2012-02-23 Nippon Hoso Kyokai <Nhk> 解説放送文作成支援装置及びプログラム
US8948893B2 (en) 2011-06-06 2015-02-03 International Business Machines Corporation Audio media mood visualization method and system
US9435643B2 (en) 2012-01-30 2016-09-06 Sony Corporation Presumably defective portion decision apparatus, presumably defective portion decision method, fabrication method for semiconductor device and program
JP2019024748A (ja) * 2017-07-27 2019-02-21 株式会社バンダイナムコエンターテインメント 画像生成装置及びプログラム
JPWO2019026397A1 (ja) * 2017-07-31 2020-05-28 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
WO2022264203A1 (ja) * 2021-06-14 2022-12-22 三菱電機株式会社 信号生成装置、信号処理システムおよび信号生成方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003348525A (ja) * 2002-05-27 2003-12-05 Hitachi Kokusai Electric Inc 番組蓄積送出装置及びその装置を用いた送受信システム
WO2006059570A1 (ja) * 2004-11-30 2006-06-08 Matsushita Electric Industrial Co., Ltd. 場面修飾表現生成装置および場面修飾表現生成方法
JP2008217447A (ja) * 2007-03-05 2008-09-18 Nippon Hoso Kyokai <Nhk> コンテンツ生成装置及びコンテンツ生成プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003348525A (ja) * 2002-05-27 2003-12-05 Hitachi Kokusai Electric Inc 番組蓄積送出装置及びその装置を用いた送受信システム
WO2006059570A1 (ja) * 2004-11-30 2006-06-08 Matsushita Electric Industrial Co., Ltd. 場面修飾表現生成装置および場面修飾表現生成方法
JP2008217447A (ja) * 2007-03-05 2008-09-18 Nippon Hoso Kyokai <Nhk> コンテンツ生成装置及びコンテンツ生成プログラム

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012039280A (ja) * 2010-08-05 2012-02-23 Nippon Hoso Kyokai <Nhk> 解説放送文作成支援装置及びプログラム
US8948893B2 (en) 2011-06-06 2015-02-03 International Business Machines Corporation Audio media mood visualization method and system
US9235918B2 (en) 2011-06-06 2016-01-12 International Business Machines Corporation Audio media mood visualization
US9953451B2 (en) 2011-06-06 2018-04-24 International Business Machines Corporation Audio media mood visualization
US10255710B2 (en) 2011-06-06 2019-04-09 International Business Machines Corporation Audio media mood visualization
US9435643B2 (en) 2012-01-30 2016-09-06 Sony Corporation Presumably defective portion decision apparatus, presumably defective portion decision method, fabrication method for semiconductor device and program
JP2019024748A (ja) * 2017-07-27 2019-02-21 株式会社バンダイナムコエンターテインメント 画像生成装置及びプログラム
JPWO2019026397A1 (ja) * 2017-07-31 2020-05-28 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
JP7176519B2 (ja) 2017-07-31 2022-11-22 ソニーグループ株式会社 情報処理装置、情報処理方法およびプログラム
WO2022264203A1 (ja) * 2021-06-14 2022-12-22 三菱電機株式会社 信号生成装置、信号処理システムおよび信号生成方法

Similar Documents

Publication Publication Date Title
JP7283496B2 (ja) 情報処理方法、情報処理装置およびプログラム
WO2010075634A1 (en) Method and system for visual representation of sound
JP2010140278A (ja) 音声情報可視化装置及び音声情報可視化プログラム
US20170092253A1 (en) Karaoke system
CN113302945A (zh) 用于捕获的视听表演的增强现实过滤器
CN106028119A (zh) 多媒体特效的自定义方法和装置
CN107977184A (zh) 一种基于虚拟现实技术的音乐播放方法和装置
JP2021101252A (ja) 情報処理方法、情報処理装置およびプログラム
JP4917920B2 (ja) コンテンツ生成装置及びコンテンツ生成プログラム
WO2020039702A1 (ja) 情報処理装置、情報処理システム、情報処理方法及びプログラム
JP5041853B2 (ja) コンテンツ生成装置及びコンテンツ生成プログラム
JP4865469B2 (ja) コンテンツ制作サーバ、コンテンツ提示装置、コンテンツ制作プログラム、及びコンテンツ提示プログラム
JP6170604B1 (ja) 音声生成装置
JP7117228B2 (ja) カラオケシステム、カラオケ装置
CN113821189A (zh) 音频播放方法、装置、终端设备及存储介质
CN111696566A (zh) 语音处理方法、装置和介质
JP2008032788A (ja) 語学教材データ作成用プログラム
JP7281386B2 (ja) カラオケ装置
JP4027840B2 (ja) 情報発信方法および装置およびプログラム
WO2022163023A1 (ja) コンテンツ修正装置、コンテンツ配信サーバ、コンテンツ修正方法、および、記録媒体
JP6190030B1 (ja) 音声生成プログラム
JP6185136B1 (ja) 音声生成プログラムおよびゲーム装置
JP2008217226A (ja) コンテンツ生成装置及びコンテンツ生成プログラム
JP2002300434A (ja) 番組送出システム及びこれに用いる番組送出装置
JP4796466B2 (ja) コンテンツ管理サーバ、コンテンツ提示装置、コンテンツ管理プログラム、及びコンテンツ提示プログラム

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20110822

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110824

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20110822

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120626

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120703

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20121030