JP2004029862A

JP2004029862A - 動画像生成装置及び動画像生成方法並びにそのプログラム

Info

Publication number: JP2004029862A
Application number: JP2002149748A
Authority: JP
Inventors: Fumihiko Sugiyama; 杉山　文彦; Takatomo Nakajima; 中島　隆智
Original assignee: Open Interface Inc
Current assignee: Open Interface Inc
Priority date: 2002-05-23
Filing date: 2002-05-23
Publication date: 2004-01-29

Abstract

【課題】再生される音楽に応じてキャラクタの動作が生成されることで、何通りものキャラクタの動作を画像として表示できる動画像生成装置を提供する。
【解決手段】ＭＰ３データ記憶部４に記録されたデジタル音データを、伸長部１１が伸長し、周波数帯域ごとの音圧値データとして出力する。感性データ算出部１２のリズム解析部１４が、音圧値データを基に単位時間あたり拍数を求める。感情解析部１３は、音圧値データを基に、数種類の感情パラメータ値を求め、この感情パラメータ値と上記の単位時間あたり拍数とを基に、感情種類および感情レベルを判定し、その結果を感性データ蓄積部２に書き込む。アニメーション画像生成部３が感性データに基づいてアニメーションを生成し表示部７に出力する。
【選択図】　　　図１

Description

【０００１】
【発明の属する技術分野】
この発明は、再生される音楽のオーディオ信号を解析してその解析結果をモニタなどの画面に表示する動画像生成装置に係り、特に、動画像生成装置及び生成方法並びにそのプログラムに関するものである。
【０００２】
【従来の技術】
従来、ゲーム機などの画面に人間や動物などのアニメーションのキャラクタ画像を表示して音楽の演奏が始まると同時にそのキャラクタが動く仕組みの動画像は、そのキャラクタの一定の動作をプログラムして動画像として表示させていた。
【０００３】
【発明が解決しようとする課題】
しかしながら、上述のプログラムによってキャラクタを動作させる方法では、キャラクタの動作が一定となってしまうので、動画像を見るユーザにとっては退屈なものとなってしまう。
そこでこの発明は、再生される音楽から感情を表現する感情パラメータを抽出し、その感情パラメータに応じてキャラクタの動作が生成されることで、何通りものパターンでキャラクタの動画像を表示できる動画像生成装置及び生成方法並びにそのプログラムを提供することを目的としている。
【０００４】
【課題を解決するための手段】
上記の課題を解決するために、本発明は、分割された周波数帯域毎の音圧値として音を表現したデジタルデータを記憶するデータ記憶部と、前記データ記憶部から読み出された前記デジタルデータを基に前記周波数帯域毎の音圧値の分布を解析し、この解析結果に基づいて感情種類と、前記感情種類毎の感情レベルなどからなる感性データを算出する感性データ算出部と、前記感性データ算出部によって算出された前記感情種類と、前記感情レベルの組み合わせに応じてビジュアルコンテンツの動画像を生成するビジュアルコンテンツ生成部と、前記ビジュアルコンテンツ生成部の生成したビジュアルコンテンツの動画像を表示する表示部と、前記ビジュアルコンテンツ生成部が生成するビジュアルコンテンツの動画像に同期させて前記デジタルデータをデコードしオーディオ信号を出力するデコーダ部とを備えることを特徴とする動画像生成装置である。
【０００５】
上述の構成によれば、感性データ算出部がデータ記憶部に記憶するデジタルデータを読み込んで、そのデジタルデータから感性データを算出する。そして、感性データに基づいて、ビジュアルコンテンツ生成部がビジュアルコンテンツの複数のフレームを用いて動画像を生成し表示部に表示するので、これにより、デジタルデータに応じてビジュアルコンテンツの動作を生成することが出来、そして、何通りものパターンでビジュアルコンテンツ画像を表示部に表示する事が出来る。
【０００６】
また、請求項２に記載の発明は、請求項１に記載の動画像生成装置において、前記ビジュアルコンテンツ生成部が前記感性データ算出部によって算出された前記感情種類と前記感情レベルの組み合わせに応じて、人や動物などのキャラクタの顔の表情を変化させることにより動画像を生成することを特徴とする。
【０００７】
また、請求項３に記載の発明は、請求項１に記載の動画像生成装置において、前記ビジュアルコンテンツ生成部は前記感性データ算出部によって算出された前記感情種類と前記感情レベルの組み合わせに応じて、人や動物などのキャラクタのダンスステップの動作を変化させることにより動画像を生成することを特徴とする。
【０００８】
また、請求項４に記載の発明は、請求項１に記載の動画像生成装置において、前記ビジュアルコンテンツ生成部は前記感性データ算出部によって算出された前記感情種類と前記感情レベルの組み合わせに応じて、前記動画像となる風景や背景の明るさや、視点位置、向き、画角、動きなどのカメラワークを変化させることにより動画像を生成することを特徴とする。
【０００９】
また、請求項５に記載の発明は、分割された周波数帯域毎の音圧値として音を表現したデジタルデータを記憶するデータ記憶部を備えた動画像生成装置における動画像生成方法において、前記データ記憶部から読み出された前記デジタルデータを基に前記周波数帯域毎の音圧値の分布を解析し、この解析結果に基づいて感情種類と、前記感情種類毎の感情レベルなどからなる感性データを算出する第１の過程と、前記第１の過程によって算出された前記感情種類と、前記感情レベルの組み合わせに応じてビジュアルコンテンツの動画像を生成する第２の過程と、前記第２の過程において生成されたビジュアルコンテンツの動画像を表示部に表示する第３の過程と、前記第３の過程で表示部に表示されるビジュアルコンテンツの動画像に同期させて前記デジタルデータをデコードしオーディオ信号を出力する第４の過程とを備えることを特徴とする動画像生成方法である。
【００１０】
また、請求項６に記載の発明は、分割された周波数帯域毎の音圧値として音を表現したデジタルデータを記憶するデータ記憶部を備えた動画像生成装置における動画像構プログラムであって、前記動画像生成装置に、前記データ記憶部から読み出された前記デジタルデータを基に前記周波数帯域毎の音圧値の分布を解析し、この解析結果に基づいて感情種類と、前記感情種類毎の感情レベルなどからなる感性データを算出する第１の処理と、前記第１の処理によって算出された前記感情種類と、前記感情レベルの組み合わせに応じてビジュアルコンテンツの動画像を生成する第２の処理と、前記第２の処理において生成されたビジュアルコンテンツの動画像を表示部に表示する第３の処理と、前記第３の処理で表示部に表示されるビジュアルコンテンツの動画像に同期させて前記デジタルデータをデコードしオーディオ信号を出力する第４の処理とを実行させるためのプログラムである。
【００１１】
【発明の実施の形態】
以下、図面を参照しこの発明の一実施形態について説明する。図１は、同実施形態による感性データ算出方法を応用した動画像生成装置の構成を示すブロック図である。この動画像生成装置は、ＭＰ３（ＭＰＥＧ　Ａｕｄｉｏ　Ｌａｙｅｒ　３）の形式で記録された音楽（聴覚データ）を再生するとともに、この音楽を基に感性データを算出するものである。
【００１２】
図１において、符号４は、ＭＰ３形式の音楽データを記憶するＭＰ３データ記憶部である。１は、ＭＰ３データ記憶部４から読み出された音楽データを基に感性データを算出して出力するスペクトラム解析部である。２は、スペクトラム解析部１によって算出された感性データを蓄積する感性データ蓄積部である。３は、感性データ蓄積部２に蓄積された感性データを順次読み出し、この感性データに基づくアニメーション画像（ビジュアルコンテンツ）を生成するアニメーション画像生成部（ビジュアルコンテンツ生成部）である。
【００１３】
また、５は、ＭＰ３データ記憶部４から読み出された音楽データをデコードして時系列的な音圧レベルのデジタル信号（デジタルオーディオ信号）を出力するＭＰ３デコーダ部である。６は、ＭＰ３デコーダ部５から出力されたデジタル信号を変換してアナログオーディオ信号を出力するＤ／Ａ（デジタル／アナログ）変換部である。７はアニメーション画像生成部３が生成したアニメーションを表示する表示部であり、液晶画面やテレビモニタなどである。
【００１４】
ＭＰ３データ記憶部４に記憶されている音楽データは、所定のサンプリング周波数（例えば、４４１００Ｈｚ（ヘルツ））でサンプリングされ量子化された音圧レベルが、所定のフレーム長（例えば、約０．０２６１秒）を１フレームとするフレーム単位で、所定数（例えば、５７６本）に分割された周波数帯域ごとの音圧値に変換され、さらに圧縮されたものである。
【００１５】
スペクトラム解析部１は、このような音楽データを時系列的に順次読み出し、読み出したデータをまず伸長してから、後述する所定の手順により解析を行い、その結果を感性データとして順次出力していく。スペクトラム解析部１によって出力される感性データも時系列的なデータであり、順次、感性データ蓄積部２に蓄積されていく。
【００１６】
アニメーション画像生成部３は、再生する音楽に合ったアニメーションを生成してビデオ信号として出力するものである。生成されるアニメーションの一例は、あるキャラクタ（少女）が再生される音楽のリズムに合わせてダンスをするものであり、感性データ蓄積部２から読み取った感性データに応じて、そのキャラクタの手足の振り付けや顔の表情が変わるようになっている。なお、アニメーションで描かれるキャラクタの顔の表情を変えるためには、例えば、口（唇）や、目や、その周辺の筋肉に相当する部分の計上を変えて描くようにする。
【００１７】
再生される音楽の進行と生成されるアニメーションの進行のタイミングが合うように、スペクトラム解析部１とアニメーション画像生成部３とＭＰ３デコーダ５との間で互いに同期を取るようにする。
また、スペクトラム解析部１による感性データ算出の演算に時間がかかっても音楽とアニメーションとのタイミングがずれないように、音楽の再生が指示された後にスペクトラム解析部１による感性データ算出を先行して行い、数秒から数十秒程度遅れて後追いの形で、ＭＰ３デコータ５による音楽の再生とアニメーション画像生成部３からのビデオ信号の出力とを行うようする。但し、スペクトラム解析部１による感性データ算出の演算が充分に速く行える場合には、上記の遅延を設けずにリアルタイムで再生するようにしても良い。
【００１８】
ＭＰ３データ記憶部４は、磁気ディスクやＣＤ−ＲＯＭ（コンパクトディスクを用いた読み出し専用メモリ）あるいはＣＤ−Ｒ（ＣＤ　Ｒｅｃｏｒｄａｂｌｅ　）やＤＶＤ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｋ）や光磁気ディスクや半導体メモリなどといった記録媒体とそれを読み取る読取装置によって実現する。
【００１９】
スペクトラム解析部１は、コンピュータを用いて実現する。つまり、後述する感性データ算出等の処理の手順をコンピュータプログラムの形式でコンピュータ読み取り可能な記録媒体に記録しておき、このプログラムをコンピュータの中央処理装置が読み取ってその命令を実行することにより感性データ算出等の機能を実現する。ここで、コンピュータ読み取り可能な記録媒体とは、例えば、磁気ディスクや、ＣＤ−ＲＯＭあるいはＣＤ−Ｒや、半導体メモリなどである。あるいは、専用ロジックを搭載した集積回路としてスペクトラム解析部１を実現するようにしても良い。あるいは、コンピュータプログラムをコンピュータ読み取り可能な記録媒体に記録しておく代わりに、通信を用いて配信するようにして、配信を受けたコンピュータの中央処理装置がこのプログラムを実行するようにしても良い。
感性データ蓄積部２は、半導体メモリや磁気ディスクなど、高速に書換え可能な記録媒体を用いて実現する。
【００２０】
次に、スペクトラム解析部１の内部生成、およびその処理の詳細について説明する。図１に示すように、スペクトラム解析部１は、伸長部１１と感性データ算出部１２とを備えている。伸長部１１は、ＭＰ３データ記憶部から読み取られた音楽データを伸長する。つまり、図１のＡの部分では、圧縮された状態のデータが伝達される。また、図１のＢの部分では、前述の周波数帯域（音域）ごとの音圧値の情報が伸長済みの状態で伝達される。感性データ算出部１２は、さらに、感情解析部１３とリズム解析部１４とを備えている。
【００２１】
次に、感情解析部１３とリズム解析部１４の詳細な処理手順について説明する。
【００２２】
図２は、感情解析部１３による処理の手順を示すフローチャートである。図２に示すように、感情解析部１３は、まずステップＳ１において入力されるデータを基に５つの音域への分割の処理を行い、ステップＳ２においてこれら５つの音域の音圧値を基に感情パラメータを算出する処理を行い、ステップＳ３において算出された感情パラメータを基に判定を行う。判定結果として、インデックス、感情種類、感情レベル、継続時間、補間フラグの組の時系列データが出力される。
【００２３】
上記インデックスは、０から始まるシーケンシャルな値である。
上記感情種類は、「無表情（ｄｅｆａｕｌｔ　）」、「快感（ｐｌｅａｓｕｒｅ）」、「驚き（ｓｕｒｐｒｉｓｅ）」、「怯え（ｆｅａｒ）」、「嬉しい（ｈａｐｐｙ　）」、「哀しい（ｓａｄ　）」のいずれかである。
感情種類が「快感」、「驚き」、「怯え」、「嬉しい」、「哀しい」のいずれかであるとき、上記感情レベルは１以上５以下のいずれかの整数の値を取る。また、感情種類が「無表情」のとき、感情レベルの値は「なし」である。
上記継続時間は、秒単位の数値であり、１以上の値を取る。
上記補間フラグは、０（「ＯＦＦ」を表わす）あるいは１（「ＯＮ」を表わす）のいずれかの値を取る。
【００２４】
時系列の音楽データを処理する際の初期値は、インデックス＝０、感情種類＝「無表情」、感情レベル＝「なし」、継続時間＝「１」、補間フラグ＝「１」とする。
【００２５】
以下に、処理をさらに詳細に説明する。
図２の符号Ｄ１は、感情解析部１３に入力される周波数帯域ごとの音圧値情報である。この段階では、５７６本の周波数帯域それぞれの音圧値情報が保持されている。また、元のＭＰ３データのサンプリング周波数は４４１００Ｈｚである。つまり、分割された周波数帯域ごとの音圧値として音を表現したデジタルデータを入力として、周波数帯域ごとの音圧値の分布を以下の方法で解析することにより、前記の音に関連する感性データを算出する。
【００２６】
ステップＳ１においては、音圧値情報（Ｄ１）を基に、次の５段階の音域ごとの平均音圧値を算出し、音圧値情報（Ｄ２）として出力する。その５段階の音域とは、低音部（０Ｈｚ〜７６．５６２５Ｈｚ）、中低音部（２２９．６８７５Ｈｚ〜１９９０．６２５Ｈｚ）、中高音部（７００５．４６９Ｈｚ〜１００２９．６９Ｈｚ）、高音部（１００２９．６９Ｈｚ〜１４９６７．９７Ｈｚ）、最高音部（１５００６．２５Ｈｚ〜１７９９２．１９Ｈｚ）の５つである。
つまり、ここでは、周波数帯域全体を、１０個以下の周波数帯域グループに分割し、この周波数帯域グループごとの音圧値を用いた解析を行う。
【００２７】
また、ステップＳ１においては、音階分割により、長音要素と短音要素の抽出を行う。この抽出のために、まず、０Ｈｚ〜４９７．６５６３Ｈｚの帯域を１３の領域に均等分割し、４９７．６５６３Ｈｚ〜２２０５０Ｈｚの帯域を６３の領域に音階分割する。そして、そのうちの４９７．６５６３Ｈｚ〜２０２８．９０６Ｈｚの２オクターブ分の２４個の音階領域の音圧値が所定の閾値より大きいかどうかを判断する。
【００２８】
上記２４個の音階領域のうち、１番目、３番目、５番目、８番目、１０番目、１２番目、１３番目、１５番目、１７番目、２０番目、２２番目、２４番目の領域が長音要素である。これらの長音要素のうち、１番目と１３番目とは１オクターブ離れた領域であるため、この２つの領域の音圧値が共に閾値より大きければ、長音要素を＋１としてカウントする。また同様に、３番目と１５番目の領域、５番目と１７番目の領域、８番目と２０番目の領域、１０番目と２２番目の領域、１２番目と２４番目の領域がそれぞれ互いに１オクターブ離れた領域であり、２つの領域の音圧値が共に閾値より大きい場合に、それぞれ長音要素を＋１としてカウントする。
また、上記２４個の音階領域のうち、２番目と１４番目、４番目と１６番目、６番目と１８番目、７番目と１９番目、９番目と２１番目、１１番目と２３番目がそれぞれ互いに１オクターブ離れた領域のペアであり、各ペアごとに、２つの領域の音圧値が共に閾値より大きい場合に、それぞれ短音要素を＋１としてカウントする。
この抽出の処理の結果、長音要素および短音要素は、それぞれ０以上６以下のいずれかの整数の値を取る。
【００２９】
次に、ステップＳ２では、音圧値情報Ｄ２を基に感情パラメータを算出する処理を行う。感情パラメータには優先順位が設定されており、「快感」の優先度が１、「驚き」の優先度が２、「怯え」の優先度が３、「嬉しい」および「哀しい」の優先度がともに４となっている。
なお、上記５種類の感情パラメータ値がすべて「０」のときは、「無表情」に該当する。
【００３０】
また、ステップＳ３では、算出された感情パラメータに基づく判定を行い、感性データを求める処理を行う。また、この判定においては、図１に示したリズム解析部１４によるリズム解析の結果も一部で用いられる。リズム解析の結果とは、例えば、ビート間の時間間隔がどの程度の長さかといったことである。
なお、感情パラメータ値算出の際には、音圧値がＬ１以下の音を無視する。
【００３１】
「快感（Ｐｌｅａｓｕｒｅ）」に関する処理は、次の通りである。
［条件１］　ビート間の時間間隔がＴ３以上で、かつ、中低音部から高音部までのいずれかの音圧のピークが高音方向に時間的にＴ４以上移動した場合は、「快感」の感情パラメータのカウントを＋１する。この条件に合致するとき、当該感情は、対象の音が鳴り始めてから時間Ｔ４経過時点から、対象の音が鳴りやんでから時間Ｔ２経過時点まで継続するものとする。つまり、本実施形態においては、この継続時間の間は、「快感」データに基づくアニメーションが生成され、出力される。
［条件２］　低音域の音圧値がＬ７以上で、かつ、高音部の平均音圧値がＬ４以上である場合で、平均音圧値がＬ６以上の時、前回までのビート間の平均時間間隔から今回のビート間の時間間隔を差し引いた値がＴ１以上である、または、前回の判定結果が「驚き」の場合は「快感」の感情パラメータのカウントを＋２する。この条件に合致するとき、当該感情は、対象の音が鳴り始めてから時間Ｔ４が経過した時点から始まるものとする。
【００３２】
つまり、上記条件２が適用される場合には、分割された周波数帯域グループごとの平均音圧値に基づいて感性データが算出される。
また、上記条件１が適用される場合には、周波数帯域グループ内において、音圧値のピークとなる周波数帯域が時間的にどのように推移するかに基づいて感性データが算出される。
また、上記条件１が適用される場合には、元のデジタルデータに基づき音に含まれるリズムの単位時間あたりの拍数が求められ、この単位時間あたり拍数に基づいて感性データが算出される。上記の「ビート間の時間間隔」は単位時間あたり拍数の逆数から求められる。
なお、「快感」の感情の優先順位は最も高い「１」であるため、上記の条件１あるいは条件２のいずれかにあてはまる場合は、他の感情を無視する。
【００３３】
「驚き（Ｓｕｒｐｒｉｓｅ）」に関する処理は、次の通りである。
上述した「快感」の条件に該当しない場合は、下記の条件により「驚き」に該当するかどうかをチェックする。
【００３４】
［条件１］　全音域の平均音圧値がＬ３以下の音が無い状態から、低音部のピークの音圧値がＬ７以上の音を最初に取得した場合は、「驚き」の感情パラメータのカウントを＋４し、その音が鳴りつづけた時間を継続時間とする。ただし、下記の条件２を満たす場合は無視をする。
［条件２］　全音域の平均音圧値がＬ２以下の音が無い状態から、低音部のピークの音圧値がＬ７以上の音を最初に取得した場合は、「驚き」の感情パラメータのカウントを＋５し、その音が鳴りつづけた時間を継続時間とする。
【００３５】
［条件３］　全音域の平均音圧値がＬ３以下の音が無い状態から、低音部以外のピークの音圧値がＬ７以上の音を最初に取得した場合は、「驚き」の感情パラメータのカウントを＋１し、その音が鳴りつづけた時間を継続時間とする。ただし、下記の条件４を満たす場合は無視をする。
［条件４］　全音域の平均音圧値がＬ２以下の音が無い状態から、低音部以外のピークの音圧値がＬ７以上の音を最初に取得した場合は、「驚き」の感情パラメータのカウントを＋２し、その音が鳴りつづけた時間を継続時間とする。
［条件５］　最高音部の音が時間Ｔ４以上続いた場合、または最高音部の音が存在し、かつ中高音部の平均音圧値がＬ４以下の場合は、「驚き」の感情パラメータのカウントを＋３し、その音が鳴りつづけた時間を継続時間とする。
なお、「驚き」の感情の優先順位は「快感」のそれに次ぐ「２」であるため、上記の条件１から５までのいずれかにあてはまる場合は、他の優先順位の低い感情を無視する。
【００３６】
「怯え（Ｆｅａｒ）」に関する処理は、次の通りである。
上述した「快感」あるいは「驚き」のいずれの条件にも該当しない場合は、下記の条件により「怯え」に該当するかどうかをチェックする。
【００３７】
［条件１］　中低音部から高音部までのいずれかの音圧値のピークが低音方向に時間的にＴ４以上移動した場合は、「怯え」の感情パラメータのカウントを＋１する。
［条件２］　中低音部から高音部までのいずれかの音圧値のピークが低音方向に時間的にＴ４以上移動し、続けて高音方向に時間的にＴ４以上移動した場合は、「怯え」の感情パラメータのカウントを＋４する。
［条件３］　中低音部から高音部までのいずれかの音圧値のピークが低音方向に移動中に高音方向に揺れた回数Ｎが４２以上の場合、「怯え」の感情パラメータのカウントを＋（Ｎ／１６）する。
【００３８】
なお、「怯え」データに基づくアニメーションの変化の始点は対象の音が鳴り始めてから時間Ｔ４経過後とし、同じくアニメーションの変化の終点は対象の音が鳴りやんでから時間Ｔ２経過後とする。
なお、「怯え」の感情の優先順位は「驚き」のそれに次ぐ「３」であるため、上記の条件１から３までのいずれかにあてはまる場合は、他の優先順位の低い感情を無視する。
【００３９】
上述した「快感」、「驚き」、「怯え」のいずれの条件にも該当しない場合は、下記の条件により「嬉しい」または「哀しい」に該当するかどうかをチェックする。
【００４０】
「嬉しい（Ｈａｐｐｙ）」に関する処理は、次の通りである。
［条件１］　ビートがある場合は、「嬉しい」の感情パラメータのカウントを＋１する。
［条件２］　ビート間の時間間隔がＴ７以下の場合は、「嬉しい」の感情パラメータのカウントを＋１する。
［条件３］　高音部の平均音圧値がＬ４以上の場合は、「嬉しい」の感情パラメータのカウントを＋１する。
［条件４］　上記の条件３を満たし、かつ、中低音部の音圧値のピークが５つ以上あった場合は、「嬉しい」の感情パラメータのカウントを＋２する。
［条件５］　上記の条件３を満たし、かつ、上記の条件４をみたし、かつ、低音部の平均音圧値がＬ５以下の場合は、「嬉しい」の感情パラメータのカウントを＋２をする。
［条件６］　抽出された長調要素−短調要素の数値が２以上の場合は、「嬉しい」の感情パラメータのカウントを＋１する。
【００４１】
なお、「嬉しい」データに基づくアニメーションの変化の始点の時間的な誤差は±Ｔ２とする。また、同じくアニメーションの変化の終点の時間的な誤差も±Ｔ２とする。
【００４２】
「哀しい（Ｓａｄ）」に関する処理は、次の通りである。
［条件１］　ビート間の時間間隔がＴ５以上である場合＋は、「哀しい」の感情パラメータのカウントを＋１する。
［条件２］　ビートがない場合は、「哀しい」の感情パラメータのカウントを＋２する。
［条件３］　中低音部に時間Ｔ４以上続く音圧値のピークがあった場合は、「哀しい」の感情パラメータを＋１し、音が鳴り続けている時間を継続時間とする。ただし、下記の条件４を満たす場合は無視をする。
［条件４］　中低音部に時間Ｔ６以上続く音圧値のピークがあった場合は、「哀しい」の感情パラメータを＋２し、音が鳴り続けている時間を継続時間とする。
【００４３】
［条件５］　高音部に音圧値のピークが３つ以上あった場合は、「哀しい」の感情パラメータを＋１する。
［条件６］　全領域の平均音圧値がＬ３以上の音が無い状態の場合は、「哀しい」の感情パラメータを＋１する。
［条件７］　全領域の平均音圧値がＬ３以上の音が時間Ｔ２以上無い場合は、「哀しい」の感情パラメータを＋１する。
［条件８］　中高音部と高音部の平均音圧値がＬ３以下であり、中低音部の音のみを取得した場合は、「哀しい」の感情パラメータを＋２する。
［条件９］　短調要素−長調要素の数値が２以上の場合は、「哀しい」の感情パラメータを＋１する。
【００４４】
なお、「哀しい」データに基づくアニメーションの変化の始点の時間的な誤差は±Ｔ２とする。また、同じくアニメーションの変化の終点の時間的な誤差も±Ｔ２とする。
【００４５】
以上述べたように、「快感」、「驚き」、「怯え」、「嬉しい」、「哀しい」の感情について、それぞれ定義された条件でのチェックが行われる。
そして、優先順位の高い感情から順に、「快感」、「驚き」、「怯え」のいずれかのカウント結果が１以上である場合に、その感情が感情種類として判定される。また、そのときのカウント値が感情レベルとされるので、感情レベルはレベル１〜レベル５（Ｌｖ＝１〜５）となる。但し、カウントが５を超える場合は、感情レベルを５とする。
【００４６】
なお、感情種類が「怯え」で、かつ同一の感情レベルである状態が時間Ｔ５以上継続した場合には、時間Ｔ５ごとに再チェックを行う。
また、感情種類が「快感」のまま、感情レベルが２から１へ移行した場合は、以後の感情レベルも２とみなし、感情レベル２を継続させるものとする。
【００４７】
「快感」、「驚き」、「怯え」のカウント値がいずれも０である場合で、「嬉しい」あるいは「哀しい」のカウント値の少なくとも一方が１以上である場合には、次に述べる方法で「嬉しい」および「哀しい」のカウント値を比較する。まず、前回の「嬉しい」のカウント値と現在の「嬉しい」のカウント値とから、これらの平均値を求める。次に、前回の「哀しい」のカウント値と現在の「哀しい」のカウント値とから、これらの平均値を求める。そして、「嬉しい」の平均値と「哀しい」の平均値とを比較する。
【００４８】
上記の「嬉しい」の平均カウント値のほうが大きい場合には、感情種類を「嬉しい」とするとともに、「嬉しい」の平均カウント値から「哀しい」の平均カウント値を引いた値を感情レベルとする。逆に、「哀しい」の平均カウント値のほうが大きい場合には、感情種類を「哀しい」とするとともに、「哀しい」の平均カウント値から「嬉しい」の平均カウント値を引いた値を感情レベルとする。
「嬉しい」の平均カウント値と「哀しい」の平均カウント値とが等しい場合には、前回のカウント値同士を比較し、大きい方のカウント値を持つほうを感情種類として選択するとともに、この場合の感情レベルを１とする。
【００４９】
但し、「嬉しい」と「哀しい」のカウント値を用いた判定に関して、上記の規則に関わらず、次の２つの例外パターンに該当する場合には、これを適用するものとする。
第１の例外パターンは、「嬉しい」のカウント値が５で、かつ、「哀しい」のカウント値が５である場合であり、このときは、感情種類を「快感」とし、感情レベルを２とする。
第２の例外パターンは、「怯え」のカウント値が３以上で、かつ、「哀しい」のカウント値が４以上の場合であり、このときは、感情種類を「哀しい」とし、感情レベルを５とする。
【００５０】
なお、上記５種類のいずれの感情についても、カウント値の結果がすべて０である場合には、感情種類は「無表情」であると判定される。
【００５１】
次に、補間フラグに関する判定方法を説明する。補間フラグのデフォルト値は１（ＯＮ）であるが、次の２通りのいずれかに該当する場合に限り、補間フラグを０（ＯＦＦ）とする。第１に、同じ感情種類が時間Ｔ６以上継続した場合には補間フラグを０とする。第２に、前回の感情種類が「嬉しい」または「哀しい」であり、そこから感情種類「快感」に遷移する場合には補間フラグを０とする。
【００５２】
上述した感情パラメータの算出および感情の判定等の処理において、時間Ｔ１〜Ｔ６については、Ｔ１＜Ｔ２＜Ｔ３＜Ｔ４＜Ｔ５＜Ｔ６の関係を満たす適切な値を用いることとする。なお、Ｔ１はほぼ数百ミリ秒程度、Ｔ６はほぼ数千ミリ秒程度である。また、音圧値レベルＬ１〜Ｌ７については、Ｌ１＜Ｌ２＜Ｌ３＜Ｌ４＜Ｌ５＜Ｌ６＜Ｌ７の関係を満たす適切な値を用いることとする。一例としては、Ｌ１は−５０ｄＢ（デシベル）程度、Ｌ７は−２０ｄＢ程度の値を用いる。
【００５３】
次に、図１に示したリズム解析部１４における処理について説明する。
リズム解析部１４には、伸長部によって伸長されたデータが入力される。この入力データは、前述のように、周波数領域ごとの音圧値情報を時系列的に持つものである。このような入力データを基に、リズム解析部１４は音楽のリズムを解析し、その音楽のｂｐｍ値（ｂｅａｔｓ　ｐｅｒ　ｍｉｎｕｔｅ，１分あたりビート数，単位時間あたり拍数）を算出して出力する。
【００５４】
リズム解析の処理においては、次の事項を前提とする。第１に、少なくとも一定時間以上は曲のリズムは一定のｂｐｍ値で正確に刻まれることとする。第２に、１拍あたり２回、ノイズ系の音が含まれることとする。例えば、曲が４分の４拍子である場合には、４拍の間に８回ノイズ系の音が含まれる。ここで、ノイズ系の音とは、例えばシンバル等の音である。
ノイズ系の音は、ほぼ全周波数帯域に渡って音圧変化があることが特徴である。従って、周波数帯域ごとにフレーム間の音圧変化量を求め、全周波数にわたって連続的に音圧変化量が所定の閾値以上となる場合にこれをノイズ系の音として検出できる。
【００５５】
そして、ノイズ系の音はリズムに応じて所定のタイミングの箇所に多く集中するという傾向があることから、このノイズ系の音を検出し、この検出間隔をフレーム（１フレームは約０．０２６１秒）単位で求める。この段階では、検出される間隔は、一定ではなく、フレーム数ごとの度数の分布として得られる。得られた分布を基に、補正を加えて、拍の間隔を決定することによってｂｐｍ値を求めることとする。
つまり、前記第２の前提によると１拍あたり２回のノイズ系の音が含まれるため、求められたノイズ間隔Ｆ（フレーム単位）を用いると、ｂｐｍ値は、次の式で得られる。すなわち、
ｂｐｍ値＝６０　［秒／分］　／　（２＊Ｆ　［フレーム］　＊０．０２６１　［秒／フレーム］）
【００５６】
図３は、上述した動画像生成装置におけるデータの流れを示す概略図である。図示するように、音声データ５１を基に、これを各周波数帯域に分解する処理（６１）を行うことによって、分解された音声のデータ５２が得られる。そしてこのデータを基に、感性データを算出する処理（６２）を行うことによって感性データ５３が得られる。そして、この感性データ５３に基づいて、ビジュアルコンテンツを生成する処理（６３）を行うことによって、例えばアニメーションなどのビジュアルコンテンツデータ５４が生成される。
【００５７】
ここで、アニメーション画像生成部３は感性データ蓄積部２に蓄積する感性データに基づいて、アニメーション画像生成部３で記憶している複数のフレームから画像を生成する。この画像はステージ上で少女がダンスのステップをしている場面をカメラで映した情景を映した画像である。またこの画像は少女の顔の表情が変化する画像である。
図４は感性データの感情種類が「嬉しい」の場合のアニメーション画像生成部３が生成するアニメーションの概要をレベルごとに示した表である。この、図４には各レベルにおける画像の「フレーム数」、「少女のステップ形態」、「キャラクタ表情変化」、「プログラム効果」、「カメラワーク」、「照明」、「特殊オブジェクト」の特徴が示されている。
例えば、感性データにおいて、感情種類が「嬉しい」で感情レベルが「Ｌｖ１（レベル１）」の場合には、図４に示すように、「フレーム数」＝３２、「少女のステップ形態」＝基本、「キャラクタ表情変化」＝目が少し微笑み、口元がニッコリ、「プログラム効果」＝なし、「カメラワーク」＝通常、「照明」＝通常、「特殊オブジェクト」＝なし、で画像が構成される。ここで、カメラワークが通常とは少女を前面から映すことであり、また照明が通常というのは、照明の位置と明るさが基本設定値である場合の事を示している。
また「Ｌｖ２」の場合には、「フレーム数」＝３２、「少女のステップ形態」＝基本、「キャラクタ表情変化」＝髪が上下し、口元がニッコリ、「プログラム効果」＝なし、「カメラワーク」＝アップ気味、「照明」＝通常、「特殊オブジェクト」＝なし、で画像が構成される。
また「Ｌｖ３」の場合には、「フレーム数」＝５６、「少女のステップ形態」＝特殊、「キャラクタ表情変化」＝少女が回転し、動きに合わせて髪が動く、「プログラム効果」＝ラスターを切る、「カメラワーク」＝通常、「照明」＝通常、「特殊オブジェクト」＝なし、で画像が構成される。
また「Ｌｖ４」の場合には、「フレーム数」＝３２、「少女のステップ形態」＝基本、「キャラクタ表情変化」＝Ｌｖ２に同じ、「プログラム効果」＝七色の紙吹雪が落ちてくる、「カメラワーク」＝アップ気味、「照明」＝フラッシング、「特殊オブジェクト」＝なし、で画像が構成される。
また「Ｌｖ５」の場合には、「フレーム数」＝６４、「少女のステップ形態」＝特殊、「キャラクタ表情変化」＝ニッコリ顔からバラバラに爆発する、「プログラム効果」＝ワープトンネル（青白の模様）、「カメラワーク」＝通常、「照明」＝黄色、「特殊オブジェクト」＝キャラクタの骸骨、爆発用の頭部、で画像が構成される。
【００５８】
また、図５は、感性データの感情種類が「嬉しい」の場合のアニメーション画像生成部３が生成するアニメーションの詳細な内容をレベルごとに示した表である。図５より、レベル１の時は、少女が基本ステップで踊ると同時に表情が変化をするシーンの動画像であり、この時、耳がひくひく動き、目がニッコリした顔で踊る。また、レベル２の時は、少女が基本ステップで踊ると同時に表情が変化をするシーンの動画像であり、この時、少女の髪が上下して口元はニッコリした笑顔で踊っている。また、レベル３の時は、少女が特殊モーションで踊ると同時に表情が変化をするシーンの動画像であり、この時、少女は嬉しさのあまり飛び上がり空中で回転する。また、レベル４の時は、少女が基本ステップで踊ると同時に表情が変化をするシーンの動画像であり、この時、少女は紙ふぶきの中でニッコリした顔で踊る。また、レベル５の時は、少女が特殊モーションで踊ると同時に表情が変化をするシーンの動画像であり、この時、少女の頭は嬉しさで爆発する。
【００５９】
図６は感性データの感情種類が「快感」の場合のアニメーション画像生成部３が生成するアニメーションの概要をレベルごとに示した表である。この、図６には各レベルにおける画像の「フレーム数」、「少女のステップ形態」、「キャラクタ表情変化」、「プログラム効果」、「カメラワーク」、「照明」、「特殊オブジェクト」の特徴が示されている。
例えば、感性データにおいて、感情種類が「快感」で感情レベルが「Ｌｖ１」の場合には、図６に示すように、「フレーム数」＝６４、「少女のステップ形態」＝基本、「キャラクタ表情変化」＝とろんとした顔で視点が定まらない、「プログラム効果」＝なし、「カメラワーク」＝溶けた状態のキャラクタの顔をアップで映す、「照明」＝通常、「特殊オブジェクト」＝なし、で画像が構成される。
また「Ｌｖ２」の場合には、「フレーム数」＝６４、「少女のステップ形態」＝特殊、「キャラクタ表情変化」＝口をだらしなく開き、よだれが垂れている、「プログラム効果」＝ワープトンネル（虹の模様）、「カメラワーク」＝よだれを垂らしている顔のアップ、「照明」＝通常、「特殊オブジェクト」＝よだれ、水溜り、で画像が構成される。
【００６０】
また、図７は、感性データの感情種類が「快感」の場合のアニメーション画像生成部３が生成するアニメーションの詳細な内容をレベルごとに示した表である。図７より、レベル１の時は、少女が特殊モーションで踊ると同時に表情が変化をするシーンの動画像であり、気持ちよさのあまり少女の体が溶けてしまう画像となる。また、レベル２の時は、少女が特殊モーションで踊ると同時に表情が変化をするシーンの動画像であり、少女はだらしない顔でよだれを垂らし、別の世界へ行ってしまう画像となる。
【００６１】
図８は感性データの感情種類が「哀しい」の場合のアニメーション画像生成部３が生成するアニメーションの概要をレベルごとに示した表である。この、図８には各レベルにおける画像の「フレーム数」、「少女のステップ形態」、「キャラクタ表情変化」、「プログラム効果」、「カメラワーク」、「照明」、「特殊オブジェクト」の特徴が示されている。
例えば、感性データにおいて、感情種類が「哀しい」で感情レベルが「Ｌｖ１」の場合には、図８に示すように、「フレーム数」＝３２、「少女のステップ形態」＝基本、「キャラクタ表情変化」＝目が下を向きながら悲しそう、「プログラム効果」＝なし、「カメラワーク」＝通常、「照明」＝通常、「特殊オブジェクト」＝なし、で画像が構成される。
また「Ｌｖ２」の場合には、「フレーム数」＝３２、「少女のステップ形態」＝基本、「キャラクタ表情変化」＝目玉がウルウルゆがみ涙を流す、「プログラム効果」＝なし、「カメラワーク」＝アップ気味、「照明」＝通常、「特殊オブジェクト」＝ウルウル目玉、で画像が構成される。
また「Ｌｖ３」の場合には、「フレーム数」＝６４、「少女のステップ形態」＝特殊、「キャラクタ表情変化」＝目をパチパチして、鼻をヒクヒクさせる、「プログラム効果」＝なし、「カメラワーク」＝少し見下ろし気味、「照明」＝氷風に、青っぽく、「特殊オブジェクト」＝氷柱、で画像が構成される。
また「Ｌｖ４」の場合には、「フレーム数」＝３２、「少女のステップ形態」＝基本、「キャラクタ表情変化」＝Ｌｖ１に同じ、「プログラム効果」＝破れたハートがキャラクタから吹き出る、「カメラワーク」＝ハートを見せる為あおり気味、「照明」＝ハートを強調するために暗め、「特殊オブジェクト」＝なし、で画像が構成される。
また「Ｌｖ５」の場合には、「フレーム数」＝９６、「少女のステップ形態」＝特殊、「キャラクタ表情変化」＝めそめそ涙を流す、「プログラム効果」＝床から水が押し迫っていく、「カメラワーク」＝通常、「照明」＝水の中らしく、青っぽく、「特殊オブジェクト」＝水面、で画像が構成される。
【００６２】
また、図９は、感性データの感情種類が「哀しい」の場合のアニメーション画像生成部３が生成するアニメーションの詳細な内容をレベルごとに示した表である。図９より、レベル１の時は、少女が基本ステップで踊ると同時に表情が変化をするシーンの動画像であり、この時、少女は悲しそうな表情で踊る。また、レベル２の時は、少女が基本ステップで踊ると同時に表情が変化をするシーンの動画像であり、この時、少女はウルウル目で涙を流しながら踊る。また、レベル３の時は、少女が特殊モーションで踊ると同時に表情が変化をするシーンの動画像であり、この時、少女はがっくり肩を落とし体が凍りつく。また、レベル４の時は、少女が基本ステップで踊ると同時に表情が変化をするシーンの動画像であり、この時、少女の胸からは敗れたハートが現れ、目からは大粒の涙を流して踊る。また、レベル５の時は、少女が特殊モーションで踊ると同時に表情が変化をするシーンの動画像であり、この時、少女は、地面から水面が上がってきて深く海の底に沈んでしまう。そして、座り込んでめそめそ顔を押さえて泣く。
【００６３】
図１０は感性データの感情種類が「怯え」の場合のアニメーション画像生成部３が生成するアニメーションの概要をレベルごとに示した表である。この、図１０には各レベルにおける画像の「フレーム数」、「少女のステップ形態」、「キャラクタ表情変化」、「プログラム効果」、「カメラワーク」、「照明」、「特殊オブジェクト」の特徴が示されている。
例えば、感性データにおいて、感情種類が「怯え」で感情レベルが「Ｌｖ１」の場合には、図１０に示すように、「フレーム数」＝３２、「少女のステップ形態」＝基本、「キャラクタ表情変化」＝目と髪が上下にヒクヒク動く、「プログラム効果」＝なし、「カメラワーク」＝通常、「照明」＝通常、「特殊オブジェクト」＝なし、で画像が構成される。
また「Ｌｖ２」の場合には、「フレーム数」＝３２、「少女のステップ形態」＝基本、「キャラクタ表情変化」＝口を大きく開き、目と髪を上下させる、「プログラム効果」＝なし、「カメラワーク」＝アップ気味、「照明」＝通常、「特殊オブジェクト」＝なし、で画像が構成される。
また「Ｌｖ３」の場合には、「フレーム数」＝６４、「少女のステップ形態」＝特殊、「キャラクタ表情変化」＝Ｌｖ１に同じ、「プログラム効果」＝なし、「カメラワーク」＝幽霊キャラクタを強調するアングルで、「照明」＝紫に変更、「特殊オブジェクト」＝死神のキャラクタ、で画像が構成される。
また「Ｌｖ４」の場合には、「フレーム数」＝３２、「少女のステップ形態」＝基本、「キャラクタ表情変化」＝Ｌｖ２に同じ、「プログラム効果」＝床から幽霊がわきあがる、「カメラワーク」＝見下ろし気味、「照明」＝全体を暗めに、「特殊オブジェクト」＝なし、で画像が構成される。
また「Ｌｖ５」の場合には、「フレーム数」＝６４、「少女のステップ形態」＝特殊、「キャラクタ表情変化」＝Ｌｖ２に同じ、「プログラム効果」＝ワープトンネル（赤黒模様）、「カメラワーク」＝あおり気味、「照明」＝通常、「特殊オブジェクト」＝邪眼１０個、で画像が構成される。
【００６４】
また、図１１は、感性データの感情種類が「怯え」の場合のアニメーション画像生成部３が生成するアニメーションの詳細な内容をレベルごとに示した表である。図１１より、レベル１の時は、少女が基本ステップで踊ると同時に表情が変化をするシーンの動画像であり、この時、少女は情けない顔でびくびくして踊る。また、レベル２の時は、少女が基本ステップで踊ると同時に表情が変化をするシーンの動画像であり、この時、少女は嫌そうに顔を左右に振って踊る。また、レベル３の時は、少女が特殊モーションで踊ると同時に表情が変化をするシーンの動画像であり、この時、少女の背後から死神が出現し、少女は辺りをキョロキョロ見回す。また、レベル４の時は、少女が基本ステップで踊ると同時に表情が変化をするシーンの動画像であり、この時、地面から幽霊が浮き出し、少女は不安げな顔で踊る。また、レベル５の時は、少女が特殊モーションで踊ると同時に表情が変化をするシーンの動画像であり、この時、少女は異常に気付く動作をし、邪眼に囲まれて石化する。
【００６５】
図１２は感性データの感情種類が「驚き」の場合のアニメーション画像生成部３が生成するアニメーションの概要をレベルごとに示した表である。この、図１２には各レベルにおける画像の「フレーム数」、「少女のステップ形態」、「キャラクタ表情変化」、「プログラム効果」、「カメラワーク」、「照明」、「特殊オブジェクト」の特徴が示されている。
例えば、感性データにおいて、感情種類が「驚き」で感情レベルが「Ｌｖ１」の場合には、図１２に示すように、「フレーム数」＝３２、「少女のステップ形態」＝基本、「キャラクタ表情変化」＝目が飛び出し、口が大きく開く、「プログラム効果」＝なし、「カメラワーク」＝通常、「照明」＝通常、「特殊オブジェクト」＝なし、で画像が構成される。
また「Ｌｖ２」の場合には、「フレーム数」＝３２、「少女のステップ形態」＝基本、「キャラクタ表情変化」＝目が飛び出し、口が大きく開く、「プログラム効果」＝なし、「カメラワーク」＝アップ気味、「照明」＝通常、「特殊オブジェクト」＝舌、飛び出した目、で画像が構成される。
また「Ｌｖ３」の場合には、「フレーム数」＝６４、「少女のステップ形態」＝特殊、「キャラクタ表情変化」＝Ｌｖ１に同じ、「プログラム効果」＝なし、「カメラワーク」＝通常、「照明」＝通常、「特殊オブジェクト」＝１００ｔの重石１個、舌、飛び出した目、で画像が構成される。
また「Ｌｖ４」の場合には、「フレーム数」＝３２、「少女のステップ形態」＝基本、「キャラクタ表情変化」＝Ｌｖ１＆Ｌｖ２を激しく切り替える、「プログラム効果」＝打ち上げ花火、「カメラワーク」＝ロング気味、「照明」＝少し暗め（花火を強調）、「特殊オブジェクト」＝舌、飛び出した目、で画像が構成される。
また「Ｌｖ５」の場合には、「フレーム数」＝４４、「少女のステップ形態」＝特殊、「キャラクタ表情変化」＝Ｌｖ２に同じ、「プログラム効果」＝雷、「カメラワーク」＝感電状態をアップ、「照明」＝雷に合わせてフラッシング、「特殊オブジェクト」＝舌、飛び出した目、骨の体、雷、で画像が構成される。
【００６６】
また、図１３は、感性データの感情種類が「驚き」の場合のアニメーション画像生成部３が生成するアニメーションの詳細な内容をレベルごとに示した表である。図１３より、レベル１の時は、少女が基本ステップで踊ると同時に表情が変化をするシーンの動画像であり、この時、少女の目が飛び出し、また少女は口を開いたまま踊る。また、レベル２の時は、少女が基本ステップで踊ると同時に表情が変化をするシーンの動画像であり、この時、少女の目が飛び出し、また少女は舌が飛び出したまま踊る。また、レベル３の時は、少女が特殊モーションで踊ると同時に表情が変化をするシーンの動画像であり、この時、少女の頭上から１００ｔの重石が落ちてきて、少女がペチャンコにつぶれて目をパチパチする。また、レベル４の時は、少女が特殊モーションで踊ると同時に表情が変化をするシーンの動画像であり、この時、少女は背景で花火が打ち上げられる中で踊る。また、レベル５の時は、少女が特殊モーションで踊ると同時に表情が変化をするシーンの動画像であり、この時、空から雷が落ちてきて少女は感電する。
【００６７】
以上、図面を参照してこの発明の実施形態を詳述してきたが、具体的な構成はこれらの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【００６８】
【発明の効果】
以上説明したように、この発明によれば、分割された周波数帯域ごとの音圧値として音を表現したデジタルデータを入力し、前記周波数帯域ごとの音圧値の分布を解析することにより、前記音に関連する感性データを算出し、その感性データに基づいてアニメーション画像生成部がアニメーション画像を生成するので、再生される音楽に応じてキャラクタの動作を生成することが出来、そして、何通りものキャラクタの動作のアニメーション画像を表示する事が出来る。
【図面の簡単な説明】
【図１】この発明の一実施形態による感性データ算出方法を応用した動画像生成装置の構成を示すブロック図である。
【図２】同実施形態による動画像生成装置が備える感情解析部１３による解析処理の手順を示すフローチャートである。
【図３】同実施形態による動画像生成装置におけるデータの流れを示す概略図である。
【図４】同実施形態による感性データの感情種類が「嬉しい」の場合のアニメーション画像生成部３が生成するアニメーションの概要をレベルごとに示した表である。
【図５】動実施形態による感性データの感情種類が「嬉しい」の場合のアニメーション画像生成部３が生成するアニメーションの詳細な内容をレベルごとに示した表である。
【図６】同実施形態による感性データの感情種類が「快感」の場合のアニメーション画像生成部３が生成するアニメーションの概要をレベルごとに示した表である。
【図７】動実施形態による感性データの感情種類が「快感」の場合のアニメーション画像生成部３が生成するアニメーションの詳細な内容をレベルごとに示した表である。
【図８】同実施形態による感性データの感情種類が「哀しい」の場合のアニメーション画像生成部３が生成するアニメーションの概要をレベルごとに示した表である。
【図９】動実施形態による感性データの感情種類が「哀しい」の場合のアニメーション画像生成部３が生成するアニメーションの詳細な内容をレベルごとに示した表である。
【図１０】同実施形態による感性データの感情種類が「怯え」の場合のアニメーション画像生成部３が生成するアニメーションの概要をレベルごとに示した表である。
【図１１】動実施形態による感性データの感情種類が「怯え」の場合のアニメーション画像生成部３が生成するアニメーションの詳細な内容をレベルごとに示した表である。
【図１２】同実施形態による感性データの感情種類が「驚き」の場合のアニメーション画像生成部３が生成するアニメーションの概要をレベルごとに示した表である。
【図１３】動実施形態による感性データの感情種類が「驚き」の場合のアニメーション画像生成部３が生成するアニメーションの詳細な内容をレベルごとに示した表である。
【符号の説明】
１　スペクトラム解析部
２　感性データ蓄積部
３　アニメーション画像生成部
４　ＭＰ３データ記憶部
５　ＭＰ３デコーダ部
６　Ｄ／Ａ変換部
７　表示部
１１　伸長部
１２　感性データ算出部
１３　感情解析部
１４　リズム解析部

Claims

分割された周波数帯域毎の音圧値として音を表現したデジタルデータを記憶するデータ記憶部と、
前記データ記憶部から読み出された前記デジタルデータを基に前記周波数帯域毎の音圧値の分布を解析し、この解析結果に基づいて感情種類と、前記感情種類毎の感情レベルなどからなる感性データを算出する感性データ算出部と、
前記感性データ算出部によって算出された前記感情種類と、前記感情レベルの組み合わせに応じてビジュアルコンテンツの動画像を生成するビジュアルコンテンツ生成部と、
前記ビジュアルコンテンツ生成部の生成したビジュアルコンテンツの動画像を表示する表示部と、
前記ビジュアルコンテンツ生成部が生成するビジュアルコンテンツの動画像に同期させて前記デジタルデータをデコードしオーディオ信号を出力するデコーダ部と、
を備えることを特徴とする動画像生成装置。
前記ビジュアルコンテンツ生成部は前記感性データ算出部によって算出された前記感情種類と前記感情レベルの組み合わせに応じて、人や動物などのキャラクタの顔の表情を変化させることにより動画像を生成することを特徴とする請求項１に記載の動画像生成装置。
前記ビジュアルコンテンツ生成部は前記感性データ算出部によって算出された前記感情種類と前記感情レベルの組み合わせに応じて、人や動物などのキャラクタのダンスステップの動作を変化させることにより動画像を生成することを特徴とする請求項１に記載の動画像生成装置。
前記ビジュアルコンテンツ生成部は前記感性データ算出部によって算出された前記感情種類と前記感情レベルの組み合わせに応じて、前記動画像となる風景や背景の明るさや、視点位置、向き、画角、動きなどのカメラワークを変化させることにより動画像を生成することを特徴とする請求項１に記載の動画像生成装置。
分割された周波数帯域毎の音圧値として音を表現したデジタルデータを記憶するデータ記憶部を備えた動画像生成装置における動画像生成方法において、
前記データ記憶部から読み出された前記デジタルデータを基に前記周波数帯域毎の音圧値の分布を解析し、この解析結果に基づいて感情種類と、前記感情種類毎の感情レベルなどからなる感性データを算出する第１の過程と、
前記第１の過程によって算出された前記感情種類と、前記感情レベルの組み合わせに応じてビジュアルコンテンツの動画像を生成する第２の過程と、
前記第２の過程において生成されたビジュアルコンテンツの動画像を表示部に表示する第３の過程と、
前記第３の過程で表示部に表示されるビジュアルコンテンツの動画像に同期させて前記デジタルデータをデコードしオーディオ信号を出力する第４の過程と、
を備えることを特徴とする動画像生成方法。
分割された周波数帯域毎の音圧値として音を表現したデジタルデータを記憶するデータ記憶部を備えた動画像生成装置における動画像構プログラムであって、
前記コンピュータに、
前記データ記憶部から読み出された前記デジタルデータを基に前記周波数帯域毎の音圧値の分布を解析し、この解析結果に基づいて感情種類と、前記感情種類毎の感情レベルなどからなる感性データを算出する第１の処理と、
前記第１の処理によって算出された前記感情種類と、前記感情レベルの組み合わせに応じてビジュアルコンテンツの動画像を生成する第２の処理と、
前記第２の処理において生成されたビジュアルコンテンツの動画像を表示部に表示する第３の処理と、
前記第３の処理で表示部に表示されるビジュアルコンテンツの動画像に同期させて前記デジタルデータをデコードしオーディオ信号を出力する第４の処理と、
を実行させるためのプログラム。