JP2004029047A

JP2004029047A - デジタルオーディオ再生装置およびデジタルオーディオ再生方法

Info

Publication number: JP2004029047A
Application number: JP2002173049A
Authority: JP
Inventors: Fumihiko Sugiyama; 杉山　文彦; Takatomo Nakajima; 中島　隆智
Original assignee: Open Interface Inc
Current assignee: Open Interface Inc
Priority date: 2002-06-13
Filing date: 2002-06-13
Publication date: 2004-01-29

Abstract

【課題】利用者に不自然な感じを与えることなく、オーディオ出力と視覚表現出力とに一体感を持たせることのできるデジタル再生装置を提供する。
【解決手段】オーディオデータをデコードする処理を行う第１のデコーダ部と、第１のデコーダ部と並行してデコードする処理を行う第２のデコーダ部と、第２のデコーダ部によって出力されたオーディオデータを再生するオーディオ再生部と、第１のデコーダ部によってデコードされたオーディオデータに基づいて、当該デジタルオーディオデータに対応した感性を表す感性データを算出する感性データ算出部と、感性データを蓄積する感性データ蓄積部と、感性データ蓄積部から感性データを読み出し、この読み出された感性データに基づいて、オーディオ再生部によるデジタルオーディオデータの再生と同期的に画像を生成して出力する画像生成部とを具備する。
【選択図】　　　図１

Description

【０００１】
【発明の属する技術分野】
この発明は、デジタルデータを再生するデジタルデータ再生装置に関する。特に、例えばＭＰ３（Ｍｐｅｇ　１　ＡｕｄｉｏＬａｙｅｒ３、Ｍｐｅｇ　２　ＡｕｄｉｏＬａｙｅｒ３、Ｍｐｅｇ　２．５　ＡｕｄｉｏＬａｙｅｒ３）の形式などでデジタルデータとして記録されたオーディオデータを再生するためのデジタルオーディオ再生装置およびデジタルオーディオ再生方法に関する。
【０００２】
【従来の技術】
従来技術において、デジタルオーディオ再生装置がデジタルオーディオデータを再生するためには、デジタルオーディオデータを記録媒体等から読み出し、そのデータを所定の方法に従ってデコードし、その結果得られる音声信号を出力する方法が取られる。
【０００３】
【発明が解決しようとする課題】
本願発明者らのグループは、デジタルオーディオデータを解析することによってその音が表す感性をデータとして算出する装置及び方法を考案し、既に特許出願している。そのような感性データ算出装置の応用例のひとつとして、デジタルオーディオを再生しながら、同時に、その再生される音楽の感性にあった視覚（ビジュアル）表現を生成し、画面等に表示出力するようなデジタルオーディオ再生装置が考えられる。
しかし、このようなデジタルオーディオ再生装置を実用化するためには、次のような課題を解決しなければならない。すなわちその課題とは、オーディオ出力と視覚表現の出力とのタイミングを合わせて利用者に不自然な感じを与えないようにするとともに、感性データの算出に要する処理時間をできるだけ利用者に意識させないようにすることである。
【０００４】
本発明は、上記のような課題を解決するためになされたものであり、感性データの算出や視覚表現の生成に要する処理時間によって利用者に不自然な感じを与えることなく、オーディオ出力と視覚表現出力とに一体感を持たせることを可能とするデジタルオーディオ再生装置およびデジタルオーディオ再生方法を提供することを目的とする。
【０００５】
【課題を解決するための手段】
上記の課題を解決するために、本発明は、デジタルデータをデコードする処理を行う第１のデコーダ部と、前記第１のデコーダ部と並行してデジタルデータをデコードして出力する処理を行う第２のデコーダ部と、前記第２のデコーダ部によって出力されたデジタルデータを再生する再生部と、前記第１のデコーダ部によってデコードされたデジタルデータに基づいて、当該デジタルデータに対応した感性を表す感性データを算出する感性データ算出部と、前記感性データを蓄積する感性データ蓄積部と、前記感性データ蓄積部に蓄積されている前記感性データを読み出し、この読み出された感性データに基づいて、前記再生部によるデジタルデータの再生と同期的に他のコンテンツを生成して出力するコンテンツ生成部とを具備することを特徴とするデジタルデータ再生装置を要旨とする。
【０００６】
また、本発明のデジタルオーディオ再生装置は、デジタルオーディオデータをデコードする処理を行う第１のデコーダ部と、前記第１のデコーダ部と並行してデジタルオーディオデータをデコードして出力する処理を行う第２のデコーダ部と、前記第２のデコーダ部によって出力されたデジタルオーディオデータを再生するオーディオ再生部と、前記第１のデコーダ部によってデコードされたデジタルオーディオデータに基づいて、当該デジタルオーディオデータに対応した感性を表す感性データを算出する感性データ算出部と、前記感性データを蓄積する感性データ蓄積部と、前記感性データ蓄積部に蓄積されている前記感性データを読み出し、この読み出された感性データに基づいて、前記オーディオ再生部によるデジタルオーディオデータの再生と同期的に画像を生成して出力する画像生成部とを具備することを特徴とする。
本発明のこのような構成によれば、第２のデコーダ部がデコードして出力するデジタルオーディオデータは、そのまま即座にオーディオ再生部によって再生される。一方、第１のデコーダ部は、第２のデコーダ部とは並行して独立に他のデジタルオーディオデータをデコードすることができる。そして、第１のデコーダ部によってデコードされたデジタルオーディオデータを基に、感性データ算出部が感性データを算出し、この算出された感性データは、一旦感性データ蓄積部に蓄積される。つまり、予め算出した感性データを感性データ蓄積部に蓄積しておくことができる。よって、感性データの算出の処理に時間がかかる場合にも、感性データ蓄積部に蓄積された感性データを画像生成部が読み出して前記のオーディオ再生部によるオーディオデータの再生と同期的に画像を生成して出力することができる。よって、利用者にとっては、本デジタルオーディオ再生装置が、オーディオデータの再生と同期的にリアルタイムに感性データを算出してこの感性データに基づいた画像を出力しているような効果を与える。また、第１のデコーダ部と第２のデコーダ部とは同時並行的にそれぞれ独立にデジタルオーディオデータを再生することができるため、デジタルオーディオデータのある部分を再生してオーディオ信号として出力しながら、同時に、第１のデコーダ部がデジタルオーディオデータの他の部分を先読みして、予め当該他の部分に対応した感性データを算出して蓄積しておくことができる。
【０００７】
また、本発明のデジタルオーディオ再生装置は、上記のデジタルオーディオ再生装置において、複数のトラックのデジタルオーディオデータを記憶するデジタルオーディオデータ記憶部を具備し、前記第２のデコーダ部は、前記デジタルオーディオデータ記憶部から所定の順序に従って前記複数のトラックのデジタルオーディオデータを順次読み出して、この読み出されたトラックのデジタルオーディオデータをデコードして出力するものであり、前記第１のデコーダ部は、前記第１のデコーダ部によってデコードされているトラックからＮトラック（Ｎは自然数）先までのトラックのデジタルオーディオデータを前記デジタルオーディオデータ記憶部から先読みしてデコードするものであり、前記感性データ蓄積部は、前記第１のデコーダ部によってデコードされているトラックからＮトラック（Ｎは自然数）先までのトラックのデジタルオーディオデータに対応した感性データを蓄積するものであることを特徴とする。
本発明のこのような構成によれば、現在再生されているトラックからＮトラック先までのデジタルオーディオデータを先読みして当該先読みされたデジタルオーディオデータに対応した感性データを蓄積しておくことができるため、利用者がトラックをスキップして次以降のトラックに再生位置が移動したときにも、即座にオーディオ再生と画像生成およびその出力とを同期的に開始することができる。
【０００８】
また、本発明のデジタルオーディオ再生装置は、上記のデジタルオーディオ再生装置において、前記感性データ蓄積部は、前記第１のデコーダ部によってデコードされているトラックからＭトラック（Ｍは自然数）前までのトラックのデジタルオーディオデータに対応した感性データを保存しておくとともに、それより更に前のトラックのデジタルオーディオデータに対応した感性データを消去するものであることを特徴とする。
本発明のこのような構成によれば、現在再生されているトラックからＭトラック前までのデジタルオーディオデータに対応した感性データを保存しておくことができるため、利用者がトラックを前に戻して他のトラックに再生位置が戻ったときにも、即座にオーディオ再生と画像生成およびその出力とを同期的に開始することができる。また、Ｍトラック前よりもさらに前のトラックのデジタルオーディオデータに対応する感性データは消去されるため、感性データ蓄積部の記憶容量を小さくすることが可能となる。
【０００９】
また、本発明のデジタルオーディオ再生装置は、上記のデジタルオーディオ再生装置において、Ｎ＝２であり、Ｍ＝１であることを特徴とする。
通常、デジタルオーディオ再生装置の利用者は、次のトラックにスキップするか前のトラックに戻ることが多い。本発明において、Ｎ＝２とすることにより、たとえ現トラックの再生開始直後であっても、次のトラックにスキップした際にも既に感性データは感性データ蓄積部に蓄積されている。また、Ｍ＝１とすることにより、前のトラックにスキップした際にも感性データは感性データ蓄積部に保存されている。これら蓄積された感性データを利用して、即座に画像の生成及び出力が可能となる。また、Ｎ＝２，Ｍ＝１とすることにより、あまり使われない余分な感性データを感性データ蓄積部に保存しておく必要が無いため、上記即時性を維持したまま、感性データ蓄積部の記憶容量を最小化することが可能となる。
【００１０】
また、本発明のデジタルオーディオ再生装置は、上記のデジタルオーディオ再生装置において、前記感性データは、前記デジタルオーディオデータの再生位置に関する情報と当該再生位置において生成すべき画像に関する情報との組を時系列的に表すデータを含むものであることを特徴とする。
本発明のこのような構成により、オーディオ再生と画像生成とを容易に同期させることができる。
【００１１】
また、本発明のデジタルオーディオ再生装置は、上記のデジタルオーディオ再生装置において、前記第１のデコーダ部によってデコードされたデジタルオーディオデータは、分割された周波数帯域ごとの音圧値として音を表現したデータであり、前記感性データ算出部は、前記周波数帯域ごとの音圧値の分布を解析することにより、前記デジタルオーディオデータに対応した感性データを算出することを特徴とする。
【００１２】
また、本発明のデジタルオーディオ再生装置は、上記のデジタルオーディオ再生装置において、前記感性データ算出部は、前記周波数帯域ごとの音圧値の分布の時間的な推移に基づいて前記感性データを算出することを特徴とする。
【００１３】
また、本発明のデジタルオーディオ再生装置は、上記のデジタルオーディオ再生装置において、前記感性データ算出部は、前記デジタルオーディオデータに含まれるリズムの単位時間あたり拍数を求め、この単位時間あたり拍数に基づいて前記感性データを算出することを特徴とする。
なお、上記感性データには、感情種別のデータ、感情レベルのデータ、リズムのデータが含まれる。
【００１４】
また、本発明のデジタルオーディオ再生装置は、上記のデジタルオーディオ再生装置において、前記感性データ算出部は、前記周波数帯域ごとの音圧値の分布に基づき、「快感」、「驚き」、「怯え」、「嬉しい」、「哀しい」の５種類の感情パラメータ値を算出し、これらの感情パラメータ値に基づいて感性データを算出することを特徴とする。
【００１５】
また、本発明のデジタルオーディオ再生方法は、第１のデコーダ部が、デジタルオーディオデータをデコードする処理を行い、第２のデコーダ部が、前記第１のデコーダ部と並行してデジタルオーディオデータをデコードして出力する処理を行い、前記第２のデコーダ部によって出力されたデジタルオーディオデータを再生してオーディオ信号を出力するとともに、前記第１のデコーダ部によってデコードされたデジタルオーディオデータに基づいて、当該デジタルオーディオデータに対応した感性を表す感性データを算出し、前記感性データを蓄積しておき、この蓄積されている前記感性データを読み出し、この読み出された感性データに基づいて、前記オーディオ再生部によるデジタルオーディオデータの再生と同期的に画像を生成して出力することを特徴とするものである。
【００１６】
また、本発明は、上記のデジタルオーディオ再生方法の処理をコンピュータに実行させるコンピュータプログラムである。
【００１７】
【発明の実施の形態】
以下、図面を参照しこの発明の一実施形態について説明する。
図１は、この実施形態によるデジタルオーディオ再生装置の機能構成を示すブロック図である。図１において、符号１は、ＭＰ３形式のデジタルオーディオデータを記憶するＭＰ３データ記憶部である。１１は、ＭＰ３データ記憶部１から読み出されたＭＰ３データをデコードするＭＰ３デコーダ部（＃１）である。具体的には、ＭＰ３デコーダ部（＃１）１１は、所定の方法によって圧縮されているＭＰ３データを伸張することによって、周波数帯域毎のエネルギーの強さを表すデータを出力する。１２は、ＭＰ３デコーダ部（＃１）１１から出力されるデータを基に感性データを算出する感性データ算出部である。感性データ算出部１２は、内部に、感情の解析を行って種類およびそのレベルを出力する感情解析部１２１と、リズムの解析を行って単位時間あたりのリズム拍数（ＢＰＭ、Ｂｅａｔｓ　Ｐｅｒ　Ｍｉｎｕｔｅ）を求めるとともにそのリズムのタイミングを出力するリズム解析部１２２とを備えている。この感性データ算出部１２による具体的な感性データの算出方法は後で述べる。１４は、感性データ算出部１２によって出力される感性データを蓄積するための感性データ蓄積部である。１５は、感性データ蓄積部１４に蓄積された感性データを読み出して、その感性データに合ったアニメーション画像（視覚表現）を生成し、後述するオーディオ再生部２２と同期しながらそのアニメーション画像をビデオ信号として出力するアニメーション画像生成部である。
【００１８】
また、２１は、オーディオ再生の目的で、ＭＰ３データ記憶部１から読み出されたＭＰ３データをデコードするＭＰ３デコーダ部（＃２）２１である。２２は、ＭＰ３デコーダ部（＃２）２１によってデコードされたデータを基にオーディオを再生するオーディオ再生部である。具体的には、オーディオ再生部２２は、ＭＰ３デコーダ部（＃２）２１から出力される周波数帯域毎のエネルギーの強さを表すデータを基に、逆フーリエ変換の処理を行うことによって時系列的な音圧レベルのデータを出力する。２３は、オーディオ再生部２２から出力されるデジタルデータをアナログ変換してアナログオーディオ信号として出力するＤ／Ａ変換部である。
【００１９】
次に、ＭＰ３データ記憶部（図１の符号１）に格納されているデータについて説明する。図２は、ＭＰ３データ記憶部に格納されるデジタルオーディオデータの構造の概略を示す概略図である。図２に示すように、デジタルオーディオデータは、通常、複数のトラックのデータから構成されている。本例では、トラック１から１２までのデータが記憶されている。１トラックは、通常、音楽の１曲分あるいは１楽章分のデータに相当する。各トラックのデータそのもの（図２におけるトラック１データ，トラック２データ，・・・，トラック１２データ）は、曲あるいは楽章など（以下、単に「曲等」という。）の時間的な長さや、データの圧縮率などによって異なる。つまり各トラックのデータそのものは可変長データである。また、各トラックのデータにダイレクトアクセスを可能にするために各トラックのデータの先頭へのポインタ（図２におけるトラック１ポインタ，トラック２ポインタ，・・・，トラック１２ポインタ）が設けられている。
【００２０】
次に、本実施形態におけるデジタルオーディオ再生装置の処理のタイミングについて説明する。図３は、ＭＰ３デコーダ部（＃１）とＭＰ３デコーダ部（＃２）による処理のタイミングの関係を示すタイミングチャートである。なお、前述の通り、ＭＰ３デコーダ部（＃１）によってデコードされたデータは感性データの算出のために用いられ、ＭＰ３デコーダ部（＃２）によってデコードされたデータはオーディオ再生のために用いられる。以下、図３に沿って時系列的に説明する。
【００２１】
まず、本デジタルオーディオ再生装置の利用者が、トラック１〜１２を順次再生させるための操作を行うと、時刻ｔ０において、ＭＰ３デコーダ部（＃１）がトラック（ＴＲＫ）１のデータを読み出しそのデコード処理を開始する。ここでデコードされたデータは感性データ算出のために用いられる。そして、時刻ｔ１において、トラック１のデータのデコードおよびその感性データの算出が完了する。なお、算出された感性データは、感性データ蓄積部に一時的に蓄積されている。
次に、時刻ｔ１から、ＭＰ３デコーダ部（＃１）が、次のトラック２のデータを読み出しそのデコード処理を開始する。トラック１のときと同様に、デコードされたデータは感性データの算出のために用いられ、その感性データが順次、感性データ蓄積部に蓄積されていく。また、これと並行して、時刻ｔ１から、ＭＰ３デコーダ部（＃２）がトラック１のデータのデコード処理を開始する。このデコードされたデータは、オーディオ再生部によってオーディオ再生のために用いられる。つまり、時刻ｔ１から、トラック１の曲等の再生が開始される。このとき、トラック１の曲等の再生と同期しながら、アニメーション画像生成部がトラック１用のアニメーション画像を生成し、ビデオ信号として出力する。
なお、トラックのデータを基に感性データの算出するために要する時間は、その再生の時間よりも短く、例えば、３分〜５分間程度の曲等に相当する感性データの算出は、５秒〜１０秒程度で完了する。
【００２２】
次に、時刻ｔ２において、トラック１の曲等の再生の途中で、ＭＰ３デコーダ部（＃１）によるトラック２のデコード処理およびそれに伴うトラック２の感性データの算出処理が完了すると、ＭＰ３デコーダ部（＃１）は、トラック３のデコード処理を開始する。これに伴って、感性データ算出部はトラック３の感性データの算出を開始する。
時刻ｔ３において、トラック１の曲等の再生の途中で、ＭＰ３デコーダ部（＃１）によるトラック３のデコード処理およびそれに伴うトラック３の感性データの算出処理が完了したとき、ＭＰ３デコーダ部（＃１）は、すぐにはトラック４のデコード処理を開始せず、処理を休止する。これは、本デジタルオーディオ再生装置が、現在再生中のトラック（相対値：０）を基準として、２トラック先のトラック（相対値：＋２）まで先読みして感性データの算出を行うようになっているためである。
【００２３】
次に、時刻ｔ４において、ＭＰ３デコーダ部（＃２）によるトラック１のデコード処理およびそれに伴うトラック１の再生処理が完了したとき、ＭＰ３デコーダ部（＃２）は次のトラック２のデータのデコード処理を開始する。また、これに伴い、オーディオ再生部は、トラック２（相対値：０）の曲等の再生を開始する。
また、これと同時に、時刻ｔ４において、ＭＰ３デコーダ部（＃１）は、トラック４（相対値：＋２）のデータのデコード処理を開始する。これに伴って、トラック４のデータの感性データの算出も開始される。
そして、時刻ｔ５において、ＭＰ３デコーダ部（＃１）によるトラック４のデータのデコード処理、および、感性データ算出部によるトラック４の感性データの算出が完了する。
【００２４】
以下、同様に、新たなトラック（相対値：０）のデータのデコード処理がＭＰ３デコーダ部（＃２）によって開始され、それに伴ってそのトラック（相対値：０）の再生が開始されたときには、２トラック先のトラック（相対値：＋２）のデータのデコード処理がＭＰ３デコーダ部（＃１）によって開始され、それに伴ってそのトラック（相対値：＋２）の感性データの算出が開始される。
なお、最後のトラックまで感性データの算出が完了しているときには、もう、それ以上は感性データの算出は行われない。
また、あるトラック（相対値：０）の曲等の再生中は、その前のトラック（相対値：−１）の感性データまでは感性データ蓄積部にまだ保存されている。
つまり、定常状態において、感性データ蓄積部には、相対値が−１と０と＋１と＋２との４トラック分の感性データが蓄積されている。相対値が−２以下のトラックについては，記憶領域を有効活用するために感性データが削除される。
【００２５】
次に、感性データ蓄積部（図１の符号１４）に蓄積されるデータの構造について説明する。図４は、感性データ蓄積部に格納される感性データの構造の概略を示す概略図である。図４に示すように、感性データ蓄積部は、相対値（−１）から（＋２）までのトラックについて、バッファ記憶領域内に各トラックの感性データを格納している。図示する例では、相対値：−１がトラック３、相対値：０がトラック４、相対値：＋１がトラック５、相対値：＋２がトラック６である。また、これらの各トラックの感性データへのポインタを設けることによって、各トラックの感性データの先頭にダイレクトにアクセスできるようになっている。なお、新たなトラックの感性データが算出される際には、空いている未使用領域が使用される。また、感性データが不要となったトラックについては、ポインタがはずれることによってそのトラック用の感性データが格納されていた領域が未使用領域に変わる。つまり、感性データが不要となったトラックについては、そのトラック用の感性データが実質的に消去される。
【００２６】
以上のように、相対値（−１）から（＋２）までのトラックの感性データを感性データ蓄積部に格納しておくことにより、再生対象のトラックが前のトラックまたは後のトラックに移動されたときにも、即座に感性データの利用したアニメーション画像の生成を開始できる。つまり、利用者の操作によって再生対象がトラック４からトラック３に移ったとき、即座にトラック３用の感性データの利用が開始できる。また、同様に、トラック４からトラック５に移ったとき、即座にトラック５用の感性データの利用が開始できる。また、トラック４の再生が終了してトラック５の再生が開始された時点で利用者の操作によってトラック６に移ったときも、既にトラック６の感性データはできているので、即座にトラック６用の感性データの利用が開始できる。
このような方法で、算出された感性データを蓄積することにより、前後のトラックへの移動が行われたときにも、感性データの算出のために利用者を待たせることなく、スムーズにトラックの移動を行って、曲等のオーディオ信号とアニメーションのビデオ信号の両方の出力を開始することができる。
【００２７】
次に、アニメーション画像生成部（図１の符号１５）がアニメーション画像を生成してビデオ信号を出力する際に、オーディオ再生部（図１の符号２２）によるオーディオ再生と同期を取るための方法について説明する。
図５は、感性データ蓄積部（図１の符号１４）に蓄積されている１トラック分（図示する例ではトラック３）の感性データの構造の概略を示す概略図である。図示するように、１トラック分の感性データには、３種類の配列が含まれている。
配列「Ｂｅａｔ」は、当該トラックにおけるリズムに関する情報を格納するための配列である。配列「Ｅｍｏｔｉｏｎ」は、当該トラックにおける感情に関する情報を格納するための配列である。これら「Ｂｅａｔ」および「Ｅｍｏｔｉｏｎ」を、まとめてアニメーションデータと称する。配列「Ｂｅａｔ」および「Ｅｍｏｔｉｏｎ」の各要素には、それぞれ、前回の動作を継続する時間の長さを表す数値（ミリ秒単位）と今回開始すべき動作の内容の情報とをセットで持っている。
配列「Ａｎｃｈｏｒ」には、ビデオとオーディオとの同期のために必要な情報が格納されており、この配列「Ａｎｃｈｏｒ」の要素は、次に説明する構造体である。
【００２８】
図６は、上記の構造体データ（Ａｎｃｈｏｒ（アンカー）構造体）の内部構造を示す概略図である。なお、ここで、生成されるアニメーション画像は、ボディ（身体）およびフェイス（顔）の状態が変化するキャラクタを表す画像である。そして、この構造体のメンバである「ｄｗＢｏｄｙＩｎｄｅｘ」は、アニメーションデータ内のボディに関する参照位置である。また、メンバ「ｄｗＢｏｄｙＡｄｊｕｓｔ」は、ボディの動きのための調整時間をミリ秒単位の数値で保持する。また、メンバ「ｄｗＦａｃｅＩｎｄｅｘ」は、同じくアニメーションデータ内のフェイスに関する参照位置である。また、メンバ「ｄｗＦａｃｅＡｄｊｕｓｔ」は、フェイスの動きのための調整時間をミリ秒単位の数値で保持する。また、メンバ「ｄｗＦｉｌｅＰｏｉｎｔｅｒ」は、デコードされたオーディオデータ（ＭＰ３データ）内の参照位置へのポインタ（約３８分の１秒の長さを持つ「フレーム」の先頭位置へのポインタ）である。また、メンバ「ｄｗＴｉｍｅ」は、当該トラックのここまでの演奏時間をミリ秒単位の数値で保持する。メンバ「ｄｗＲｅｓｅｒｖｅ１」および「ｄｗＲｅｓｅｒｖｅ２」は、未使用の予約領域である。
【００２９】
つまり、上記のアンカー構造体は、ＭＰ３データの再生位置に関する情報（ｄｗＦｉｌｅＰｏｉｎｔｅｒおよびｄｗＴｉｍｅ）と当該再生位置において生成すべき画像に関する情報（ｄｗＢｏｄｙＩｎｄｅｘ、ｄｗＢｏｄｙＡｄｊｕｓｔ、ｄｗＦａｃｅＩｎｄｅｘ、ｄｗＦａｃｅＡｄｊｕｓｔ）との組を表すデータである。そして、このアンカー構造体を要素とする配列は、上記組を時系列的に表すデータである。
【００３０】
オーディオデータのシーク位置と、動作の開始時点とが常に一致するとは限らないため、それを補正する必要がある。この補正情報が、それぞれ、上記構造体におけるメンバ「ｄｗＢｏｄｙＡｄｊｕｓｔ」および「ｄｗＦａｃｅＡｄｊｕｓｔ」である。
【００３１】
シーク時の同期のための処理手順の概要は、次の通りである。
（１）「ｄｗＢｏｄｙＩｎｄｅｘ」、「ｄｗＦａｃｅＩｎｄｅｘ」の位置にアニメーションデータの参照位置を移動する。
（２）その位置の「Ｂｅａｔ」、「Ｅｍｏｔｉｏｎ」の「ｄｗＴｉｍｅ」から、「ｄｗＢｏｄｙＡｄｊｕｓｔ」あるいは「ｄｗＦａｃｅＡｄｊｕｓｔ」を引いた数値を出力する。このとき、前回のモーションが何であるかはわからないので、シーク前の動きを引き継ぐ。
（３）後は通常の流れ通りにアニメーションデータを取得しながら再生する。
【００３２】
「ｄｗＴｉｍｅ」は、今の動きが完成するまでの時間であり、前回の動きを継続する時間である。例えば、「間奏：０、１ｓｔリズム：２０００」と指定されたとき、アニメーション画像生成部は、２０００ミリ秒後に１ｓｔリズムの動きを完了するようにアニメーション画像を生成する。
【００３３】
次に、感情解析部（図１の符号１２１）の詳細な処理手順について説明する。図７は、感情解析部による処理の手順を示すフローチャートである。図示するように、感情解析部は、まずステップＳ１において入力されるデータを基に５つの音域への分割の処理を行い、ステップＳ２においてこれら５つの音域の音圧値を基に感情パラメータを算出する処理を行い、ステップＳ３において算出された感情パラメータを基に判定を行う。判定結果として、インデックス、感情種類、感情レベル、継続時間、補間フラグの組の時系列データが出力される。
【００３４】
上記インデックスは、０から始まるシーケンシャルな値である。
上記感情種類は、「無表情（ｄｅｆａｕｌｔ　）」、「快感（ｐｌｅａｓｕｒｅ）」、「驚き（ｓｕｒｐｒｉｓｅ）」、「怯え（ｆｅａｒ）」、「嬉しい（ｈａｐｐｙ　）」、「哀しい（ｓａｄ　）」のいずれかである。
感情種類が「快感」、「驚き」、「怯え」、「嬉しい」、「哀しい」のいずれかであるとき、上記感情レベルは１以上５以下のいずれかの整数の値を取る。また、感情種類が「無表情」のとき、感情レベルの値は「なし」である。
上記継続時間は、秒単位の数値であり、１以上の値を取る。
上記補間フラグは、０（「ＯＦＦ」を表わす）あるいは１（「ＯＮ」を表わす）のいずれかの値を取る。
【００３５】
時系列の音楽データを処理する際の初期値は、インデックス＝０、感情種類＝「無表情」、感情レベル＝「なし」、継続時間＝「１」、補間フラグ＝「１」とする。
【００３６】
以下に、処理をさらに詳細に説明する。図７の符号Ｄ１は、感情解析部に入力される周波数帯域ごとの音圧値情報である。この段階では、５７６本の周波数帯域それぞれの音圧値情報が保持されている。また、元のＭＰ３データのサンプリング周波数は４４１００Ｈｚである。つまり、分割された周波数帯域ごとの音圧値として音を表現したデジタルデータを入力として、周波数帯域ごとの音圧値の分布を以下の方法で解析することにより、前記の音に関連する感性データを算出する。
【００３７】
ステップＳ１においては、音圧値情報（Ｄ１）を基に、次の５段階の音域ごとの平均音圧値を算出し、音圧値情報（Ｄ２）として出力する。その５段階の音域とは、低音部（０Ｈｚ〜７６．５６２５Ｈｚ）、中低音部（２２９．６８７５Ｈｚ〜１９９０．６２５Ｈｚ）、中高音部（７００５．４６９Ｈｚ〜１００２９．６９Ｈｚ）、高音部（１００２９．６９Ｈｚ〜１４９６７．９７Ｈｚ）、最高音部（１５００６．２５Ｈｚ〜１７９９２．１９Ｈｚ）の５つである。
つまり、ここでは、周波数帯域全体を、１０個以下の周波数帯域グループに分割し、この周波数帯域グループごとの音圧値を用いた解析を行う。
【００３８】
また、ステップＳ１においては、音階分割により、長音要素と短音要素の抽出を行う。この抽出のために、まず、０Ｈｚ〜４９７．６５６３Ｈｚの帯域を１３の領域に均等分割し、４９７．６５６３Ｈｚ〜２２０５０Ｈｚの帯域を６３の領域に音階分割する。そして、そのうちの４９７．６５６３Ｈｚ〜２０２８．９０６Ｈｚの２オクターブ分の２４個の音階領域の音圧値が所定の閾値より大きいかどうかを判断する。
【００３９】
上記２４個の音階領域のうち、１番目、３番目、５番目、８番目、１０番目、１２番目、１３番目、１５番目、１７番目、２０番目、２２番目、２４番目の領域が長音要素である。これらの長音要素のうち、１番目と１３番目とは１オクターブ離れた領域であるため、この２つの領域の音圧値が共に閾値より大きければ、長音要素を＋１としてカウントする。また同様に、３番目と１５番目の領域、５番目と１７番目の領域、８番目と２０番目の領域、１０番目と２２番目の領域、１２番目と２４番目の領域がそれぞれ互いに１オクターブ離れた領域であり、２つの領域の音圧値が共に閾値より大きい場合に、それぞれ長音要素を＋１としてカウントする。
また、上記２４個の音階領域のうち、２番目と１４番目、４番目と１６番目、６番目と１８番目、７番目と１９番目、９番目と２１番目、１１番目と２３番目がそれぞれ互いに１オクターブ離れた領域のペアであり、各ペアごとに、２つの領域の音圧値が共に閾値より大きい場合に、それぞれ短音要素を＋１としてカウントする。
この抽出の処理の結果、長音要素および短音要素は、それぞれ０以上６以下のいずれかの整数の値を取る。
【００４０】
次に、ステップＳ２では、音圧値情報Ｄ２を基に感情パラメータを算出する処理を行う。感情パラメータには優先順位が設定されており、「快感」の優先度が１、「驚き」の優先度が２、「怯え」の優先度が３、「嬉しい」および「哀しい」の優先度がともに４となっている。
なお、上記５種類の感情パラメータ値がすべて「０」のときは、「無表情」に該当する。
【００４１】
また、ステップＳ３では、算出された感情パラメータに基づく判定を行い、感性データを求める処理を行う。また、この判定においては、図１に示したリズム解析部によるリズム解析の結果も一部で用いられる。リズム解析の結果とは、例えば、ビート間の時間間隔がどの程度の長さかといったことである。
なお、感情パラメータ値算出の際には、音圧値がＬ１以下の音を無視する。
【００４２】
「快感（Ｐｌｅａｓｕｒｅ）」に関する処理は、次の通りである。
［条件１］　ビート間の時間間隔がＴ３以上で、かつ、中低音部から高音部までのいずれかの音圧のピークが高音方向に時間的にＴ４以上移動した場合は、「快感」の感情パラメータのカウントを＋１する。この条件に合致するとき、当該感情は、対象の音が鳴り始めてから時間Ｔ４経過時点から、対象の音が鳴りやんでから時間Ｔ２経過時点まで継続するものとする。つまり、本実施形態においては、この継続時間の間は、「快感」データに基づくアニメーションが生成され、出力される。
［条件２］　低音域の音圧値がＬ７以上で、かつ、高音部の平均音圧値がＬ４以上である場合で、平均音圧値がＬ６以上の時、前回までのビート間の平均時間間隔から今回のビート間時間間隔を差し引いた値がＴ１以上である、または、前回の判定結果が「驚き」の場合は「快感」の感情パラメータのカウントを＋２する。この条件に合致するとき、当該感情は、対象の音が鳴り始めてから時間Ｔ４が経過した時点から始まるものとする。
【００４３】
つまり、上記条件２が適用される場合には、分割された周波数帯域グループごとの平均音圧値に基づいて感性データが算出される。
また、上記条件１が適用される場合には、周波数帯域グループ内において、音圧値のピークとなる周波数帯域が時間的にどのように推移するかに基づいて感性データが算出される。
また、上記条件１が適用される場合には、元のデジタルデータに基づき音に含まれるリズムの単位時間あたり拍数が求められ、この単位時間あたり拍数に基づいて感性データが算出される。上記の「ビート間の時間間隔」は単位あたり拍数の逆数から求められる。
なお、「快感」の感情の優先順位は最も高い「１」であるため、上記の条件１あるいは条件２のいずれかにあてはまる場合は、他の感情を無視する。
【００４４】
「驚き（Ｓｕｒｐｒｉｓｅ）」に関する処理は、次の通りである。
上述した「快感」の条件に該当しない場合は、下記の条件により「驚き」に該当するかどうかをチェックする。
【００４５】
［条件１］　全音域の平均音圧値がＬ３以下の音が無い状態から、低音部のピークの音圧値がＬ７以上の音を最初に取得した場合は、「驚き」の感情パラメータのカウントを＋４し、その音が鳴りつづけた時間を継続時間とする。ただし、下記の条件２を満たす場合は無視をする。
［条件２］　全音域の平均音圧値がＬ２以下の音が無い状態から、低音部のピークの音圧値がＬ７以上の音を最初に取得した場合は、「驚き」の感情パラメータのカウントを＋５し、その音が鳴りつづけた時間を継続時間とする。
【００４６】
［条件３］　全音域の平均音圧値がＬ３以下の音が無い状態から、低音部以外のピークの音圧値がＬ７以上の音を最初に取得した場合は、「驚き」の感情パラメータのカウントを＋１し、その音が鳴りつづけた時間を継続時間とする。ただし、下記の条件４を満たす場合は無視をする。
［条件４］　全音域の平均音圧値がＬ２以下の音が無い状態から、低音部以外のピークの音圧値がＬ７以上の音を最初に取得した場合は、「驚き」の感情パラメータのカウントを＋２し、その音が鳴りつづけた時間を継続時間とする。
［条件５］　最高音部の音が時間Ｔ４以上続いた場合、または最高音部の音が存在し、かつ中高音部の平均音圧値がＬ４以下の場合は、「驚き」の感情パラメータのカウントを＋３し、その音が鳴りつづけた時間を継続時間とする。
なお、「驚き」の感情の優先順位は「快感」のそれに次ぐ「２」であるため、上記の条件１から５までのいずれかにあてはまる場合は、他の優先順位の低い感情を無視する。
【００４７】
「怯え（Ｆｅａｒ）」に関する処理は、次の通りである。
上述した「快感」あるいは「驚き」のいずれの条件にも該当しない場合は、下記の条件により「怯え」に該当するかどうかをチェックする。
【００４８】
［条件１］　中低音部から高音部までのいずれかの音圧値のピークが低音方向に時間的にＴ４以上移動した場合は、「怯え」の感情パラメータのカウントを＋１する。
［条件２］　中低音部から高音部までのいずれかの音圧値のピークが低音方向に時間的にＴ４以上移動し、続けて高音方向に時間的にＴ４以上移動した場合は、「怯え」の感情パラメータのカウントを＋４する。
［条件３］　中低音部から高音部までのいずれかの音圧値のピークが低音方向に移動中に高音方向に揺れた回数Ｎが４２以上の場合、「怯え」の感情パラメータのカウントを＋（Ｎ／１６）する。
【００４９】
なお、「怯え」データに基づくアニメーションの変化の始点は対象の音が鳴り始めてから時間Ｔ４経過後とし、同じくアニメーションの変化の終点は対象の音が鳴りやんでから時間Ｔ２経過後とする。
なお、「怯え」の感情の優先順位は「驚き」のそれに次ぐ「３」であるため、上記の条件１から３までのいずれかにあてはまる場合は、他の優先順位の低い感情を無視する。
【００５０】
上述した「快感」、「驚き」、「怯え」のいずれの条件にも該当しない場合は、下記の条件により「嬉しい」または「哀しい」に該当するかどうかをチェックする。
【００５１】
「嬉しい（Ｈａｐｐｙ）」に関する処理は、次の通りである。
［条件１］　ビートがある場合は、「嬉しい」の感情パラメータのカウントを＋１する。
［条件２］　ビート間の時間間隔がＴ７以下の場合は、「嬉しい」の感情パラメータのカウントを＋１する。
［条件３］　高音部の平均音圧値がＬ４以上の場合は、「嬉しい」の感情パラメータのカウントを＋１する。
［条件４］　上記の条件３を満たし、かつ、中低音部の音圧値のピークが５つ以上あった場合は、「嬉しい」の感情パラメータのカウントを＋２する。
［条件５］　上記の条件３を満たし、かつ、上記の条件４をみたし、かつ、低音部の平均音圧値がＬ５以下の場合は、「嬉しい」の感情パラメータのカウントを＋２をする。
［条件６］　抽出された長調要素−短調要素の数値が２以上の場合は、「嬉しい」の感情パラメータのカウントを＋１する。
【００５２】
なお、「嬉しい」データに基づくアニメーションの変化の始点の時間的な誤差は±Ｔ２とする。また、同じくアニメーションの変化の終点の時間的な誤差も±Ｔ２とする。
【００５３】
「哀しい（Ｓａｄ）」に関する処理は、次の通りである。
［条件１］　ビート間の時間間隔がＴ５以上である場合＋は、「哀しい」の感情パラメータのカウントを＋１する。
［条件２］　ビートがない場合は、「哀しい」の感情パラメータのカウントを＋２する。
［条件３］　中低音部に時間Ｔ４以上続く音圧値のピークがあった場合は、「哀しい」の感情パラメータを＋１し、音が鳴り続けている時間を継続時間とする。ただし、下記の条件４を満たす場合は無視をする。
［条件４］　中低音部に時間Ｔ６以上続く音圧値のピークがあった場合は、「哀しい」の感情パラメータを＋２し、音が鳴り続けている時間を継続時間とする。
【００５４】
［条件５］　高音部に音圧値のピークが３つ以上あった場合は、「哀しい」の感情パラメータを＋１する。
［条件６］　全領域の平均音圧値がＬ３以上の音が無い状態の場合は、「哀しい」の感情パラメータを＋１する。
［条件７］　全領域の平均音圧値がＬ３以上の音が時間Ｔ２以上無い場合は、「哀しい」の感情パラメータを＋１する。
［条件８］　中高音部と高音部の平均音圧値がＬ３以下であり、中低音部の音のみを取得した場合は、「哀しい」の感情パラメータを＋２する。
［条件９］　短調要素−長調要素の数値が２以上の場合は、「哀しい」の感情パラメータを＋１する。
【００５５】
なお、「哀しい」データに基づくアニメーションの変化の始点の時間的な誤差は±Ｔ２とする。また、同じくアニメーションの変化の終点の時間的な誤差も±Ｔ２とする。
【００５６】
以上述べたように、「快感」、「驚き」、「怯え」、「嬉しい」、「哀しい」の感情について、それぞれ定義された条件でのチェックが行われる。
そして、優先順位の高い感情から順に、「快感」、「驚き」、「怯え」のいずれかのカウント結果が１以上である場合に、その感情が感情種類として判定される。また、そのときのカウント値が感情レベルとされる。但し、カウントが５を超える場合は、感情レベルを５とする。
【００５７】
なお、感情種類が「怯え」で、かつ同一の感情レベルである状態が時間Ｔ５以上継続した場合には、時間Ｔ５ごとに再チェックを行う。
また、感情種類が「快感」のまま、感情レベルが２から１へ移行した場合は、以後の感情レベルも２とみなし、感情レベル２を継続させるものとする。
【００５８】
「快感」、「驚き」、「怯え」のカウント値がいずれも０である場合で、「嬉しい」あるいは「哀しい」のカウント値の少なくとも一方が１以上である場合には、次に述べる方法で「嬉しい」および「哀しい」のカウント値を比較する。まず、前回の「嬉しい」のカウント値と現在の「嬉しい」のカウント値とから、これらの平均値を求める。次に、前回の「哀しい」のカウント値と現在の「哀しい」のカウント値とから、これらの平均値を求める。そして、「嬉しい」の平均値と「哀しい」の平均値とを比較する。
【００５９】
上記の「嬉しい」の平均カウント値のほうが大きい場合には、感情種類を「嬉しい」とするとともに、「嬉しい」の平均カウント値から「哀しい」の平均カウント値を引いた値を感情レベルとする。逆に、「哀しい」の平均カウント値のほうが大きい場合には、感情種類を「哀しい」とするとともに、「哀しい」の平均カウント値から「嬉しい」の平均カウント値を引いた値を感情レベルとする。
「嬉しい」の平均カウント値と「哀しい」の平均カウント値とが等しい場合には、前回のカウント値同士を比較し、大きい方のカウント値を持つほうを感情種類として選択するとともに、この場合の感情レベルを１とする。
【００６０】
但し、「嬉しい」と「哀しい」のカウント値を用いた判定に関して、上記の規則に関わらず、次の２つの例外パターンに該当する場合には、これを適用するものとする。
第１の例外パターンは、「嬉しい」のカウント値が５で、かつ、「哀しい」のカウント値が５である場合であり、このときは、感情種類を「快感」とし、感情レベルを２とする。
第２の例外パターンは、「怯え」のカウント値が３以上で、かつ、「哀しい」のカウント値が４以上の場合であり、このときは、感情種類を「哀しい」とし、感情レベルを５とする。
【００６１】
なお、上記５種類のいずれの感情についても、カウント値の結果がすべて０である場合には、感情種類は「無表情」であると判定される。
【００６２】
次に、補間フラグに関する判定方法を説明する。補間フラグのデフォルト値は１（ＯＮ）であるが、次の２通りのいずれかに該当する場合に限り、補間フラグを０（ＯＦＦ）とする。第１に、同じ感情種類が時間Ｔ６以上継続した場合には補間フラグを０とする。第２に、前回の感情種類が「嬉しい」または「哀しい」であり、そこから感情種類「快感」に遷移する場合には補間フラグを０とする。
【００６３】
上述した感情パラメータの算出および感情の判定等の処理において、時間Ｔ１〜Ｔ６については、Ｔ１＜Ｔ２＜Ｔ３＜Ｔ４＜Ｔ５＜Ｔ６の関係を満たす適切な値を用いることとする。なお、Ｔ１はほぼ数百ミリ秒程度、Ｔ６はほぼ数千ミリ秒程度である。また、音圧値レベルＬ１〜Ｌ７については、Ｌ１＜Ｌ２＜Ｌ３＜Ｌ４＜Ｌ５＜Ｌ６＜Ｌ７の関係を満たす適切な値を用いることとする。一例としては、Ｌ１は−５０ｄＢ（デシベル）程度、Ｌ７は−２０ｄＢ程度の値を用いる。
【００６４】
次に、リズム解析部（図１の符号１２２）における処理について説明する。
リズム解析部には、伸長部によって伸長されたデータが入力される。この入力データは、前述のように、周波数領域ごとの音圧値情報を時系列的に持つものである。このような入力データを基に、リズム解析部は音楽のリズムを解析し、その音楽のｂｐｍ値（ｂｅａｔｓ　ｐｅｒ　ｍｉｎｕｔｅ，１分あたりビート数，単位時間あたり拍数）を算出して出力する。
【００６５】
リズム解析の処理においては、次の事項を前提とする。第１に、少なくとも一定時間以上は曲のリズムは一定のｂｐｍ値で正確に刻まれることとする。第２に、１拍あたり２回、ノイズ系の音が含まれることとする。例えば、曲が４分の４拍子である場合には、４拍の間に８回ノイズ系の音が含まれる。ここで、ノイズ系の音とは、例えばシンバル等の音である。
ノイズ系の音は、ほぼ全周波数帯域に渡って音圧変化があることが特徴である。従って、各周波数帯域ごとにフレーム間の音圧変化量を求め、全周波数にわたって連続的に音圧変化量が所定の閾値以上となる場合にこれをノイズ系の音として検出できる。
【００６６】
そして、ノイズ系の音はリズムに応じて所定のタイミングの箇所に多く集中するという傾向があることから、このノイズ系の音を検出し、この検出間隔をフレーム（１フレームは約０．０２６１秒）単位で求める。この段階では、検出される間隔は、一定ではなく、フレーム数ごとの度数の分布として得られる。得られた分布を基に、補正を加えて、拍の間隔を決定することによってｂｐｍ値を求めることとする。
つまり、前記第２の前提によると１拍あたり２回のノイズ系の音が含まれるため、求められたノイズ間隔Ｆ（フレーム単位）を用いると、ｂｐｍ値は、次の式で得られる。すなわち、
ｂｐｍ値＝６０　［秒／分］　／　（２＊Ｆ　［フレーム］　＊０．０２６１　［秒／フレーム］）
【００６７】
上述のデジタルオーディオ再生装置は内部に、コンピュータシステムを有している。そして、上述したデコード、感性データ算出、アニメーション画像生成などの各処理の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。
【００６８】
以上、図面を参照してこの発明の実施形態を詳述してきたが、具体的な構成はこれらの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
たとえば、上記実施形態では、＋２トラック先まで先読みして感性データを算出したが、一般にＮトラック（Ｎは自然数）先まで先読みするようにしても良い。また、上記実施形態では、１トラック前（つまり、−１トラック先）まで感性データを保存して、さらにそれ以前のトラックの感性データは消去するようにしたが、一般にＭトラック（Ｍは自然数）前までの感性データを保存するようにしても良い。
また、上記実施形態ではデジタルオーディオデータを入力することとしたが、オーディオデータに限らず、デジタルデータとして表された他のコンテンツデータを入力としても良い。また、上記実施形態ではアニメーション画像を生成することとしたが、アニメーションに限らず、一般に画像又は映像、あるいは画像以外のデジタルコンテンツを生成するようにしても良い。
【００６９】
【発明の効果】
以上説明したように、この発明によれば、オーディオ再生と画像生成とを容易に同期させることができる。また、同時並行的に動作する第１および第２のデコーダ部を備え、第１のデコーダ部によってデコードされたデータを基に算出される感性データを蓄積しておくため、トラックを移動した際にも、即座に蓄積された感性データを読み出して、オーディオ再生と画像生成とを同期的に開始することができる。
よって、感性データの算出や視覚表現の生成に要する処理時間によって利用者に不自然な感じを与えることなく、オーディオ出力と視覚表現出力とに一体感を持たせることが可能となる。
【図面の簡単な説明】
【図１】この発明の一実施形態によるデジタルオーディオ再生装置の機能構成を示すブロック図である。
【図２】同実施形態においてＭＰ３データ記憶部に格納されるデジタルオーディオデータの構造の概略を示す概略図である。
【図３】同実施形態におけるＭＰ３デコーダ部（＃１）とＭＰ３デコーダ部（＃２）による処理のタイミングの関係を示すタイミングチャートである。
【図４】同実施形態において感性データ蓄積部に格納される感性データの構造の概略を示す概略図である。
【図５】同実施形態による感性データ（１トラック分）の構造の概略を示す概略図である。
【図６】同実施形態による感性データに含まれる構造体データ（Ａｎｃｈｏｒ構造体）の内部構造を示す概略図である。
【図７】同実施形態による感情解析部による感情解析処理の手順を示すフローチャートである。
【符号の説明】
１　ＭＰ３データ記憶部
１１　ＭＰ３デコーダ部（＃１）
１２　感性データ算出部
１４　感性データ蓄積部
１５　アニメーション画像生成部
２１　ＭＰ３デコーダ部（＃２）
２２　オーディオ再生部
２３　Ｄ／Ａ変換部
１２１　感情解析部
１２２　リズム解析部

Claims

デジタルデータをデコードする処理を行う第１のデコーダ部と、
前記第１のデコーダ部と並行してデジタルデータをデコードして出力する処理を行う第２のデコーダ部と、
前記第２のデコーダ部によって出力されたデジタルデータを再生する再生部と、
前記第１のデコーダ部によってデコードされたデジタルデータに基づいて、当該デジタルデータに対応した感性を表す感性データを算出する感性データ算出部と、
前記感性データを蓄積する感性データ蓄積部と、
前記感性データ蓄積部に蓄積されている前記感性データを読み出し、この読み出された感性データに基づいて、前記再生部によるデジタルデータの再生と同期的に他のコンテンツを生成して出力するコンテンツ生成部と
を具備することを特徴とするデジタルデータ再生装置。
デジタルオーディオデータをデコードする処理を行う第１のデコーダ部と、
前記第１のデコーダ部と並行してデジタルオーディオデータをデコードして出力する処理を行う第２のデコーダ部と、
前記第２のデコーダ部によって出力されたデジタルオーディオデータを再生するオーディオ再生部と、
前記第１のデコーダ部によってデコードされたデジタルオーディオデータに基づいて、当該デジタルオーディオデータに対応した感性を表す感性データを算出する感性データ算出部と、
前記感性データを蓄積する感性データ蓄積部と、
前記感性データ蓄積部に蓄積されている前記感性データを読み出し、この読み出された感性データに基づいて、前記オーディオ再生部によるデジタルオーディオデータの再生と同期的に画像を生成して出力する画像生成部と
を具備することを特徴とするデジタルオーディオ再生装置。
請求項２に記載のデジタルオーディオ再生装置において、
前記デジタルオーディオ再生装置は、複数のトラックのデジタルオーディオデータを記憶するデジタルオーディオデータ記憶部を具備し、
前記第２のデコーダ部は、前記デジタルオーディオデータ記憶部から所定の順序に従って前記複数のトラックのデジタルオーディオデータを順次読み出して、この読み出されたトラックのデジタルオーディオデータをデコードして出力するものであり、
前記第１のデコーダ部は、前記第１のデコーダ部によってデコードされているトラックからＮトラック（Ｎは自然数）先までのトラックのデジタルオーディオデータを前記デジタルオーディオデータ記憶部から先読みしてデコードするものであり、
前記感性データ蓄積部は、前記第１のデコーダ部によってデコードされているトラックからＮトラック（Ｎは自然数）先までのトラックのデジタルオーディオデータに対応した感性データを蓄積するものである
ことを特徴とするデジタルオーディオ再生装置。
請求項３に記載のデジタルオーディオ再生装置において、
前記感性データ蓄積部は、前記第１のデコーダ部によってデコードされているトラックからＭトラック（Ｍは自然数）前までのトラックのデジタルオーディオデータに対応した感性データを保存しておくとともに、それより更に前のトラックのデジタルオーディオデータに対応した感性データを消去するものであることを特徴とするデジタルオーディオ再生装置。
請求項４に記載のデジタルオーディオ再生装置において、
Ｎ＝２であり、Ｍ＝１であることを特徴とするデジタルオーディオ再生装置。
請求項２に記載のデジタルオーディオ再生装置において、
前記感性データは、前記デジタルオーディオデータの再生位置に関する情報と当該再生位置において生成すべき画像に関する情報との組を時系列的に表すデータを含むものであることを特徴とするデジタルオーディオデータ再生装置。
請求項２に記載のデジタルオーディオ再生装置において、
前記第１のデコーダ部によってデコードされたデジタルオーディオデータは、分割された周波数帯域ごとの音圧値として音を表現したデータであり、
前記感性データ算出部は、前記周波数帯域ごとの音圧値の分布を解析することにより、前記デジタルオーディオデータに対応した感性データを算出する
ことを特徴とするデジタルオーディオ再生装置。
請求項７に記載のデジタルオーディオ再生装置において、
前記感性データ算出部は、前記周波数帯域ごとの音圧値の分布の時間的な推移に基づいて前記感性データを算出することを特徴とするデジタルオーディオ再生装置。
請求項７に記載のデジタルオーディオ再生装置において、
前記感性データ算出部は、前記デジタルオーディオデータに含まれるリズムの単位時間あたり拍数を求め、この単位時間あたり拍数に基づいて前記感性データを算出することを特徴とするデジタルオーディオ再生装置。
請求項７に記載のデジタルオーディオ再生装置において、
前記感性データ算出部は、前記周波数帯域ごとの音圧値の分布に基づき、「快感」、「驚き」、「怯え」、「嬉しい」、「哀しい」の５種類の感情パラメータ値を算出し、これらの感情パラメータ値に基づいて感性データを算出することを特徴とするデジタルオーディオ再生装置。
第１のデコーダ部が、デジタルオーディオデータをデコードする処理を行い、
第２のデコーダ部が、前記第１のデコーダ部と並行してデジタルオーディオデータをデコードして出力する処理を行い、
前記第２のデコーダ部によって出力されたデジタルオーディオデータを再生してオーディオ信号を出力するとともに、
前記第１のデコーダ部によってデコードされたデジタルオーディオデータに基づいて、当該デジタルオーディオデータに対応した感性を表す感性データを算出し、
前記感性データを蓄積しておき、
この蓄積されている前記感性データを読み出し、この読み出された感性データに基づいて、前記オーディオ再生部によるデジタルオーディオデータの再生と同期的に画像を生成して出力する
ことを特徴とするデジタルオーディオ再生方法。
請求項１１に記載のデジタルオーディオ再生方法の処理をコンピュータに実行させるコンピュータプログラム。