JP3560936B2

JP3560936B2 - 感性データ算出方法および感性データ算出装置

Info

Publication number: JP3560936B2
Application number: JP2001170102A
Authority: JP
Inventors: 文彦杉山; 隆智中島; 正明多湖; 一匡鈴木
Original assignee: オープンインタフェース株式会社
Priority date: 2001-06-05
Filing date: 2001-06-05
Publication date: 2004-09-02
Anticipated expiration: 2021-06-05
Also published as: JP2002366173A; US20030014215A1; US7203558B2

Description

【０００１】
【発明の属する技術分野】
この発明は、信号を解析して解析結果を出力する装置に関する。特に、聴覚や視覚など、人間の感覚に関する時系列的な信号を解析する装置に関する。
【０００２】
【従来の技術】
従来、人間の感情・感性に関する情報をデジタルデータとして扱うためには、例えば「うれしい」、「悲しい」、「怖い」などといった情報を、コンピュータなどの情報機器に直接入力する必要があった。
【０００３】
【発明が解決しようとする課題】
上記のような人間の感情は、人間が外部環境から受ける刺激と相関関係を有するものである。そのような刺激のひとつが、例えば聴覚によって知覚される音楽である。つまり、多数の人間がある共通の音楽を鑑賞したとき、それらの鑑賞者のうちの多くの人間が、「うれしい」とか「悲しい」とか「気持ちいい」などといった共通の感情を抱く。
【０００４】
本願発明は、このような点に着目してなされたものであり、オーディオ信号やビデオ信号や、その他、人間の感覚に関する信号を解析することにより、その感覚によって生じる感情あるいは感性に関するデータを自動的に算出する感性データ算出方法および感性データ算出装置を提供することを目的とする。
また、本願発明は、上記の感性データ算出方法および感性データ算出装置を応用した各種装置を提供することを目的とする。
【０００５】
【課題を解決するための手段】
上記の課題を解決するために、本発明は、分割された周波数帯域ごとの音圧値として音を表現したデジタルデータを入力し、前記周波数帯域ごとの音圧値の分布を解析することにより、前記音に関連する感性データを算出することを特徴とする感性データ算出方法を要旨とする。
【０００６】
また、本発明の感性データ算出方法は、前記周波数帯域全体を、１０個以下の周波数帯域グループに分割し、この周波数帯域グループごとの平均音圧値に基づいて前記感性データを算出することを特徴とするものである。
【０００７】
また、本発明の感性データ算出方法は、前記周波数帯域ごとの音圧値の分布の時間的な推移に基づいて前記感性データを算出することを特徴とするものである。
【０００８】
また、本発明の感性データ算出方法は、前記周波数帯域グループ内において、音圧値のピークとなる周波数帯域が時間的にどのように推移するかに基づいて前記感性データを算出することを特徴とするものである。
【０００９】
また、本発明の感性データ算出方法は、前記デジタルデータに基づき前記音に含まれるリズムの単位時間あたり拍数を求め、この単位時間あたり拍数に基づいて前記感性データを算出することを特徴とするものである。
なお、リズムの単位時間あたり拍数を求めるための一方法は、前記デジタルデータに基づいて、周波数帯域ごとの音圧値の時間的変化量を求め、周波数帯域全体において前記時間的変化量が所定の閾値以上である領域の分布に基づいてノイズを検出し、このノイズの検出頻度に基づいて前記単位時間あたり拍数を求めることである。
【００１０】
また、本発明の感性データ算出方法は、前記周波数帯域ごとの音圧値の分布に基づき、「快感」、「驚き」、「怯え」、「嬉しい」、「悲しい」の５種類の感情パラメータ値を算出し、これらの感情パラメータ値に基づいて感性データを算出することを特徴とするものである。
【００１１】
また、本発明は、分割された周波数帯域ごとの音圧値として楽曲を表現したデジタルデータを基に、上記の感性データ算出方法によって感性データを算出し、算出された感性データに基づいてビジュアルコンテンツを生成し、前記楽曲の再生と前記ビジュアルコンテンツとの表示を同期的に行うことを特徴とする音楽再生方法である。
【００１２】
また、本発明は、分割された周波数帯域ごとの音圧値として楽曲を表現したデジタルデータを基に、上記の感性データ算出方法によって感性データを算出し、算出された感性データ同士を比較することにより前記楽曲を識別することを特徴とする楽曲識別方法である。
【００１３】
また、本発明の感性データ算出装置は、分割された周波数帯域ごとの音圧値として音を表現したデジタルデータを入力し、前記周波数帯域ごとの音圧値の分布を解析することにより、前記音に関連する感性データを算出することを特徴とするものである。
【００１４】
また、本発明の感性データ算出装置は、前記デジタルデータに基づき前記音に含まれるリズムの単位時間あたり拍数を求めるリズム解析部と、前記周波数帯域全体を１０個以下の周波数帯域グループに分割し、この周波数帯域グループごとの音圧値と、前記リズム解析部によって求められた単位時間あたり拍数とを基に感性データを算出する感情解析部とを備えることを特徴とするものである。
【００１５】
また、本発明の音楽再生装置は、分割された周波数帯域ごとの音圧値として音を表現したデジタルデータを記憶するデータ記憶部と、前記データ記憶部から読み出された前記デジタルデータを基に、前記周波数帯域ごとの音圧値の分布を解析することにより前記音に関連する感性データを算出する感性データ算出部と、前記感性データ算出部によって算出された前記感性データに基づきビジュアルコンテンツを生成するビジュアルコンテンツ生成部と、前記デジタルデータをデコードしてオーディオ信号を出力するデコーダ部とを備えるとともに、前記ビジュアルコンテンツ生成部によるビジュアルコンテンツの生成と、前記デコーダ部によるオーディオ信号の出力とを同期的に行うことを特徴とするものである。
【００１６】
また、本発明のプログラムは、分割された周波数帯域ごとの音圧値として音を表現したデジタルデータを入力し、前記周波数帯域ごとの音圧値の分布を解析することにより、前記音に関連する感性データを算出する処理をコンピュータに実行させるものである。
【００１７】
また、本発明のコンピュータ読み取り可能な記録媒体は、分割された周波数帯域ごとの音圧値として音を表現したデジタルデータを入力し、前記周波数帯域ごとの音圧値の分布を解析することにより、前記音に関連する感性データを算出する処理をコンピュータに実行させるプログラムを記録したものである。
【００１８】
【発明の実施の形態】
以下、図面を参照しこの発明の一実施形態について説明する。図１は、同実施形態による感性データ算出方法を応用した音楽再生装置の構成を示すブロック図である。この音楽再生装置は、ＭＰ３（ＭＰＥＧＡｕｄｉｏＬａｙｅｒ３）の形式で記録された音楽（聴覚データ）を再生するとともに、この音楽を基に感性データを算出するものである。
【００１９】
図１において、符号４は、ＭＰ３形式の音楽データを記憶するＭＰ３データ記憶部である。１は、ＭＰ３データ記憶部４から読み出された音楽データを基に感性データを算出して出力するスペクトラム解析部である。２は、スペクトラム解析部１によって算出された感性データを蓄積する感性データ蓄積部である。３は、感性データ蓄積部２に蓄積された感性データを順次読み出し、この感性データに基づくアニメーション画像（ビジュアルコンテンツ）を生成するアニメーション画像生成部（ビジュアルコンテンツ生成部）である。
【００２０】
また、５は、ＭＰ３データ記憶部４から読み出された音楽データをデコードして時系列的な音圧レベルのデジタル信号（デジタルオーディオ信号）を出力するＭＰ３デコーダ部である。６は、ＭＰ３デコーダ部５から出力されたデジタル信号を変換してアナログオーディオ信号を出力するＤ／Ａ（デジタル／アナログ）変換部である。
【００２１】
ＭＰ３データ記憶部４に記憶されている音楽データは、所定のサンプリング周波数（例えば、４４１００Ｈｚ（ヘルツ））でサンプリングされ量子化された音圧レベルが、所定のフレーム長（例えば、約０．０２６１秒）を１フレームとするフレーム単位で、所定数（例えば、５７６本）に分割された周波数帯域ごとの音圧値に変換され、さらに圧縮されたものである。
【００２２】
スペクトラム解析部１は、このような音楽データを時系列的に順次読み出し、読み出したデータをまず伸長してから、後述する所定の手順により解析を行い、その結果を感性データとして順次出力していく。スペクトラム解析部１によって出力される感性データも時系列的なデータであり、順次、感性データ蓄積部２に蓄積されていく。
【００２３】
アニメーション画像生成部３は、再生する音楽に合ったアニメーションを生成してビデオ信号として出力するものである。生成されるアニメーションの一例は、あるキャラクターが再生される音楽のリズムに合わせてダンスをするものであり、感性データ蓄積部２から読み取った感性データに応じて、そのキャラクターの手足の振り付けや顔の表情が変わるようになっている。なお、アニメーションで描かれるキャラクターの顔の表情を変えるためには、例えば、口（唇）や、目や、その周辺の筋肉に相当する部分の計上を変えて描くようにする。
【００２４】
再生される音楽の進行と生成されるアニメーションの進行のタイミングが合うように、スペクトラム解析部１とアニメーション画像生成部３とＭＰ３デコーダ５との間で互いに同期を取るようにする。
また、スペクトラム解析部１による感性データ算出の演算に時間がかかっても音楽とアニメーションとのタイミングがずれないように、スペクトラム解析部１による感性データ算出を先行して行い、数秒から数十秒程度遅れて後追いの形で、ＭＰ３デコータ５による音楽の再生とアニメーション画像生成部３からのビデオ信号の出力とを行うようする。但し、スペクトラム解析部１による感性データ算出の演算が充分に速く行える場合には、上記の遅延を設けずにリアルタイムで再生するようにしても良い。
【００２５】
ＭＰ３データ記憶部４は、磁気ディスクやＣＤ−ＲＯＭ（コンパクトディスクを用いた読み出し専用メモリ）あるいはＣＤ−Ｒ（ＣＤＲｅｃｏｒｄａｂｌｅ）やＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）や光磁気ディスクや半導体メモリなどといった記録媒体とそれを読み取る読取装置によって実現する。
【００２６】
スペクトラム解析部１は、コンピュータを用いて実現する。つまり、後述する感性データ算出等の処理の手順をコンピュータプログラムの形式でコンピュータ読み取り可能な記録媒体に記録しておき、このプログラムをコンピュータの中央処理装置が読み取ってその命令を実行することにより感性データ算出等の機能を実現する。ここで、コンピュータ読み取り可能な記録媒体とは、例えば、磁気ディスクや、ＣＤ−ＲＯＭあるいはＣＤ−Ｒや、半導体メモリなどである。あるいは、専用ロジックを搭載した集積回路としてスペクトラム解析部１を実現するようにしても良い。あるいは、コンピュータプログラムをコンピュータ読み取り可能な記録媒体に記録しておく代わりに、通信を用いて配信するようにして、配信を受けたコンピュータの中央処理装置がこのプログラムを実行するようにしても良い。
感性データ蓄積部２は、半導体メモリや磁気ディスクなど、高速に書換え可能な記録媒体を用いて実現する。
【００２７】
次に、スペクトラム解析部１の内部構成、およびその処理の詳細について説明する。図１に示すように、スペクトラム解析部１は、伸長部１１と感性データ算出部１２（感性データ算出装置）とを備えている。伸長部１１は、ＭＰ３データ記憶部から読み取られた音楽データを伸長する。つまり、図１のＡの部分では、圧縮された状態のデータが伝達される。また、図１のＢの部分では、前述の周波数帯域（音域）ごとの音圧値の情報が伸長済みの状態で伝達される。感性データ算出部１２は、さらに、感情解析部１３とリズム解析部１４とを備えている。
【００２８】
次に、感情解析部１３とリズム解析部１４の詳細な処理手順について説明する。
【００２９】
図２は、感情解析部１３による処理の手順を示すフローチャートである。図２に示すように、感情解析部１３は、まずステップＳ１において入力されるデータを基に５つの音域への分割の処理を行い、ステップＳ２においてこれら５つの音域の音圧値を基に感情パラメータを算出する処理を行い、ステップＳ３において算出された感情パラメータを基に判定を行う。判定結果として、インデックス、感情種類、感情レベル、継続時間、補間フラグの組の時系列データが出力される。
【００３０】
上記インデックスは、０から始まるシーケンシャルな値である。
上記感情種類は、「無表情（ｄｅｆａｕｌｔ）」、「快感（ｐｌｅａｓｕｒｅ）」、「驚き（ｓｕｒｐｒｉｓｅ）」、「怯え（ｆｅａｒ）」、「嬉しい（ｈａｐｐｙ）」、「悲しい（ｓａｄ）」のいずれかである。
感情種類が「快感」、「驚き」、「怯え」、「嬉しい」、「悲しい」のいずれかであるとき、上記感情レベルは１以上５以下のいずれかの整数の値を取る。また、感情種類が「無表情」のとき、感情レベルの値は「なし」である。
上記継続時間は、秒単位の数値であり、１以上の値を取る。
上記補間フラグは、０（「ＯＦＦ」を表わす）あるいは１（「ＯＮ」を表わす）のいずれかの値を取る。
【００３１】
時系列の音楽データを処理する際の初期値は、インデックス＝０、感情種類＝「無表情」、感情レベル＝「なし」、継続時間＝「１」、補間フラグ＝「１」とする。
【００３２】
以下に、処理をさらに詳細に説明する。
図２の符号Ｄ１は、感情解析部１３に入力される周波数帯域ごとの音圧値情報である。この段階では、５７６本の周波数帯域それぞれの音圧値情報が保持されている。また、元のＭＰ３データのサンプリング周波数は４４１００Ｈｚである。つまり、分割された周波数帯域ごとの音圧値として音を表現したデジタルデータを入力として、周波数帯域ごとの音圧値の分布を以下の方法で解析することにより、前記の音に関連する感性データを算出する。
【００３３】
ステップＳ１においては、音圧値情報（Ｄ１）を基に、次の５段階の音域ごとの平均音圧値を算出し、音圧値情報（Ｄ２）として出力する。その５段階の音域とは、低音部（０Ｈｚ〜７６．５６２５Ｈｚ）、中低音部（２２９．６８７５Ｈｚ〜１９９０．６２５Ｈｚ）、中高音部（７００５．４６９Ｈｚ〜１００２９．６９Ｈｚ）、高音部（１００２９．６９Ｈｚ〜１４９６７．９７Ｈｚ）、最高音部（１５００６．２５Ｈｚ〜１７９９２．１９Ｈｚ）の５つである。
つまり、ここでは、周波数帯域全体を、１０個以下の周波数帯域グループに分割し、この周波数帯域グループごとの音圧値を用いた解析を行う。
【００３４】
また、ステップＳ１においては、音階分割により、長音要素と短音要素の抽出を行う。この抽出のために、まず、０Ｈｚ〜４９７．６５６３Ｈｚの帯域を１３の領域に均等分割し、４９７．６５６３Ｈｚ〜２２０５０Ｈｚの帯域を６３の領域に音階分割する。そして、そのうちの４９７．６５６３Ｈｚ〜２０２８．９０６Ｈｚの２オクターブ分の２４個の音階領域の音圧値が所定の閾値より大きいかどうかを判断する。
【００３５】
上記２４個の音階領域のうち、１番目、３番目、５番目、８番目、１０番目、１２番目、１３番目、１５番目、１７番目、２０番目、２２番目、２４番目の領域が長音要素である。これらの長音要素のうち、１番目と１３番目とは１オクターブ離れた領域であるため、この２つの領域の音圧値が共に閾値より大きければ、長音要素を＋１としてカウントする。また同様に、３番目と１５番目の領域、５番目と１７番目の領域、８番目と２０番目の領域、１０番目と２２番目の領域、１２番目と２４番目の領域がそれぞれ互いに１オクターブ離れた領域であり、２つの領域の音圧値が共に閾値より大きい場合に、それぞれ長音要素を＋１としてカウントする。
また、上記２４個の音階領域のうち、２番目と１４番目、４番目と１６番目、６番目と１８番目、７番目と１９番目、９番目と２１番目、１１番目と２３番目がそれぞれ１互いに１オクターブ離れた領域のペアであり、各ペアごとに、２つの領域の音圧値が共に閾値より大きい場合に、それぞれ短音要素を＋１としてカウントする。
この抽出の処理の結果、長音要素および短音要素は、それぞれ０以上６以下のいずれかの整数の値を取る。
【００３６】
次に、ステップＳ２では、音圧値情報Ｄ２を基に感情パラメータを算出する処理を行う。感情パラメータには優先順位が設定されており、「快感」の優先度が１、「驚き」の優先度が２、「怯え」の優先度が３、「嬉しい」および「悲しい」の優先度がともに４となっている。
なお、上記５種類の感情パラメータ値がすべて「０」のときは、「無表情」に該当する。
【００３７】
また、ステップＳ３では、算出された感情パラメータに基づく判定を行い、感性データを求める処理を行う。また、この判定においては、図１に示したリズム解析部１４によるリズム解析の結果も一部で用いられる。リズム解析の結果とは、例えば、ビート間の時間間隔がどの程度の長さかといったことである。
なお、感情パラメータ値算出の際には、音圧値がＬ１以下の音を無視する。
判定の際には、
【００３８】
「快感（Ｐｌｅａｓｕｒｅ）」に関する処理は、次の通りである。
［条件１］ビート間の時間間隔がＴ３以上で、かつ、中低音部から高音部までのいずれかの音圧のピークが高音方向に時間的にＴ４以上移動した場合は、「快感」の感情パラメータのカウントを＋１する。この条件に合致するとき、当該感情は、対象の音が鳴り始めてから時間Ｔ４経過時点から、対象の音が鳴りやんでから時間Ｔ２経過時点まで継続するものとする。つまり、本実施形態においては、この継続時間の間は、「快感」データに基づくアニメーションが生成され、出力される。
［条件２］低音域の音圧値がＬ７以上で、かつ、高音部の平均音圧値がＬ４以上である場合で、平均音圧値がＬ６以上の時、前回までのビート間の平均時間間隔から今回のビート間時間間隔を差し引いた値がＴ１以上である、または、前回の判定結果が「驚き」の場合は「快感」の感情パラメータのカウントを＋２する。この条件に合致するとき、当該感情は、対象の音が鳴り始めてから時間Ｔ４が経過した時点から始まるものとする。
【００３９】
つまり、上記条件２が適用される場合には、分割された周波数帯域グループごとの平均音圧値に基づいて感性データが算出される。
また、上記条件１が適用される場合には、周波数帯域グループ内において、音圧値のピークとなる周波数帯域が時間的にどのように推移するかに基づいて感性データが算出される。
また、上記条件１が適用される場合には、元のデジタルデータに基づき音に含まれるリズムの単位時間あたり拍数が求められ、この単位時間あたり拍数に基づいて感性データが算出される。上記の「ビート間の時間間隔」は単位あたり拍数の逆数から求められる。
なお、「快感」の感情の優先順位は最も高い「１」であるため、上記の条件１あるいは条件２のいずれかにあてはまる場合は、他の感情を無視する。
【００４０】
「驚き（Ｓｕｒｐｒｉｓｅ）」に関する処理は、次の通りである。
上述した「快感」の条件に該当しない場合は、下記の条件により「驚き」に該当するかどうかをチェックする。
【００４１】
［条件１］全音域の平均音圧値がＬ３以下の音が無い状態から、低音部のピークの音圧値がＬ７以上の音を最初に取得した場合は、「驚き」の感情パラメータのカウントを＋４し、その音が鳴りつづけた時間を継続時間とする。ただし、下記の条件２を満たす場合は無視をする。
［条件２］全音域の平均音圧値がＬ２以下の音が無い状態から、低音部のピークの音圧値がＬ７以上の音を最初に取得した場合は、「驚き」の感情パラメータのカウントを＋５し、その音が鳴りつづけた時間を継続時間とする。
【００４２】
［条件３］全音域の平均音圧値がＬ３以下の音が無い状態から、低音部以外のピークの音圧値がＬ７以上の音を最初に取得した場合は、「驚き」の感情パラメータのカウントを＋１し、その音が鳴りつづけた時間を継続時間とする。ただし、下記の条件４を満たす場合は無視をする。
［条件４］全音域の平均音圧値がＬ２以下の音が無い状態から、低音部以外のピークの音圧値がＬ７以上の音を最初に取得した場合は、「驚き」の感情パラメータのカウントを＋２し、その音が鳴りつづけた時間を継続時間とする。
［条件５］最高音部の音が時間Ｔ４以上続いた場合、または最高音部の音が存在し、かつ中高音部の平均音圧値がＬ４以下の場合は、「驚き」の感情パラメータのカウントを＋３し、その音が鳴りつづけた時間を継続時間とする。
なお、「驚き」の感情の優先順位は「快感」のそれに次ぐ「２」であるため、上記の条件１から５までのいずれかにあてはまる場合は、他の優先順位の低い感情を無視する。
【００４３】
「怯え（Ｆｅａｒ）」に関する処理は、次の通りである。
上述した「快感」あるいは「驚き」のいずれの条件にも該当しない場合は、下記の条件により「怯え」に該当するかどうかをチェックする。
【００４４】
［条件１］中低音部から高音部までのいずれかの音圧値のピークが低音方向に時間的にＴ４以上移動した場合は、「怯え」の感情パラメータのカウントを＋１する。
［条件２］中低音部から高音部までのいずれかの音圧値のピークが低音方向に時間的にＴ４以上移動し、続けて高音方向に時間的にＴ４以上移動した場合は、「怯え」の感情パラメータのカウントを＋４する。
［条件３］中低音部から高音部までのいずれかの音圧値のピークが低音方向に移動中に高音方向に揺れた回数Ｎが４２以上の場合、「怯え」の感情パラメータのカウントを＋（Ｎ／１６）する。
【００４５】
なお、「怯え」データに基づくアニメーションの変化の始点は対象の音が鳴り始めてから時間Ｔ４経過後とし、同じくアニメーションの変化の終点は対象の音が鳴りやんでから時間Ｔ２経過後とする。
なお、「怯え」の感情の優先順位は「驚き」のそれに次ぐ「３」であるため、上記の条件１から３までのいずれかにあてはまる場合は、他の優先順位の低い感情を無視する。
【００４６】
上述した「快感」、「驚き」、「怯え」のいずれの条件にも該当しない場合は、下記の条件により「嬉しい」または「悲しい」に該当するかどうかをチェックする。
【００４７】
「嬉しい（Happy）」に関する処理は、次の通りである。
［条件１］ビートがある場合は、「嬉しい」の感情パラメータのカウントを＋１する。
［条件２］ビート間の時間間隔がＴ７以下の場合は、「嬉しい」の感情パラメータのカウントを＋１する。
［条件３］高音部の平均音圧値がＬ４以上の場合は、「嬉しい」の感情パラメータのカウントを＋１する。
［条件４］上記の条件３を満たし、かつ、中低音部の音圧値のピークが５つ以上あった場合は、「嬉しい」の感情パラメータのカウントを＋２する。
［条件５］上記の条件３を満たし、かつ、上記の条件４をみたし、かつ、低音部の平均音圧値がＬ５以下の場合は、「嬉しい」の感情パラメータのカウントを＋２をする。
［条件６］抽出された長音要素−短音要素の数値が２以上の場合は、「嬉しい」の感情パラメータのカウントを＋１する。
【００４８】
なお、「嬉しい」データに基づくアニメーションの変化の始点の時間的な誤差は±Ｔ２とする。また、同じくアニメーションの変化の終点の時間的な誤差も±Ｔ２とする。
【００４９】
「悲しい（Ｓａｄ）」に関する処理は、次の通りである。
［条件１］ビート間の時間間隔がＴ５以上である場合＋は、「悲しい」の感情パラメータのカウントを＋１する。
［条件２］ビートがない場合は、「悲しい」の感情パラメータのカウントを＋２する。
［条件３］中低音部に時間Ｔ４以上続く音圧値のピークがあった場合は、「悲しい」の感情パラメータを＋１し、音が鳴り続けている時間を継続時間とする。ただし、下記の条件４を満たす場合は無視をする。
［条件４］中低音部に時間Ｔ６以上続く音圧値のピークがあった場合は、「悲しい」の感情パラメータを＋２し、音が鳴り続けている時間を継続時間とする。
【００５０】
［条件５］高音部に音圧値のピークが３つ以上あった場合は、「悲しい」の感情パラメータを＋１する。
［条件６］全領域の平均音圧値がＬ３以上の音が無い状態の場合は、「悲しい」の感情パラメータを＋１する。
［条件７］全領域の平均音圧値がＬ３以上の音が時間Ｔ２以上無い場合は、「悲しい」の感情パラメータを＋１する。
［条件８］中高音部と高音部の平均音圧値がＬ３以下であり、中低音部の音のみを取得した場合は、「悲しい」の感情パラメータを＋２する。
［条件９］短音要素−長音要素の数値が２以上の場合は、「悲しい」の感情パラメータを＋１する。
【００５１】
なお、「悲しい」データに基づくアニメーションの変化の始点の時間的な誤差は±Ｔ２とする。また、同じくアニメーションの変化の終点の時間的な誤差も±Ｔ２とする。
【００５２】
以上述べたように、「快感」、「驚き」、「怯え」、「嬉しい」、「悲しい」の感情について、それぞれ定義された条件でのチェックが行われる。
そして、優先順位の高い感情から順に、「快感」、「驚き」、「怯え」のいずれかのカウント結果が１以上である場合に、その感情が感情種類として判定される。また、そのときのカウント値が感情レベルとされる。但し、カウントが５を超える場合は、感情レベルを５とする。
【００５３】
なお、感情種類が「怯え」で、かつ同一の感情レベルである状態が時間Ｔ５以上継続した場合には、時間Ｔ５ごとに再チェックを行う。
また、感情種類が「快感」のまま、感情レベルが２から１へ移行した場合は、以後の感情レベルも２とみなし、感情レベル２を継続させるものとする。
【００５４】
「快感」、「驚き」、「怯え」のカウント値がいずれも０である場合で、「嬉しい」あるいは「悲しい」のカウント値の少なくとも一方が１以上である場合には、次に述べる方法で「嬉しい」および「悲しい」のカウント値を比較する。まず、前回の「嬉しい」のカウント値と現在の「嬉しい」のカウント値とから、これらの平均値を求める。次に、前回の「悲しい」のカウント値と現在の「悲しい」のカウント値とから、これらの平均値を求める。そして、「嬉しい」の平均値と「悲しい」の平均値とを比較する。
【００５５】
上記の「嬉しい」の平均カウント値のほうが大きい場合には、感情種類を「嬉しい」とするとともに、「嬉しい」の平均カウント値から「悲しい」の平均カウント値を引いた値を感情レベルとする。逆に、「悲しい」の平均カウント値のほうが大きい場合には、感情種類を「悲しい」とするとともに、「悲しい」の平均カウント値から「嬉しい」の平均カウント値を引いた値を感情レベルとする。
「嬉しい」の平均カウント値と「悲しい」の平均カウント値とが等しい場合には、前回のカウント値同士を比較し、大きい方のカウント値を持つほうを感情種類として選択するとともに、この場合の感情レベルを１とする。
【００５６】
但し、「嬉しい」と「悲しい」のカウント値を用いた判定に関して、上記の規則に関わらず、次の２つの例外パターンに該当する場合には、これを適用するものとする。
第１の例外パターンは、「嬉しい」のカウント値が５で、かつ、「悲しい」のカウント値が５である場合であり、このときは、感情種類を「快感」とし、感情レベルを２とする。
第２の例外パターンは、「怯え」のカウント値が３以上で、かつ、「悲しい」のカウント値が４以上の場合であり、このときは、感情種類を「悲しい」とし、感情レベルを５とする。
【００５７】
なお、上記５種類のいずれの感情についても、カウント値の結果がすべて０である場合には、感情種類は「無表情」であると判定される。
【００５８】
次に、補間フラグに関する判定方法を説明する。補間フラグのデフォルト値は１（ＯＮ）であるが、次の２通りのいずれかに該当する場合に限り、補間フラグを０（ＯＦＦ）とする。第１に、同じ感情種類が時間Ｔ６以上継続した場合には補間フラグを０とする。第２に、前回の感情種類が「嬉しい」または「悲しい」であり、そこから感情種類「快感」に遷移する場合には補間フラグを０とする。
【００５９】
上述した感情パラメータの算出および感情の判定等の処理において、時間Ｔ１〜Ｔ６については、Ｔ１＜Ｔ２＜Ｔ３＜Ｔ４＜Ｔ５＜Ｔ６の関係を満たす適切な値を用いることとする。なお、Ｔ１はほぼ数百ミリ秒程度、Ｔ６はほぼ数千ミリ秒程度である。また、音圧値レベルＬ１〜Ｌ７については、Ｌ１＜Ｌ２＜Ｌ３＜Ｌ４＜Ｌ５＜Ｌ６＜Ｌ７の関係を満たす適切な値を用いることとする。一例としては、Ｌ１は−５０ｄＢ（デシベル）程度、Ｌ７は−２０ｄＢ程度の値を用いる。
【００６０】
次に、図１に示したリズム解析部１４における処理について説明する。
リズム解析部１４には、伸長部によって伸長されたデータが入力される。この入力データは、前述のように、周波数領域ごとの音圧値情報を時系列的に持つものである。このような入力データを基に、リズム解析部１４は音楽のリズムを解析し、その音楽のｂｐｍ値（ｂｅａｔｓｐｅｒｍｉｎｕｔｅ，１分あたりビート数，単位時間あたり拍数）を算出して出力する。
【００６１】
リズム解析の処理においては、次の事項を前提とする。第１に、少なくとも一定時間以上は曲のリズムは一定のｂｐｍ値で正確に刻まれることとする。第２に、１拍あたり２回、ノイズ系の音が含まれることとする。例えば、曲が４分の４拍子である場合には、４拍の間に８回ノイズ系の音が含まれる。ここで、ノイズ系の音とは、例えばシンバル等の音である。
ノイズ系の音は、ほぼ全周波数帯域に渡って音圧変化があることが特徴である。従って、各周波数帯域ごとにフレーム間の音圧変化量を求め、全周波数にわたって連続的に音圧変化量が所定の閾値以上となる場合にこれをノイズ系の音として検出できる。
【００６２】
そして、ノイズ系の音はリズムに応じて所定のタイミングの箇所に多く集中するという傾向があることから、このノイズ系の音を検出し、この検出間隔をフレーム（１フレームは約０．０２６１秒）単位で求める。この段階では、検出される間隔は、一定ではなく、フレーム数ごとの度数の分布として得られる。得られた分布を基に、補正を加えて、拍の間隔を決定することによってｂｐｍ値を求めることとする。
つまり、前記第２の前提によると１拍あたり２回のノイズ系の音が含まれるため、求められたノイズ間隔Ｆ（フレーム単位）を用いると、ｂｐｍ値は、次の式で得られる。すなわち、
ｂｐｍ値＝６０［秒／分］／（２＊Ｆ［フレーム］＊０．０２６１［秒／フレーム］）
【００６３】
図３は、上述した音楽再生装置におけるデータの流れを示す概略図である。図示するように、音声データ５１を基に、これを各周波数帯域に分解する処理（６１）を行うことによって、分解された音声のデータ５２が得られる。そしてこのデータを基に、感性データを算出する処理（６２）を行うことによって感性データ５３が得られる。そして、この感性データ５３に基づいて、ビジュアルコンテンツを生成する処理（６３）を行うことによって、例えばアニメーションなどのビジュアルコンテンツデータ５４が生成される。
【００６４】
従来においても、周波数帯域ごとの音声データに応じて光信号を出力するスペクトラム解析装置は存在した。しかしながら、本実施形態の音楽再生装置は、周波数帯域ごとの音声データから一旦感性データを生成し、この感性データに基づいてビジュアルデータを生成するとことにより、再生される音楽とそれを聴く人間の感性にマッチした信号あるいはコンテンツを生成できるというという効果が得られる。このような効果は、従来技術では実現できなかったものである。
【００６５】
次に、本発明の他の実施形態について説明する。
図１に示した構成では、予め記憶媒体等に記憶されたＭＰ３データを基に感性データを算出して蓄積することとしたが、外部から入力されるオーディオ信号を基に、同様に感性データを算出するようにしても良い。
図４は、入力されるアナログオーディオ信号を基に感性データを算出して蓄積する感性データ算出装置の構成を示すブロック図である。図４において、符号７はＡ／Ｄ（アナログ／デジタル）変換部であり、１ａはスペクトラム解析部である。スペクトラム解析部１ａは、フーリエ変換部１７と、感性データ算出部１２とを備えている。
【００６６】
Ａ／Ｄ変換部７は、入力されるアナログオーディオ信号を所定のサンプリング周波数による時系列的なデジタル音圧値データ（Ｃ）に変換する。そして、このデジタル音圧値データ（Ｃ）は、フーリエ変換部１７によって、所定のフレーム長のフレームごと、かつ周波数領域ごとの音圧値データに変換される。感性データ算出部１２の機能は図１に示したものと同様のものであり、前述の方法と同様の方法で感性データを算出する。
【００６７】
図１および図４に示した装置では、音楽などを表わす聴覚データを基に感性データを算出することとしていたが、聴覚以外の感覚に関するデータを基に感性データを算出するようにしても良い。
図５は、より一般的な感性データ算出装置の概略構成を示すブロック図である。図５において、符号１０１は聴覚データ、１０２は視覚データ、１０３は触覚データ、１０４は味覚データ、１０５は嗅覚データである。これらのデータ（１０１〜１０５）は、各感覚の特性に応じて適切な方法でデジタル化されたデータである。また、これらのデータ（１０１〜１０５）は、時系列的データとして表わされる場合がある。
【００６８】
１１０は感性データ算出部であり、この感性データ算出部１１０は、聴覚データ１０１、視覚データ１０２、触覚データ１０３、味覚データ１０４、嗅覚データ１０５の全部または一部を基に、予め定められた処理手順に従って感性データ１２０を算出する。なお、感性データ１２０もまた、時系列的データとして表わされる場合がある。
【００６９】
以上、人間の感覚に関するデータに基づいて感性データを算出する方法および装置について述べたが、これらの応用としては、次のようなものが考えられる。図１に示した音楽再生装置は、音楽とアニメーションとを同時に再生する装置として利用できる。また、この機能をコンピュータプログラムとして実現することにより、パソコンや、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）や、携帯通信端末などで稼動する音楽再生装置を実現することができる。このとき、聴覚データ（音楽）等は、予め記憶装置に蓄えておくだけでなく、インターネットや固定系公衆電話網や携帯電話網などといった通信を用いて配信するようにしても良い。
【００７０】
また、カラオケ演奏装置などにおいて、演奏される音楽を解析して感性データを算出することにより、その音楽の感性に応じた情報を表示装置に表示するようにしても良い。
【００７１】
また、ロボット（例えば、いわゆるペット型ロボットや、エンターテイメントロボットなど）において、外部環境から受ける刺激（音や光や振動など）に基づいて感性データを算出し、この感性データに応じてロボットの動作や表情などを制御するようにしても良い。
【００７２】
また、デジタル音楽コンテンツを基に算出された感性データによって、元の音楽を識別するようにしても良い。これにより、ネットワークなどを介して流通しているデジタル音楽コンテンツがどの曲のものであるかを容易に判別することが可能になり、コンテンツの不正コピーの検出などに利用できる。この方法の利点は、元の音データよりも算出される感性データのほうが圧倒的にデータサイズが小さく、このように小さいサイズのデータ同士の比較で済むことである。なお、発明者らの経験によると、感性データは元の音データに比べると情報量としては圧倒的に少ないが、曲を識別するのに充分な情報を含むものであることがわかっている。つまり、異なる曲同士で感性データが全く一致したケースはこれまでになく、そのような状況が起こる可能性は非常に小さいと言える。
【００７３】
以上、図面を参照してこの発明の実施形態を詳述してきたが、具体的な構成はこれらの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【００７４】
【発明の効果】
以上説明したように、この発明によれば、分割された周波数帯域ごとの音圧値として音を表現したデジタルデータを入力し、前記周波数帯域ごとの音圧値の分布を解析することにより、前記音に関連する感性データを算出するため、入力される音に関連する感性のデータを自動的に生成することができ、いちいち人が判断してその判断結果を入力する必要がない。
【００７５】
また、この発明によれば、周波数帯域全体を、１０個以下の周波数帯域グループに分割し、この周波数帯域グループごとの平均音圧値に基づいて感性データを算出するため、計算処理を単純化して、比較的少ない計算量での算出が可能である。
【００７６】
また、この発明によれば、音に含まれるリズムの単位時間あたり拍数を求め、この単位時間あたり拍数に基づいて感性データを算出する。このため、人間の感性に近い感性データを、比較的単純な処理により得ることができる。
【００７７】
また、この発明によれば、楽曲を表現したデジタルデータを基に、前述の感性データ算出方法によって感性データを算出し、算出された感性データに基づいてビジュアルコンテンツを生成し、前記楽曲の再生と前記ビジュアルコンテンツとの表示を同期的に行うため、音の感性にマッチしたビジュアルコンテンツを同時に表示でき、再生時の表現力を増すことが可能になる。
【００７８】
また、この発明によれば、楽曲を表現したデジタルデータを基に、前述の感性データ算出方法によって感性データを算出し、算出された感性データ同士を比較することにより楽曲を識別するため、より小さいデータ量で楽曲の識別を行うことが可能となり、デジタルコンテンツの不正コピーの検出などを効率的に行うことができる。
【図面の簡単な説明】
【図１】この発明の一実施形態による感性データ算出方法を応用した音楽再生装置の構成を示すブロック図である。
【図２】同実施形態による音楽再生装置が備える感情解析部による解析処理の手順を示すフローチャートである。
【図３】同実施形態による音楽再生装置におけるデータの流れを示す概略図である。
【図４】この発明の他の実施形態による感性データ算出装置の構成を示すブロック図である。
【図５】この発明の他の実施形態であり、聴覚やその他の感覚に関するデータを基に感性データを算出する感性データ算出装置の概略構成を示すブロック図である。
【符号の説明】
１スペクトラム解析部
２感性データ蓄積部
３アニメーション画像生成部
４ＭＰ３データ記憶部
５ＭＰ３デコーダ部
６Ｄ／Ａ変換部
７Ａ／Ｄ変換部
１１伸長部
１２感性データ算出部
１３感情解析部
１４リズム解析部
１７フーリエ変換部
１０１聴覚データ
１０２視覚データ
１０３触覚データ
１０４味覚データ
１０５嗅覚データ
１１０感性データ算出部

Claims

分割された周波数帯域ごとの音圧値として楽曲を表現したデジタルデータを入力し、前記周波数帯域ごとの音圧値の分布および前記周波数帯域ごとの音圧値の分布の時間的な推移を解析するとともに、前記デジタルデータに基づき前記周波数帯域ごとに時間的な音圧変化量を算出し、算出された前記音圧変化量が全周波数帯域にわたって所定の閾値以上となる領域の分布を解析することにより、前記楽曲に関連する感性データを算出することを特徴とする感性データ算出方法。
前記分割された周波数帯域のうち、ある周波数帯域の音圧値と他の周波数帯域の音圧値との時間的推移に基づき前記感性データを算出することを特徴とする請求項１に記載の感性データ算出方法。
音圧値のピークとなる周波数帯域が時間的にどのように推移するかに基づいて前記感性データを算出することを特徴とする請求項１または請求項２のいずれかに記載の感性データ算出方法。
分割された周波数帯域ごとの音圧値として楽曲を表現したデジタルデータを入力し、前記周波数帯域ごとの音圧値の分布および前記周波数帯域ごとの音圧値の分布の時間的な推移を解析することにより前記楽曲に関連する感性データを算出するとともに、音階分割された周波数帯域ごとの音圧値に基づいて長音要素と短音要素の抽出を行い、長音要素の各１オクターブ離れた２つの領域の音圧値が共に閾値より大きい場合に長音要素を１カウントし、短音要素の各１オクターブ離れた２つの領域の音圧値が共に閾値より大きい場合に短音要素を１カウントし、長音要素のカウント値から短音要素のカウント値を減算した値が２以上であれば「嬉しい」の感情パラメータのカウントを１増やし、短音要素のカウント値から長音要素のカウント値を減算した値が２以上であれば「悲しい」の感情パラメータのカウントを１増やし、各前記感情パラメータに基づいて感性データを算出することを特徴とする感性データ算出方法。