JP4799333B2

JP4799333B2 - 楽曲分類方法、楽曲分類装置及びコンピュータプログラム

Info

Publication number: JP4799333B2
Application number: JP2006249886A
Authority: JP
Inventors: 成文後田
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2006-09-14
Filing date: 2006-09-14
Publication date: 2011-10-26
Anticipated expiration: 2026-09-14
Also published as: JP2008070650A

Description

本発明は、記憶手段で記憶している多数の楽曲データを分類する方法に関し、より詳しくは、楽曲を人が聴くときに感じる印象及び楽曲のテンポを楽曲データから求め、求めた印象及びテンポを用いて楽曲データを分類する楽曲分類方法、楽曲分類装置及びコンピュータプログラムに関する。

従来、ハードディスク又は半導体メモリ等の記憶手段を内部に備え、ＭＰ３（MPEG-1 Audio Layer-3）等のデータ形式の楽曲データを記憶手段で記憶し、記憶している楽曲データに基づいて楽曲を再生する楽曲再生装置が普及している。このような楽曲再生装置の例として、携帯型の楽曲再生装置がある。また音楽を含む映像を再生することができるコンテンツ再生装置も普及している。このような携帯型の楽曲再生装置を利用する場合は、通常、パーソナルコンピュータ（ＰＣ）等の情報処理装置で作成した楽曲データ又は通信ネットワークを用いて情報処理装置へ配信された楽曲データを情報処理装置から楽曲再生装置へ送信し、楽曲再生装置は、送信された楽曲データを記憶手段で記憶する。

楽曲再生装置が記憶する大量の楽曲データから所望の楽曲データを検索する方法として、通常、楽曲の内容に係る属性情報を楽曲データに関連付けておき、属性情報を利用して楽曲データを検索する方法を用いている。例えば、楽曲再生装置は、楽曲に関するアルバム、アーティスト又はジャンル等を示す複数種類の属性情報を楽曲データに関連付けて記憶している。使用者は、例えば一のアルバム名を指定すると、指定したアルバム名に関連付けられた一又は複数の楽曲が検索され、検索された楽曲を聞くことができるようになる。

また、楽曲の特徴を表す特徴データを楽曲データに関連付けておき、特徴データを用いて楽曲データを検索する技術が開発されている。特徴データの例としては、楽曲のテンポがあり、楽曲からサンプリングした音声強度変化からテンポを自動で検出する技術が開発されている。また他の特徴データとして、透明度、明るさ、又は激しさ等といった使用者が楽曲から受ける印象の度合いを表す印象値を用いる技術が開発されている。特許文献１には、楽曲中での音量の揺らぎを特徴付けるデータを楽曲から抽出し、抽出したデータを階層型ニューラルネットワークによって楽曲の印象値に変換する技術が開示されている。テンポ又は印象値といった楽曲の特徴を表す特徴データに基づいて楽曲を分類することにより、高揚感のある曲、落ち着いた曲又はゆったりした曲等、楽曲自体の特徴に応じて楽曲を選択することができるようになる。
特開２００５−１４１４３０号公報

しかしながら、楽曲のテンポを検出する従来の技術では、楽曲の演奏に用いられている楽器の種類が多い場合、又は楽曲中のリズムが複雑に変化する場合等では、本来の倍や半分の長さのテンポを抽出してしまう等、誤ったテンポを検出してしまうことがあるという問題がある。また特許文献１に開示された技術では、求めた印象値が表す楽曲の印象と、実際に楽曲を聴いた使用者が楽曲から感じる印象との間にずれが発生することがあるという問題がある。

本発明は、斯かる事情に鑑みてなされたものであって、その目的とするところは、人間の聴覚特性に合わせた尺度で楽曲の特徴を表したデータから印象値を求めることにより、人が楽曲を聴いた際の実際の印象により合致した印象値で楽曲を分類することができる楽曲分類方法、楽曲分類装置及びコンピュータプログラムを提供することにある。

また本発明の他の目的とするところは、求めた印象値に応じてテンポを補正することにより、楽曲のテンポを精度良く判別することができる楽曲分類方法、楽曲分類装置及びコンピュータプログラムを提供することにある。

本発明に係る楽曲分類方法は、楽曲の特徴を示すデータを生成する生成ステップと、該生成ステップで生成したデータを、楽曲から人間が受ける特定の印象の度合いを示す印象値へ変換する変換ステップと、楽曲データに印象値を関連付けることによって楽曲データを分類するステップとを含む楽曲分類方法において、前記生成ステップは、楽曲の音声を表した音声信号を分割した複数の部分音声信号に対して高速フーリエ変換（ＦＦＴ）を行うことによって、前記複数の部分音声信号のパワースペクトルを求めるＦＦＴ処理ステップと、求めたパワースペクトルから、前記複数の部分音声信号の夫々についてメルケプストラム係数を計算するステップと、計算した前記複数の部分音声信号のメルケプストラム係数を平均することによって、前記音声信号のメルケプストラム係数を求めるステップと、前記音声信号に含まれる複数の部分音声信号の夫々について、前記ＦＦＴ処理ステップで求めたパワースペクトルにおける所定周波数帯域のパワーを平均した平均パワーを算出するステップと、算出した平均パワーを各部分音声信号の前記音声信号中での時間的位置に対応させて時間軸上に並べた平均パワー時系列を求めるステップと、求めた平均パワー時系列のＦＦＴを行うことによって、平均パワー時系列のパワースペクトルを求めるステップと、求めた平均パワー時系列のパワースペクトルを所定の曲線で近似した近似曲線を求めるステップと、求めた近似曲線のパラメータを、前記音声信号における音量の周期的な揺らぎを特徴付ける揺らぎデータとして求めるステップとを含み、前記変換ステップは、メルケプストラム係数を入力されて特定の印象の度合いを示す印象値を出力するように学習された階層型ニューラルネットワークを用いて、前記生成ステップで求めたメルケプストラム係数を印象値へ変換するステップと、揺らぎデータ及びメルケプストラム係数を入力されて特定の印象の度合いを示す印象値を出力するように学習された階層型ニューラルネットワークを用いて、前記生成ステップで求めた前記音声信号の揺らぎデータ及びメルケプストラム係数を、楽曲から人間が受ける激しさの印象の度合いを特定範囲内の数値で示した激しさの印象値を含む印象値へ変換するステップとを含み、更に、前記生成ステップで前記音声信号から求めた前記平均パワー時系列のパワースペクトル及び前記近似曲線の差分を求めるステップと、前記差分の大きさが所定値以上である成分の周期の内で所定の周期範囲内で最も長い周期に基づいて、楽曲のテンポを求めるステップと、前記変換ステップで得られた前記激しさの印象値が所定値より大きく、求めたテンポが所定値以下である場合に、テンポの値を増大させ、前記激しさの印象値が所定値以下であり、求めたテンポが所定値以上である場合に、テンポの値を減少させることにより、求めたテンポを補正するステップと、補正したテンポを楽曲データに関連付けるステップとを含むことを特徴とする。

本発明に係る楽曲分類装置は、楽曲の特徴を示すデータを生成する生成手段と、該生成手段が生成したデータを、楽曲から人間が受ける特定の印象の度合いを示す印象値へ変換する変換手段と、楽曲データに印象値を関連付けることによって楽曲データを分類して記憶する記憶手段とを備える楽曲分類装置において、前記生成手段は、楽曲の音声を表した音声信号を分割した複数の部分音声信号に対して高速フーリエ変換（ＦＦＴ）を行うことによって、前記複数の部分音声信号のパワースペクトルを求めるＦＦＴ処理手段と、求めたパワースペクトルから、前記複数の部分音声信号の夫々についてメルケプストラム係数を計算する手段と、計算した前記複数の部分音声信号のメルケプストラム係数を平均することによって、特徴データとして前記音声信号のメルケプストラム係数を求める手段と、前記音声信号に含まれる複数の部分音声信号の夫々について、前記ＦＦＴ処理手段が求めたパワースペクトルにおける所定周波数帯域のパワーを平均した平均パワーを算出する手段と、該手段が算出した平均パワーを各部分音声信号の前記音声信号中での時間的位置に対応させて時間軸上に並べた平均パワー時系列を求める手段と、該手段が求めた平均パワー時系列のＦＦＴを行うことによって、平均パワー時系列のパワースペクトルを求める手段と、該手段が求めた平均パワー時系列のパワースペクトルを所定の曲線で近似した近似曲線を求める手段と、該手段が求めた近似曲線のパラメータを、前記音声信号における音量の周期的な揺らぎを特徴付ける揺らぎデータとして求める手段とを有し、前記変換手段は、メルケプストラム係数を入力されて特定の印象の度合いを示す印象値を出力するように学習された階層型ニューラルネットワークを用いて、前記生成手段で求めたメルケプストラム係数を印象値へ変換する手段と、揺らぎデータ及びメルケプストラム係数を入力されて特定の印象の度合いを示す印象値を出力するように学習された階層型ニューラルネットワークを用いて、前記生成手段で求めた前記音声信号の揺らぎデータ及びメルケプストラム係数を、楽曲から人間が受ける激しさの印象の度合いを特定範囲内の数値で示した激しさの印象値を含む印象値へ変換する手段とを有し、更に、前記生成手段が前記音声信号から求めた前記平均パワー時系列のパワースペクトル及び前記近似曲線の差分を求める手段と、前記差分の大きさが所定値以上である成分の周期の内で所定の周期範囲内で最も長い周期に基づいて、楽曲のテンポを求める手段と、前記変換手段により得られた前記激しさの印象値が所定値より大きく、求めたテンポが所定値以下である場合に、テンポの値を増大させ、前記激しさの印象値が所定値以下であり、求めたテンポが所定値以上である場合に、テンポの値を減少させることにより、求めたテンポを補正するテンポ補正手段とを備え、前記記憶手段は、前記テンポ補正手段が補正したテンポを関連付けて楽曲データを記憶する手段を有することを特徴とする。

本発明に係るコンピュータプログラムは、コンピュータに、楽曲の特徴を示すデータを生成させ、生成したデータを、楽曲から人間が受ける特定の印象の度合いを示す印象値へ変換させるコンピュータプログラムにおいて、コンピュータに、楽曲の音声を表した音声信号を分割した複数の部分音声信号に対して高速フーリエ変換（ＦＦＴ）を行うことによって、前記複数の部分音声信号のパワースペクトルを求めさせる手順と、コンピュータに、求めたパワースペクトルから、前記複数の部分音声信号の夫々についてメルケプストラム係数を計算させる手順と、コンピュータに、計算した前記複数の部分音声信号のメルケプストラム係数を平均することによって、前記音声信号のメルケプストラム係数を求めさせる手順と、コンピュータに、前記音声信号に含まれる複数の部分音声信号の夫々について、求めたパワースペクトルにおける所定周波数帯域のパワーを平均した平均パワーを算出させる手順と、コンピュータに、算出した平均パワーを各部分音声信号の前記音声信号中での時間的位置に対応させて時間軸上に並べた平均パワー時系列を求めさせる手順と、コンピュータに、求めた平均パワー時系列のＦＦＴを行うことによって、平均パワー時系列のパワースペクトルを求めさせる手順と、コンピュータに、求めた平均パワー時系列のパワースペクトルを所定の曲線で近似した近似曲線を求めさせる手順と、コンピュータに、求めた近似曲線のパラメータを、前記音声信号における音量の周期的な揺らぎを特徴付ける揺らぎデータとして求めさせる手順と、コンピュータに、メルケプストラム係数を入力されて特定の印象の度合いを示す印象値を出力するように学習された階層型ニューラルネットワークに対して、求めたメルケプストラム係数を入力して、出力される印象値を取得させる手順と、コンピュータに、揺らぎデータ及びメルケプストラム係数を入力されて、楽曲から人間が受ける激しさの印象の度合いを特定範囲内の数値で示した激しさの印象値を含む印象値を出力するように学習された階層型ニューラルネットワークに対して、求めた前記音声信号の揺らぎデータ及びメルケプストラム係数を入力して、激しさの印象値を含む印象値を取得させる手順と、コンピュータに、前記音声信号から求めた前記平均パワー時系列のパワースペクトル及び前記近似曲線の差分を求めさせる手順と、コンピュータに、前記差分の大きさが所定値以上である成分の周期の内で所定の周期範囲内で最も長い周期に基づいて、楽曲のテンポを求めさせる手順と、コンピュータに、激しさの印象値が所定値より大きく、求めたテンポが所定値以下である場合に、テンポの値を増大させ、前記激しさの印象値が所定値以下であり、求めたテンポが所定値以上である場合に、テンポの値を減少させることにより、求めたテンポを補正させる手順とを含むことを特徴とする。

本発明においては、楽曲の音声を表した音声信号からメルケプストラム係数を求め、メルケプストラム係数を入力されて特定の印象値を出力するように学習された階層型ニューラルネットワークを用いて、メルケプストラム係数を、楽曲から人間が受ける特定の印象の度合いを示す印象値へ変換する。楽曲を特徴付ける音質を表すメルケプストラム係数から印象値を求めることにより、実際に楽曲を聴いた使用者が楽曲から感じる印象により近い印象値が得られる。

また本発明においては、音声信号を分割した部分音声信号のＦＦＴにより得られるパワースペクトルの所定周波数帯域内でパワーを平均した平均パワーを時間軸上に並べた平均パワー時系列を求め、更に平均パワー時系列のパワースペクトルを求め、求めたパワースペクトルの近似曲線のパラメータを各周波数帯域で音量が変動する周波数の分布を示す揺らぎデータとして取得する。例えば、両対数表示のパワースペクトルを直線で近似した近似曲線の傾き及びＹ切片を揺らぎデータとして取得する。揺らぎデータ及びメルケプストラム係数を入力されて特定の印象値を出力するように学習された階層型ニューラルネットワークを用いて、揺らぎデータ及びメルケプストラム係数を、楽曲から人間が受ける特定の印象の度合いを示す印象値へ変換する。

更に本発明においては、平均パワー時系列のパワースペクトルと近似曲線との差分値が所定値以上である成分の周期の内で所定の周期範囲内で最も長い周期に基づいて、楽曲のテンポを求め、テンポに関連する特定の印象の度合いを示す印象値の値に応じてテンポを補正する。例えば、「激しさ」の印象の度合いを示す印象値が大きい場合にはテンポも早くなり、印象値が小さい場合にはテンポも遅くなるように、テンポを補正する。

本発明にあっては、楽曲を特徴付ける音質を表すメルケプストラム係数から印象値を求めることにより、従来技術に比べて、実際に楽曲を聴いた使用者が楽曲から感じる印象と求めた印象値が示す楽曲の印象とのずれが小さくなる。従って、使用者が楽曲から感じる印象で楽曲データが分類され、使用者は、好みに応じた所望の印象を感じられる楽曲をより正確に検索して聴くことが可能となる。

本発明にあっては、音量の周期的な揺らぎを特徴付ける揺らぎデータ及びメルケプストラム係数から印象値を求めることにより、揺らぎデータから印象値を求める従来技術に比べて、実際に楽曲を聴いた使用者が楽曲から感じる印象と求めた印象値が示す楽曲の印象とのずれが小さくなる。

また本発明にあっては、楽曲のテンポを一旦判別し、テンポに関連する特定の印象の度合いを示す印象値の値に応じてテンポを補正することにより、実際の印象とのずれが小さい印象値に基づいてテンポを補正するので、より精度よく楽曲のテンポを判別することが可能となる等、本発明は優れた効果を奏する。

以下本発明をその実施の形態を示す図面に基づき具体的に説明する。
図１は、本発明の楽曲分類装置１及び楽曲再生装置２の構成を示すブロック図である。本発明の楽曲分類装置１は、ＰＣ等の汎用コンピュータを用いて構成されており、演算を行うＣＰＵ１１と、演算に伴って発生する一時的な情報を記憶するＲＡＭ１２と、データを記録したＣＤ又はＤＶＤ等の記録媒体を受け付けるドライブ部１３と、ハードディスク等の記憶部（記憶手段）１４とを備えている。記憶部１４は、ＣＤ−ＲＯＭ等の記録媒体からドライブ部１３が読み取った本発明のコンピュータプログラム１４１を記憶している。コンピュータプログラム１４１は、必要に応じて記憶部１４からＲＡＭ１２にロードされ、ロードされたコンピュータプログラム１４１に基づいてＣＰＵ１１は楽曲分類装置１に必要な処理を実行する。

また楽曲分類装置１は、使用者が操作することによる各種の処理指示等の情報が入力されるキーボード又はポインティングデバイス等の入力部１５と、各種の情報を表示する液晶ディスプレイ等の表示部１６とを備えている。更に楽曲分類装置１は、楽曲分類装置１外の機器との間でデータを送受信するインタフェース部１７と、インターネット等の外部の通信ネットワークＮに接続された通信部１８とを備えている。

楽曲分類装置１は、データを記録したＣＤ等の記録媒体をドライブ部１３で受け付け、記録媒体が記録するデータを読み出し、読み出したデータをＭＰ３等のデータ形式の楽曲データへＣＰＵ１１で変換する処理を行うことができる。また楽曲分類装置１は、通信ネットワークＮに接続された図示しないサーバ装置から送信された楽曲データを通信ネットワークＮを介して通信部１８で受信することができる。ＣＰＵ１１で変換した楽曲データ又は通信部１８で受信した楽曲データは、記憶部１４が記憶する。また楽曲分類装置１は、楽曲データに基づいて楽曲を再生する楽曲再生装置２へ楽曲データを送信することができる構成となっている。

楽曲再生装置２は、演算を行うプロセッサ、制御プログラムを記憶するＲＯＭ、及びＲＡＭ等からなる制御部２１を備え、制御部２１は楽曲再生装置２全体の動作を制御する構成となっている。制御部２１には、ハードディスク又は半導体メモリ等でなる記憶部２２が接続されており、記憶部２２は、ＭＰ３等のデータ形式の楽曲データを記憶する構成となっている。また制御部２１には、楽曲データをデコードする処理を行うデータ処理部２４と、データ処理部２４がデコードしたデータをＤＡ変換して外部へ出力する出力部２５とが接続されている。出力部２５にはヘッドフォン２６が接続可能であり、ヘッドフォン２６を用いて楽曲が再生される。また制御部２１には、使用者の操作によって処理の開始指示等の各種の指示が入力される操作部２３、及び楽曲再生装置２の処理のために必要な情報を表示する表示部２８が接続されている。更に制御部２１には、楽曲再生装置２外の機器との間でデータを送受信するインタフェース部２７が接続されている。

楽曲分類装置１のインタフェース部１７と楽曲再生装置２のインタフェース部２７とは互いにケーブルで接続可能な構成となっており、ケーブル及び互いのインタフェース部を介して、楽曲分類装置１と楽曲再生装置２との間で楽曲データ等のデータを送受信可能な構成となっている。なお、楽曲分類装置１と楽曲再生装置２との間では、有線ではなく無線通信でデータを送受信可能な構成であってもよい。楽曲再生装置２は、小型軽量で携帯可能な構成であり、インタフェース部２７に接続されたケーブルを取り外して使用者が携帯して使用される。

次に、以上の構成でなる本発明の楽曲分類装置１が実行する本発明の楽曲分類方法を説明する。楽曲分類装置１は、記憶部１４で記憶している複数の楽曲データを、使用者が楽曲から受ける特定の印象の度合いを表す印象値及び楽曲のテンポを用いて分類する処理を行う。楽曲分類装置１のＣＰＵ１１は、コンピュータプログラム１４１をＲＡＭ１２へロードし、ロードしたコンピュータプログラム１４１に従って、楽曲データから印象値及び楽曲のテンポを求める処理を実行する。

図２は、ＣＰＵ１１が本発明において実行する処理の手順を示すフローチャートである。ＣＰＵ１１は、ＲＡＭ１２へロードしたコンピュータプログラム１４１に従って、以下の処理を実行する。ＣＰＵ１１は、まず、記憶部１４が記憶している一の楽曲データをＲＡＭ１２へ読み出し、ＭＰ３等のデータ形式の楽曲データをデコードし、デコードして得られたリニアＰＣＭ信号等の音声信号を所定の周波数でサンプリングする（Ｓ１）。この処理により、ＣＰＵ１１は楽曲の音声を表す音声信号を取得する。このとき、ダウンサンプリング等により、以降の処理に適切な基本周波数の音声信号を取得する。

ＣＰＵ１１は、次に、サンプリングにより取得した音声信号から、音量の周期的な揺らぎを特徴付ける揺らぎデータを取得する揺らぎデータ取得処理を実行する（Ｓ２）。図３は、揺らぎデータ取得処理のサブルーチンでの処理の手順を示すフローチャートである。ＣＰＵ１１は、取得した音声信号中でＦＦＴ（高速フーリエ変換）を開始する開始位置を決定する（Ｓ２０１）。このとき、ＣＰＵ１１は音声信号の冒頭を開始位置としてもよく、音声信号の冒頭から所定時間経過した位置を開始位置としてもよい。ＣＰＵ１１は、次に、音声信号の決定した開始位置から一定の時間長さに亘る部分音声信号に対してＦＦＴを行う（Ｓ２０２）。

ＣＰＵ１１は、次に、ＦＦＴを行うことによって生成される部分音声信号のパワースペクトルを、Ｌｏｗ（低周波数帯域）、Ｍｉｄｄｌｅ（中間周波数帯域）、Ｈｉｇｈ（高周波数帯域）の三つの周波数帯域に分割する（Ｓ２０３）。ＣＰＵ１１は、次に、Ｌｏｗ，Ｍｉｄｄｌｅ，Ｈｉｇｈの各パワースペクトルで分布しているパワーを平均して、各周波数帯域でパワーを平均した平均パワーを算出する（Ｓ２０４）。ＣＰＵ１１は、次に、音声信号の最後まで平均パワーを算出する処理を実行したか否かを判定する（Ｓ２０５）。まだ音声信号の最後まで処理を行っていない場合は（Ｓ２０５：ＮＯ）、ＣＰＵ１１は、平均パワーを算出する処理を行った部分音声信号の数が、予め定めてある設定値になったか否かを判定する（Ｓ２０６）。処理を行った部分音声信号の数がまだ設定値になっていない場合は（Ｓ２０６：ＮＯ）、ＣＰＵ１１は、音声信号中でのＦＦＴの開始位置を、時間が経過する方向に所定の時間長さだけシフトさせる（Ｓ２０７）。ＦＦＴの開始位置をシフトさせる時間長さは、部分音声信号の時間長さに等しくしてもよい。ＣＰＵ１１は、次に、処理をステップＳ２０２へ戻して、新たな開始位置から部分音声信号に対してＦＦＴを行い、ステップＳ２０２〜Ｓ２０７で開始位置をシフトしながら部分音声信号のＦＦＴ及び平均パワーの算出を繰り返す。

図４は、部分音声信号のＦＦＴを繰り返した結果の例を示す説明図である。図４（ａ）は音声信号の例を示し、縦軸は音声強度を示し、横軸は時間を示す。図４（ａ）中に示す縦線は次々にシフトするＦＦＴの開始位置を示し、ＦＦＴの開始位置をシフトさせる時間長さが部分音声信号の時間長さに等しい場合は、ＦＦＴの開始位置で音声信号を分割した各部分が部分音声信号となる。図４（ｂ）は、図４（ａ）に示す音声信号に含まれる最初の部分音声信号のパワースペクトルを示し、図４（ｃ）は２番目の部分音声信号のパワースペクトルを示す。図４（ｂ）及び（ｃ）の縦軸はパワーを示し、横軸は周波数を示す。各部分音声信号のパワースペクトルは、Ｌｏｗ，Ｍｉｄｄｌｅ，Ｈｉｇｈの３つの周波数帯域に分割され、夫々の周波数帯域内で平均パワーが算出される。音声信号が含む複数の部分音声信号の夫々について、順に、パワースペクトルが得られ、各周波数帯域での平均パワーが算出される。

ステップＳ２０５で音声信号の最後まで処理を行っている場合（Ｓ２０５：ＹＥＳ）、又はステップＳ２０６で処理を行った部分音声信号の数が設定値になっている場合（Ｓ２０６：ＹＥＳ）は、ＣＰＵ１１は、Ｌｏｗ，Ｍｉｄｄｌｅ，Ｈｉｇｈの各周波数帯域で、音声信号に含まれる複数の部分音声信号について算出した平均パワーを時間軸上に並べた平均パワー時系列を生成する（Ｓ２０８）。このとき、ＣＰＵ１１は、各部分音声信号の音声信号中での時間的位置に対応させて平均パワーを時間軸上に並べる。例えば、ＣＰＵ１１は、時間軸上において、音声信号中での各部分音声信号の開始位置に平均パワーを位置させる。

図５は、平均パワー時系列の例を示す特性図である。図５（ａ），（ｂ），（ｃ）は夫々Ｌｏｗ，Ｍｉｄｄｌｅ，Ｈｉｇｈの各周波数帯域での平均パワー時系列を示す。図中の縦軸は平均パワーを示し、横軸は時間を示す。このようにして、音声信号中で各周波数帯域の平均パワーが時間的に変動する様子が得られる。これは、低音域、中音域及び高音域の音量が楽曲中で時間的に変動する様子に対応している。

ＣＰＵ１１は、次に、Ｌｏｗ，Ｍｉｄｄｌｅ，Ｈｉｇｈの各周波数帯域の平均パワー時系列に対してＦＦＴを行う（Ｓ２０９）。ＣＰＵ１１は、次に、Ｌｏｗ，Ｍｉｄｄｌｅ，Ｈｉｇｈの各周波数帯域でＦＦＴによって得られたパワースペクトルについて、両対数表示のパワースペクトルの近似直線を算出する（Ｓ２１０）。ここで得られた近似直線は、本発明における近似曲線に相当する。ＣＰＵ１１は、次に、Ｌｏｗ，Ｍｉｄｄｌｅ，Ｈｉｇｈの各周波数帯域で算出した近似直線の傾き及びＹ切片を、音量の周期的な揺らぎを特徴付ける揺らぎデータとして取得する（Ｓ２１１）。ＣＰＵ１１は、取得した揺らぎデータをＲＡＭ１２に記憶し、揺らぎデータ取得処理を終了して処理をメインへ戻す。

図６は、両対数表示のパワースペクトル及び近似直線の例を示す特性図である。図の縦軸は対数パワーを示し、平均パワー時系列のＦＦＴによって得られたパワーを対数スケールで示す。図の横軸は周波数を対数スケールで示す。ＣＰＵ１１は、図６に示す如きパワースペクトルをＬｏｗ，Ｍｉｄｄｌｅ，Ｈｉｇｈの各周波数帯域について求めている。求めた各周波数帯域でのパワースペクトルは、楽曲中で低音域、中音域及び高音域の音量が変動する周波数の分布を示し、各音域での音量の周期的な揺らぎを表す。図６に示す近似直線の傾き及びＹ切片は、本発明における近似曲線のパラメータに相当し、音声信号における音量の周期的な揺らぎを特徴付ける揺らぎデータとなる。

ＣＰＵ１１は、次に、取得した揺らぎデータを用いて、音声信号が表す楽曲のテンポを検出するテンポ検出処理を実行する（Ｓ３）。テンポとは楽曲を演奏する速さのことであり、楽曲中に含まれる一拍の周期又は楽曲中で所定時間中に拍が含まれる数がテンポを表す。通常の楽曲では、低音域の音量がテンポと同じ周期で増減することで拍を刻んでいるので、Ｌｏｗの周波数帯域で求めた図６に示す如きパワースペクトルにおいて、テンポの周期は他よりもパワーの値が大きい成分の周期として現れるはずである。また通常の楽曲では、テンポの周期は０．３〜１ｓの間に含まれることが多い。また楽曲には、一拍を倍にしたリズム又は一拍を２分割若しくは４分割したリズムで音量が変動する音が含まれていることも多い。

図７〜図１０は、テンポ検出処理のサブルーチンでの処理の手順を示すフローチャートである。ＣＰＵ１１は、Ｌｏｗの周波数帯域で平均パワー時系列のＦＦＴによって得られたパワースペクトルを用い、両対数表示のパワースペクトル中の各成分の値と近似直線との差分値を計算し、両対数表示のパワースペクトル中に、周期０．３〜２ｓの範囲において差分値が１．２５以上となる成分があるか否かを判定する（Ｓ３０１）。なお、周期は周波数の逆数である。差分値が１．２５以上である成分がある場合は（Ｓ３０１：ＹＥＳ）、ＣＰＵ１１は、差分値が１．２５以上である成分の内で最も周期が長い成分の周期Ａを取得する（Ｓ３０２）。ＣＰＵ１１は、次に、取得した周期Ａが１．０ｓより大きいか否かを判定する（Ｓ３０３）。Ａが１．０ｓより大きい場合には（Ｓ３０３：ＹＥＳ）、テンポの周期は１ｓ以下であることが多いはずであるので、Ａはテンポの倍の周期であるとして、ＣＰＵ１１は、Ａ／２をテンポの周期とする（Ｓ３０４）。ＣＰＵ１１は、検出したテンポの周期をＲＡＭ１２に記憶し、テンポ検出処理を終了して処理をメインへ戻す。

ステップＳ３０３でＡが１．０ｓ以下である場合には（Ｓ３０３：ＮＯ）、ＣＰＵ１１は、Ａが０．５ｓより小さいか否かを判定する（Ｓ３０５）。Ａが０．５ｓ以上である場合は（Ｓ３０５：ＮＯ）、０．５ｓ≦Ａ≦１ｓであってＡが０．３〜１ｓの間に含まれるので、ＣＰＵ１１は、Ａをテンポの周期とする（Ｓ３０６）。ＣＰＵ１１は、検出したテンポの周期をＲＡＭ１２に記憶し、テンポ検出処理を終了して処理をメインへ戻す。

ステップＳ３０５でＡが０．５ｓより小さい場合は（Ｓ３０５：ＹＥＳ）、ＣＰＵ１１は、両対数表示のパワースペクトル中で周期が（Ａ×４）である成分の差分値が１．０より大きいか否かを判定する（Ｓ３０７）。周期が（Ａ×４）である成分の差分値が１．０より大きい場合は（Ｓ３０７：ＹＥＳ）、（Ａ×２）が０．３〜１ｓの範囲にあって（Ａ×２）の２倍の周期で差分値が大きいので、ＣＰＵ１１は、（Ａ×２）をテンポの周期とする（Ｓ３０８）。ＣＰＵ１１は、検出したテンポの周期をＲＡＭ１２に記憶し、テンポ検出処理を終了して処理をメインへ戻す。ステップＳ３０７で周期が（Ａ×４）である成分の差分値が１．０以下である場合は（Ｓ３０７：ＮＯ）、ＣＰＵ１１は、処理をステップＳ３０６へ進めてＡをテンポの周期とする。

ステップＳ３０１で周期０．３〜２ｓの範囲において差分値が１．２５以上となる成分がない場合は（Ｓ３０１：ＮＯ）、ＣＰＵ１１は、両対数表示のパワースペクトル中に、周期０．３〜２ｓの範囲において差分値が０．７４以上となる成分があるか否かを判定する（Ｓ３０９）。差分値が０．７４以上となる成分がない場合は（Ｓ３０９：ＮＯ）、ＣＰＵ１１は、両対数表示のパワースペクトル中に、周期０．３〜２ｓの範囲において差分値が０．６以上となる成分があるか否かを判定する（Ｓ３１０）。なお、基準となる差分値が小さくなる程、テンポを検出する精度は低下する。

ステップＳ３０９で差分値が０．７４以上となる成分がある場合（Ｓ３０９：ＹＥＳ）、又はステップＳ３１０で差分値が０．６以上となる成分がある場合は（Ｓ３１０：ＹＥＳ）、ＣＰＵ１１は、ステップＳ３０９で差分値が０．７４以上となる成分又はＳ３１０で差分値が０．６以上となる成分を抽出し、抽出した成分の周期の内で最長の周期Ａを取得する（Ｓ３１１）。ＣＰＵ１１は、次に、取得した周期Ａが１．２ｓより大きいか否かを判定する（Ｓ３１２）。Ａが１．２ｓより大きい場合は（Ｓ３１２：ＹＥＳ）、ＣＰＵ１１は、周期が（Ａ／８）である成分の差分値が１．１以上であるか否かを判定する（Ｓ３１３）。周期が（Ａ／８）である成分の差分値が１．１以上である場合は（Ｓ３１３：ＹＥＳ）、（Ａ／４）を２分割した周期で差分値が大きいので、ＣＰＵ１１は、Ａ／４をテンポの周期とする（Ｓ３１５）。ＣＰＵ１１は、検出したテンポの周期をＲＡＭ１２に記憶し、テンポ検出処理を終了して処理をメインへ戻す。

ステップＳ３１３で周期が（Ａ／８）である成分の差分値が１．１より小さい場合は（Ｓ３１３：ＮＯ）、ＣＰＵ１１は、周期０．３ｓ以下の範囲で値が１．２より大きい成分があり、周期（Ａ／４）での成分の値＞周期Ａでの成分の値であり、しかも周期（Ａ／４）での差分値が１．０より大きいという条件が満たされるか否かを判定する（Ｓ３１４）。ステップＳ３１４の条件が満たされる場合は（Ｓ３１４：ＹＥＳ）、Ａ／４はテンポの周期としては小さいものの、周期が小さい範囲で成分の値が大きく、テンポの周期が小さいことが確からしいので、ＣＰＵ１１は、処理をステップＳ３１５へ進めてＡ／４をテンポの周期とする。ステップＳ３１４の条件が満たされない場合は（Ｓ３１４：ＮＯ）、ＣＰＵ１１は、処理をステップＳ３０４へ進めてＡ／２をテンポの周期とする。

ステップＳ３１２でＡが１．２ｓ以下である場合は（Ｓ３１２：ＮＯ）、ＣＰＵ１１は、Ａが１．０ｓより大きいか否かを判定する（Ｓ３１６）。Ａが１．０ｓより大きい場合には（Ｓ３１６：ＹＥＳ）、ＣＰＵ１１は、ステップＳ３０３と同様に、処理をステップＳ３０４へ進めてＡ／２をテンポの周期とする。Ａが１．０ｓ以下である場合は（Ｓ３１６：ＮＯ）、ＣＰＵ１１は、Ａが０．６ｓより大きく、かつ抽出した成分の数が２より多いか否かを判定する（Ｓ３１７）。ステップＳ３１７の条件が満たされた場合は（Ｓ３１７：ＹＥＳ）、ＣＰＵ１１は、周期０．３ｓ〜Ａの範囲において抽出できる成分が二つ以上あり、しかも周期２〜３ｓの範囲において差分値が０．７以上の成分があるという条件が満たされるか否かを判定する（Ｓ３１８）。ステップＳ３１８の条件が満たされない場合は（Ｓ３１８：ＮＯ）、ＣＰＵ１１は、処理をステップＳ３０４へ進めてＡ／２をテンポの周期とする。ステップＳ３１８の条件が満たされる場合は（Ｓ３１８：ＹＥＳ）、ＣＰＵ１１は、差分値が０．７以上である成分の周期の１／４をテンポの周期とする（Ｓ３１９）。ＣＰＵ１１は、検出したテンポの周期をＲＡＭ１２に記憶し、テンポ検出処理を終了して処理をメインへ戻す。

ステップＳ３１７の条件が満たされない場合は（Ｓ３１７：ＮＯ）、ＣＰＵ１１は、Ａが０．６ｓ以上１．０ｓ以下であるか否かを判定する（Ｓ３２０）。Ａが０．６ｓ以上１．０ｓ以下である場合は（Ｓ３２０：ＹＥＳ）、周期（Ａ／４）での差分値が１．１以上であるか否かを判定する（Ｓ３２１）。周期（Ａ／４）での差分値が１．１以上である場合は（Ｓ３２１：ＹＥＳ）、ＣＰＵ１１は、処理をステップＳ３０４へ進めてＡ／２をテンポの周期とする。周期（Ａ／４）での差分値が１．１より小さい場合は（Ｓ３２１：ＮＯ）、ＣＰＵ１１は、処理をステップＳ３０６へ進めてＡをテンポの周期とする。

ステップＳ３２０でＡが０．６ｓより小さい場合は（Ｓ３２０：ＮＯ）、ＣＰＵ１１は、Ａが０．５ｓより小さいか否かを判定する（Ｓ３２２）。Ａが０．５ｓ以上である場合は（Ｓ３２２：ＮＯ）、ＣＰＵ１１は、処理をステップＳ３０６へ進めてＡをテンポの周期とする。Ａが０．５ｓより小さい場合は（Ｓ３２２：ＹＥＳ）、ＣＰＵ１１は、周期０．３〜１ｓの範囲において周期Ａの成分の他に抽出した成分がなく、周期Ａでの差分値が０．９より小さく、周期（Ａ／２）での差分値が１．１より小さいという条件が満たされるか否かを判定する（Ｓ３２３）。ステップＳ３２３の条件が満たされない場合は（Ｓ３２３：ＮＯ）、ＣＰＵ１１は、処理をステップＳ３０６へ進めてＡをテンポの周期とする。ステップＳ３２３の条件が満たされる場合は（Ｓ３２３：ＹＥＳ）、ＣＰＵ１１は、処理をステップＳ３０８へ進めて（Ａ×２）をテンポの周期とする。

ステップＳ３１０で、周期０．３〜２ｓの範囲において差分値が０．６以上となる成分がない場合は（Ｓ３１０：ＮＯ）、ＣＰＵ１１は、両対数表示のパワースペクトル中に、周期３〜４ｓの範囲において差分値が０．６以上となる成分があるか否かを判定する（Ｓ３２４）。差分値が０．６以上となる成分がある場合は（Ｓ３２４：ＹＥＳ）、ＣＰＵ１１は、差分値が０．６以上である成分の内で最も周期が長い成分の周期Ｂを取得し（Ｓ３２５）、Ｂ／４をテンポの周期とする（Ｓ３２６）。ＣＰＵ１１は、検出したテンポの周期をＲＡＭ１２に記憶し、テンポ検出処理を終了して処理をメインへ戻す。

ステップＳ３２４で周期３〜４ｓの範囲において差分値が０．６以上となる成分がない場合は（Ｓ３２４：ＮＯ）、ＣＰＵ１１は、両対数表示のパワースペクトル中に、周期０．１〜０．３ｓの範囲において差分値が０．９以上となる成分があるか否かを判定する（Ｓ３２７）。周期０．１〜０．３ｓの範囲において差分値が０．９以上となる成分がある場合は（Ｓ３２７：ＹＥＳ）、ＣＰＵ１１は、０．３ｓをテンポの周期とする（Ｓ３２８）。ＣＰＵ１１は、検出したテンポの周期をＲＡＭ１２に記憶し、テンポ検出処理を終了して処理をメインへ戻す。

ステップＳ３２７で周期０．１〜０．３ｓの範囲において差分値が０．９以上となる成分がない場合は（Ｓ３２７：ＮＯ）、ＣＰＵ１１は、両対数表示のパワースペクトル中に、周期０．１〜０．３ｓの範囲において差分値が０．７以上となる成分があるか否かを判定する（Ｓ３２９）。差分値が０．７以上となる成分がある場合は（Ｓ３２９：ＹＥＳ）、ＣＰＵ１１は、差分値が０．７以上である成分の周期を４倍した周期をテンポの周期とする（Ｓ３３０）。ＣＰＵ１１は、検出したテンポの周期をＲＡＭ１２に記憶し、テンポ検出処理を終了して処理をメインへ戻す。ステップＳ３２９で周期０．１〜０．３ｓの範囲において差分値が０．７以上となる成分がない場合は（Ｓ３２９：ＮＯ）、ＣＰＵ１１は、１．０ｓをテンポの周期とする（Ｓ３３１）。ＣＰＵ１１は、検出したテンポの周期をＲＡＭ１２に記憶し、テンポ検出処理を終了して処理をメインへ戻す。

ＣＰＵ１１は、次に、音声信号から、人の聴覚に合わせて音声を特徴付けた特性を示すメルケプストラム係数を算出するメルケプストラム係数算出処理を実行する（Ｓ４）。人の聴覚は、低周波数では細かく、高周波数では粗い周波数分解能を持つことが知られている。この周波数分解能は、メル尺度と呼ばれる対数に近い非線形の特性を示す。通常の周波数をｆとして、メル周波数Ｍｅｌ（ｆ）は、下記の式（１）で表される。

メルケプストラム係数は、メル周波数軸上を等間隔に分割した三角窓のフィルタバンクを用い、フィルタバンクの出力を離散コサイン変換することで算出される。低周波数の絶対値が大きくなり、高周波数の絶対値が小さくなる離散コサイン変換を施しているので、メルケプストラム係数は、音声信号の低次成分、即ちスペクトル包絡を示している。音声信号のスペクトル包絡は、音声を特徴付ける音質を表しており、従来、種々の音声認識処理に利用されている。

図１１は、メルケプストラム係数算出処理のサブルーチンでの処理の手順を示すフローチャートである。ＣＰＵ１１は、取得した音声信号中でＦＦＴを開始する開始位置を決定し（Ｓ４１）、決定した開始位置から一定の時間長さに亘る部分音声信号に対してＦＦＴを行う（Ｓ４２）。ＣＰＵ１１は、次に、ＦＦＴによって生成される部分音声信号のパワースペクトルに対して、メル周波数軸上に等間隔に配置された三角窓のフィルタバンク出力を計算する（Ｓ４３）。ここで、ωを通常の周波数、ｋを１，…，Ｋの自然数、ｋ番目の三角窓のフィルタの下限，中心，上限の周波数を夫々ω_lo（ｋ），ω_c （ｋ），ω_hi（ｋ）とし、パワースペクトルでのパワーの値をＹ（ω）とすると、各三角窓のフィルタ出力ｍ（ｋ）は、下記の式（２）で表される。

図１２は、フィルタバンク出力を求める処理の内容を説明する説明図である。図１２（ａ）は部分音声信号のパワースペクトルを示し、図１２（ｂ）はメル周波数軸上に等間隔に配置された三角窓のフィルタバンクを示し、横軸は共に通常の周波数を示している。図１２の縦軸はパワーを示し、図１２（ａ）では式（２）中のＹ（ω）に対応し、図１２（ｂ）では式（２）中のＷ（ω；ｋ）に対応する。フィルタバンク中の隣接するフィルタ間では、ω_c （ｋ）はメル周波数軸上に等間隔に配置され、また、図１２（ｂ）に示す如く、ω_c（ｋ）＝ω_hi（ｋ−１）＝ω_lo（ｋ＋１）の関係が成り立っている。フィルタバンク中のフィルタの数Ｋ、最初のフィルタの下限の周波数ω_lo（１）、及び最後のフィルタの上限の周波数ω_hi（Ｋ）は予め設定してある。例えば、Ｋ＝４０、ω_lo（１）＝１６６（Ｈｚ）、ω_hi（Ｋ）＝７０００（Ｈｚ）とすると、隣接するフィルタ間の間隔はメル周波数軸上で約６１．５６となる。ＣＰＵ１１は、式（２）で表されるように、図１２（ａ）に示す如きパワースペクトルの値と図１２（ｂ）に示す如き三角窓のフィルタとから、式（２）に基づいて、フィルタバンク出力ｍ（１），…，ｍ（Ｋ）を計算する。

ＣＰＵ１１は、次に、計算したフィルタバンク出力ｍ（１），…，ｍ（Ｋ）の離散コサイン変換を行うことにより、所定の次数までのメルケプストラム係数を計算する（Ｓ４４）。ＣＰＵ１１は、次に、音声信号の最後までメルケプストラム係数を計算する処理を実行したか否かを判定する（Ｓ４５）。まだ音声信号の最後まで処理を行っていない場合は（Ｓ４５：ＮＯ）、ＣＰＵ１１は、メルケプストラム係数を計算する処理を行った部分音声信号の数が、予め定めてある設定値になったか否かを判定する（Ｓ４６）。処理を行った部分音声信号の数がまだ設定値になっていない場合は（Ｓ４６：ＮＯ）、ＣＰＵ１１は、音声信号中でのＦＦＴの開始位置を、時間が経過する方向に所定の時間長さシフトさせる（Ｓ４７）。ＣＰＵ１１は、次に、処理をステップＳ４２へ戻して、新たな開始位置から部分音声信号に対してＦＦＴを行い、ステップＳ４２〜Ｓ４７で開始位置をシフトしながら部分音声信号のＦＦＴ及びメルケプストラム係数の計算を繰り返す。

ステップＳ４５で音声信号の最後まで処理を行っている場合（Ｓ４５：ＹＥＳ）、又はステップＳ４６で処理を行った部分音声信号の数が設定値になっている場合（Ｓ４６：ＹＥＳ）は、ＣＰＵ１１は、各部分音声信号から計算した所定の次数までのメルケプストラム係数を、部分音声信号間で平均することにより、音声信号のメルケプストラム係数を算出する（Ｓ４８）。本実施の形態では、１次及び２次のメルケプストラム係数を算出する。ＣＰＵ１１は、算出したメルケプストラム係数をＲＡＭ１２に記憶し、メルケプストラム係数算出処理を終了して処理をメインへ戻す。

ＣＰＵ１１は、次に、揺らぎデータ及びメルケプストラム係数を入力されて特定の印象の度合いを示す印象値を出力するように学習された階層型ニューラルネットワークを用いて、音声信号について求めた揺らぎデータ及びメルケプストラム係数を、楽曲から人間が受ける特定の印象の度合いを示す印象値へ変換する印象値変換処理を実行する（Ｓ５）。

図１３は、階層型ニューラルネットワークを示す模式図である。階層型ニューラルネットワークはＮ層からなり、各層にはＬ_n 個（ｎ＝１，…，Ｎ）のニューロンが含まれている。第１層は入力層であり、各ニューロンにデータが入力され、各ニューロンは入力されたデータに重みを付けて第２層の各ニューロンへ入力する。第ｎ層（ｎ＝２，…，Ｎ−１）は中間層であり、各ニューロンは、第ｎ−１層から入力されたデータの和に閾値処理を行い、重みを付けて第ｎ＋１層のニューロンへ入力する。第Ｎ層は出力層であり、各ニューロンは、第Ｎ−１層から入力されたデータの和に閾値処理を行い、出力を行う。

本発明で利用する階層型ニューラルネットワークは、誤差逆伝播学習法を用いて学習されている。以下に、階層型ニューラルネットワークを学習させる方法を説明する。テスト用の音声信号から得られた揺らぎデータ及び／又はメルケプストラム係数を入力信号とし、テスト用の音声信号が表す楽曲から人間が受ける特定の印象の度合いを多段階で示す印象値を教師信号とする。各ニューロンの重みの初期値を乱数によって−０．１〜０．１程度の範囲の小さな値に設定する。更に学習率η（０＜η≦１）を設定する。

入力信号Ｘ_i （ｉ＝１，…，Ｌ₁ ）を階層型ニューラルネットワークの入力層へ入力し、各層でニューロンでの計算を行い、出力層からの出力を得る。出力層の出力ｏｕｔ_j ^N （ｊ＝１，…，Ｌ_N ）と教師信号ｙ_j との誤差から、出力層での学習則δ_j ^N を計算する。具体的には、下記の（３）式を用いてδ_j ^N を計算する。

第ｎ−１層ｉ番目のニューロンと第ｎ層ｊ番目のニューロンとの間の重みをｗ_j,i ^n,n-1 とし、第ｎ層ｊ番目のニューロンにおける値をｏｕｔ_j ⁿ として、第ｎ層ｊ番目のニューロンにおける誤差δ_j ⁿ を、計算したδ_j ^N を用いてｎ＝Ｎ−１からｎ＝１まで順に計算する。具体的には、下記の（４）式を用いてδ_j ⁿを計算する。

計算した誤差δ_j ⁿ を用いて、各ニューロンの重みｗ_j,i ^n,n-1 の変化量Δｗ_j,i ^n,n-1 を計算する。具体的には、下記の（５）式を用いてΔｗ_j,i ^n,n-1 を計算する。

計算したΔｗ_j,i ^n,n-1 をｗ_j,i ^n,n-1 に加算することにより、新たな重みｗ_j,i ^n,n-1 を計算する。テスト用の音声信号から得られる出力と教師信号との２乗誤差が十分小さくなるまで重みｗ_j,i ^n,n-1の計算を繰り返し、階層型ニューラルネットワークの学習を行う。

コンピュータプログラム１４１は、入力された揺らぎデータ及びメルケプストラム係数を変換して印象値を出力するように予め学習された階層型ニューラルネットワークを実行するためのプログラムを含んでいる。本実施の形態においては、楽曲から人間が受ける「透明度」の印象の度合いを示す印象値と、楽曲から人間が受ける「明るさ」の印象の度合いを示す印象値と、楽曲から人間が受ける「激しさ」の印象の度合いを示す印象値との夫々を出力する３種類の階層型ニューラルネットワークを用いる。「透明度」の印象値を出力する階層型ニューラルネットワークは、ステップＳ４で算出した１次及び２次のメルケプストラム係数を入力されて透明度の印象の度合いを多段階の数値で示す１個の印象値を出力する２入力１出力の階層型ニューラルネットワークである。また「明るさ」の印象値を出力する階層型ニューラルネットワークと「激しさ」の印象値を出力する階層型ニューラルネットワークとは、ステップＳ２で取得したＬｏｗ，Ｍｉｄｄｌｅ，Ｈｉｇｈの各周波数帯域で算出した近似直線の傾き及びＹ切片である６個の揺らぎデータ並びにステップＳ４で算出した１次及び２次の２個のメルケプストラム係数を入力されて「明るさ」と「激しさ」との印象の度合いを多段階の数値で示す１個の印象値を出力する８入力１出力の階層型ニューラルネットワークである。各階層型ニューラルネットワークは、各印象値を０〜１の範囲の数値で出力するように学習されている。

図１４は、印象値変換処理のサブルーチンでの処理の手順を示すフローチャートである。ＣＰＵ１１は、ステップＳ２で取得した６個の揺らぎデータ及びステップＳ４で算出した２個のメルケプストラム係数を、例えば０〜１の範囲に正規化する（Ｓ５１）。ＣＰＵ１１は、次に、「透明度」の印象の度合いを示す印象値を出力する階層型ニューラルネットワークへ正規化したメルケプストラム係数を入力し、階層型ニューラルネットワークの処理を行い、「透明度」の印象の度合いを示す印象値を求める（Ｓ５２）。ＣＰＵ１１は、次に、「明るさ」の印象の度合いを示す印象値を出力する階層型ニューラルネットワークへ正規化した揺らぎデータ及びメルケプストラム係数を入力し、階層型ニューラルネットワークの処理を行い、「明るさ」の印象の度合いを示す印象値を求める（Ｓ５３）。ＣＰＵ１１は、次に、「激しさ」の印象の度合いを示す印象値を出力する階層型ニューラルネットワークへ正規化した揺らぎデータ及びメルケプストラム係数を入力し、階層型ニューラルネットワークの処理を行い、「激しさ」の印象の度合いを示す印象値を求める（Ｓ５４）。ＣＰＵ１１は、求めた「透明度」、「明るさ」及び「激しさ」の印象の度合いを示す印象値をＲＡＭ１２に記憶し、印象値変換処理を終了して処理をメインへ戻す。

ＣＰＵ１１は、次に、ステップＳ５で求めた「激しさ」の印象の度合いを示す印象値を用いて、ステップＳ３で検出した楽曲のテンポを補正するテンポ補正処理を実行する（Ｓ６）。図１５は、テンポ補正処理のサブルーチンでの処理の手順を示すフローチャートである。ここで、楽曲中で１分間に拍が含まれる数ｂｐｍ（beat per minute ）でテンポを表す。テンポの周期０．３ｓは２００ｂｐｍに対応し、周期１ｓは６０ｂｐｍに対応する。また印象値は、０〜１の範囲の数値となっている。

ＣＰＵ１１は、激しさの印象値が０．５５より大きいか否かを判定する（Ｓ６０１）。激しさの印象値が０．５５より大きい場合は（Ｓ６０１：ＹＥＳ）、ＣＰＵ１１は、テンポが７５ｂｐｍ以下であるか否かを判定する（Ｓ６０２）。テンポが７５ｂｐｍ以下である場合は（Ｓ６０２：ＹＥＳ）、激しさが大きいのにテンポが小さいのは不自然であるので、テンポはより大きいはずであるとして、ＣＰＵ１１は、ＲＡＭ１２に記憶しているテンポを２倍にする補正を行う（Ｓ６０３）。ＣＰＵ１１は、次に、テンポ補正処理を終了して処理をメインへ戻す。

ステップＳ６０１で激しさの印象値が０．５５以下である場合（Ｓ６０１：ＮＯ）、又はステップＳ６０２でテンポが７５ｂｐｍより大きい場合は（Ｓ６０２：ＮＯ）、ＣＰＵ１１は、激しさの印象値が０．４７以下であるか否かを判定する（Ｓ６０４）。激しさの印象値が０．４７以下である場合は（Ｓ６０４：ＹＥＳ）、ＣＰＵ１１は、テンポが１３０ｂｐｍ以上であるか否かを判定する（Ｓ６０５）。テンポが１３０ｂｐｍ以上である場合は（Ｓ６０５：ＹＥＳ）、激しさが小さいのにテンポが大きいのは不自然であるので、テンポはより小さいはずであるとして、ＣＰＵ１１は、テンポを１／２にする補正を行う（Ｓ６０６）。ＣＰＵ１１は、次に、テンポ補正処理を終了して処理をメインへ戻す。

ステップＳ６０４で激しさの印象値が０．４７より大きい場合（Ｓ６０４：ＮＯ）、又はステップＳ６０５でテンポが１３０ｂｐｍより小さい場合は（Ｓ６０５：ＮＯ）、ＣＰＵ１１は、激しさの印象値が０．５１以下であるか否かを判定する（Ｓ６０７）。激しさの印象値が０．５１以下である場合は（Ｓ６０７：ＹＥＳ）、ＣＰＵ１１は、テンポが１５０ｂｐｍ以上であるか否かを判定する（Ｓ６０８）。テンポが１５０ｂｐｍ以上である場合は（Ｓ６０８：ＹＥＳ）、ＣＰＵ１１は、処理をステップＳ６０６へ進める。

ステップＳ６０７で激しさの印象値が０．５１より大きい場合（Ｓ６０７：ＮＯ）、又はステップＳ６０８でテンポが１５０ｂｐｍより小さい場合は（Ｓ６０８：ＮＯ）、ＣＰＵ１１は、激しさの印象値が０．５９以下であるか否かを判定する（Ｓ６０９）。激しさの印象値が０．５９より大きい場合は（Ｓ６０９：ＮＯ）、ＣＰＵ１１は、テンポを変更せずにテンポ補正処理を終了して処理をメインへ戻す。激しさの印象値が０．５９以下である場合は（Ｓ６０９：ＹＥＳ）、ＣＰＵ１１は、テンポが１８０ｂｐｍ以上であるか否かを判定する（Ｓ６１０）。テンポが１８０ｂｐｍ以上である場合は（Ｓ６１０：ＹＥＳ）、ＣＰＵ１１は、処理をステップＳ６０６へ進める。テンポが１５０ｂｐｍより小さい場合は（Ｓ６１０：ＮＯ）、ＣＰＵ１１は、テンポを変更せずにテンポ補正処理を終了して処理をメインへ戻す。

ＣＰＵ１１は、次に、音声信号から得られた３種類の印象値及びテンポを、音声信号の基になった楽曲データに関連付け、印象値及びテンポを楽曲データに関連づけることによって楽曲データを分類した分類情報を記憶部１４に記憶させる（Ｓ７）。ＣＰＵ１１は、以上で楽曲分類方法の処理を終了する。楽曲分類装置１は、以上の楽曲分類方法の処理を、記憶部１４で記憶している夫々の楽曲データについて実行する。

図１６は、記憶部１４が記憶する分類情報の内容例を示す概念図である。分類情報には、楽曲データ名が記録されており、テンポと、透明度、明るさ及び激しさの夫々の印象値とが楽曲データ名に関連付けて数値で記録されている。楽曲データは、楽曲の特徴を示すテンポ及び印象値が関連付けられることによって、特徴で分類される。

更に記憶部１４は、楽曲データをいくつかの項目に分類するために、各項目に楽曲データの特徴を対応付けた対応情報を記憶している。図１７は、対応情報の内容例を示す概念図である。ノリノリ系、癒し系及びゆったり系等の項目に対して、テンポ及び印象値の具体的な数値の範囲が設定されている。例えば、ノリノリ系の項目については、テンポが大きく、明るさ及び激しさの印象値の値が大きく設定されている。またゆったり系の項目については、テンポが小さく、透明度及び明るさの印象値の値が中程度で、激しさの印象値の値が小さく設定されている。図１６に示した曲Ａ．ｍｐ３の楽曲データは、ゆったり系に分類され、曲Ｂ．ｍｐ３の楽曲データはノリノリ系に分類されることとなる。

楽曲分類装置１は、記憶部１４で記憶している以上の楽曲データ、分類情報及び対応情報を楽曲再生装置２へ送信する処理を行う。ＣＰＵ１１は、ＲＡＭ１２にロードされたコンピュータプログラム１４１に従って、インタフェース部１７に楽曲データ、分類情報及び対応情報を楽曲再生装置２へ送信させる処理を実行する。楽曲再生装置２は、楽曲分類装置１から送信された楽曲データ、分類情報及び対応情報をインタフェース部２７で受信し、制御部２１は、受信した楽曲データ、分類情報及び対応情報を記憶部２２に記憶させる。使用者は、インタフェース部２７に接続されたケーブルを取り外し、楽曲再生装置２を携帯して使用する。

楽曲再生装置２は、記憶部２２で記憶する複数の楽曲データから所望の楽曲データを検索する際に、楽曲の特徴に基づいて楽曲データを検索することができる。使用者が操作部２３を操作して検索の指示が楽曲再生装置２に入力された場合は、制御部２１は、対応情報に記録されている項目名の一覧を表示部２８に表示させる。使用者は、操作部２３を操作して、ノリノリ系、癒し系及びゆったり系等の項目の中からいずれかの項目を選択する。制御部２１は、記憶部２２で記憶している楽曲データの内、分類情報に記憶されているテンポ及び印象値の値が、選択された項目について対応情報に設定されているテンポ及び印象値の数値の範囲に該当する楽曲データを抽出する。制御部２１は、抽出した楽曲データの名称を表示部２８に表示させ、使用者は、名称が表示された楽曲データの中から所望の楽曲データを選択することができる。使用者が操作部２３を操作して楽曲データが指定された場合は、制御部２１は、指定された楽曲データを記憶部２２から読み出し、データ処理部２４に楽曲データをデコードさせ、出力部２５に音声を出力させる。このようにして、使用者は、楽曲から受ける印象に基づいて楽曲データを検索し、楽曲を聴くことができる。

次に、本発明を用いて楽曲データを分類するシミュレーションの結果を説明する。図１８は、学習された階層型ニューラルネットワークによるテスト曲に対する印象値の出力と、テスト曲に対する印象値の人による評価との分布を示す分布図である。図１８（ａ）は明るさの印象値の分布を示し、図１８（ｂ）は透明度の印象値の分布を示し、図１８（ｃ）は激しさの印象値の分布を示す。各図の縦軸は印象値を示し、横軸はテスト曲の夫々に対応する曲番号を示す。また図中には、階層型ニューラルネットワークによる出力を白抜き菱形印で示し、人による印象値の評価値を矩形状の塗り潰し領域で示している。図中に示すように、人による印象値の評価値は、複数の段階に量子化されている。

図１８に示すシミュレーションの結果から、学習された階層型ニューラルネットワークによる出力と、印象値の人による評価値との平均二乗誤差を計算した。平均二乗誤差は、下記の（６）式を用いて計算した。

また、平均二乗誤差をより分かり易い値に変換した写像精度を計算した。写像精度は下記の（７）式を用いて計算した。

写像精度は、平均二乗誤差が（０．０６７）² 以下であれば１００％となり、平均二乗誤差が（０．３）²以下であれば０％となる。０．０６７は、人による印象値の評価値を量子化する際の量子化誤差に基づいており、０．３は、実用上問題ないと判断した分布の射影精度が９０％となるように調整して定めた値である。

図１９は、学習された階層型ニューラルネットワークによる出力と印象値の人による評価値との誤差を本発明と従来技術とで比較した図表である。図１９（ａ）は、本発明のシミュレーションによって、メルケプストラム係数を用いて階層型ニューラルネットワークから得た出力と人による印象値の評価値との誤差を示す。図１９（ｂ）は、特許文献１に開示された如き従来技術のシミュレーションによって、階層型ニューラルネットワークから得た出力と人による印象値の評価値との誤差を示す。本発明によるシミュレーション結果では、従来技術によるシミュレーション結果に比べて、いずれの印象値においても平均二乗誤差が小さくなっている。また本発明によるシミュレーション結果では、実用上問題がない程度まで写像精度が向上している。従って、本発明では、楽曲分類装置１が求めた印象値が示す楽曲の印象と実際に楽曲を聴いた使用者が楽曲から感じる印象との間のずれが従来技術に比べて小さくなり、実際の印象により合致した印象値で楽曲データを分類できることが明らかである。

以上詳述した如く、本発明においては、楽曲の音声を表した音声信号からメルケプストラム係数を求め、メルケプストラム係数を入力されて「透明度」の印象値を出力するように学習された階層型ニューラルネットワークを用いて、メルケプストラム係数を、楽曲から人間が受ける「透明度」の印象の度合いを示す印象値へ変換する。楽曲を特徴付ける音質を表すメルケプストラム係数から印象値を求めることにより、従来技術に比べて、実際に楽曲を聴いた使用者が楽曲から感じる印象と求めた印象値が示す楽曲の印象とのずれが小さくなる。従って、使用者が楽曲から感じる印象で楽曲データが分類され、使用者は、好みに応じた所望の印象を感じられる楽曲をより正確に検索して聴くことが可能となる。

また本発明においては、Ｌｏｗ，Ｍｉｄｄｌｅ，Ｈｉｇｈの各周波数帯域において平均パワー時系列のパワースペクトルを求め、両対数表示のパワースペクトルの近似直線の傾き及びＹ切片を、各周波数帯域で音量が変動する周波数の分布を示す揺らぎデータとして取得する。揺らぎデータ及びメルケプストラム係数を入力されて「明るさ」及び「激しさ」の印象値を出力するように学習された階層型ニューラルネットワークを用いて、揺らぎデータ及びメルケプストラム係数を、「明るさ」及び「激しさ」の印象の度合いを示す印象値へ変換する。音量の周期的な揺らぎを特徴付ける揺らぎデータ及びメルケプストラム係数から印象値を求めることにより、揺らぎデータから印象値を求める従来技術に比べて、実際に楽曲を聴いた使用者が楽曲から感じる印象と求めた印象値が示す楽曲の印象とのずれが小さくなる。

また本発明においては、平均パワー時系列のパワースペクトルと近似直線との差分値に基づいて、楽曲のテンポを求める。周期０．３〜２ｓの範囲において所定値以上の差分値を有する成分の周期Ａに基づき、テンポの周期が０．３〜１ｓの範囲に入るように、またテンポの周期の倍又は半分の周期におけるパワースペクトルの成分が十分な値であるように、テンポの周期を、Ａ／４、Ａ／２、Ａ又はＡ×２等とする。また本発明においては、「激しさ」の印象の度合いを示す印象値の大きさに応じて、印象値が大きい場合にはテンポも早くなり、印象値が小さい場合にはテンポも遅くなるように、テンポを補正する。実際の印象とのずれが小さい印象値に基づいてテンポを補正するので、より精度よく楽曲のテンポを判別することが可能となる。

なお、本実施の形態に示した楽曲分類方法では、楽曲データをサンプリングした音声信号のＦＦＴを行う処理を、ステップＳ２の揺らぎデータ取得処理とステップＳ４のメルケプストラム係数算出処理とで個別に行うアルゴリズムを示したが、本発明の楽曲分類方法では、ＦＦＴの処理をまとめて行うアルゴリズムで処理を行ってもよい。また本実施の形態においては、印象値を求めるために１次及び２次のメルケプストラム係数を用いる形態を示したが、本発明の楽曲分類方法では、３次以上の次数のメルケプストラム係数を用いる形態であってもよい。

また本実施の形態においては、楽曲分類装置１は汎用コンピュータを用いてなり、ＣＰＵ１１がコンピュータプログラム１４１に従って動作することによって本発明の楽曲分類方法の処理をソフトウェアで実現する形態を示したが、これに限るものではなく、本発明の楽曲分類装置１は、本発明の楽曲分類方法の処理の一部又は全部をハードウェアで実現する形態であってもよい。例えば、楽曲分類装置１は、サンプリングにより音声信号を取得する処理、音声信号に対してＦＦＴを行う処理、又は階層型ニューラルネットワークの処理等の処理を専門に実行するハードウェアを備え、ＣＰＵ１１がコンピュータプログラム１４１に従って実行する処理とハードウェアが実行する処理とを組み合わせて本発明の楽曲分類方法の処理を実現する形態であってもよい。

また本実施の形態においては、楽曲再生装置２は、楽曲のテンポ及び印象値を対応付けた項目を利用して楽曲データを検索する形態を示したが、これに限るものではなく、楽曲再生装置２は、楽曲のテンポ又は印象値の値を指定して楽曲データを検索する形態であってもよい。更に本実施の形態においては、楽曲分類装置１は、記憶部１４で予め記憶している楽曲データに対して本発明の楽曲分類方法の処理を実行する形態を示したが、本発明の楽曲分類装置１は、これに限るものではなく、ＣＤ等の記録媒体からデータを読み込んで楽曲データを生成する処理を行う際に、本発明の楽曲分類方法の処理を実行する形態であってもよい。

本発明の楽曲分類装置及び楽曲再生装置の構成を示すブロック図である。ＣＰＵが本発明において実行する処理の手順を示すフローチャートである。揺らぎデータ取得処理のサブルーチンでの処理の手順を示すフローチャートである。部分音声信号のＦＦＴを繰り返した結果の例を示す説明図である。平均パワー時系列の例を示す特性図である。両対数表示のパワースペクトル及び近似直線の例を示す特性図である。テンポ検出処理のサブルーチンでの処理の手順を示すフローチャートである。テンポ検出処理のサブルーチンでの処理の手順を示すフローチャートである。テンポ検出処理のサブルーチンでの処理の手順を示すフローチャートである。テンポ検出処理のサブルーチンでの処理の手順を示すフローチャートである。メルケプストラム係数算出処理のサブルーチンでの処理の手順を示すフローチャートである。フィルタバンク出力を求める処理の内容を説明する説明図である。階層型ニューラルネットワークを示す模式図である。印象値変換処理のサブルーチンでの処理の手順を示すフローチャートである。テンポ補正処理のサブルーチンでの処理の手順を示すフローチャートである。記憶部が記憶する分類情報の内容例を示す概念図である。対応情報の内容例を示す概念図である。学習された階層型ニューラルネットワークによるテスト曲に対する印象値の出力と、テスト曲に対する印象値の人による評価との分布を示す分布図である。学習された階層型ニューラルネットワークによる出力と印象値の人による評価値との誤差を本発明と従来技術とで比較した図表である。

符号の説明

１楽曲分類装置
１１ＣＰＵ
１２ＲＡＭ
１３ドライブ部
１４記憶部
１４１コンピュータプログラム
１５入力部
１６表示部
１７インタフェース部
１８通信部
２楽曲再生装置
２１制御部
２２記憶部
２３操作部
２４データ処理部
２５出力部
２６ヘッドフォン
２７インタフェース部
２８表示部

Claims

楽曲の特徴を示すデータを生成する生成ステップと、該生成ステップで生成したデータを、楽曲から人間が受ける特定の印象の度合いを示す印象値へ変換する変換ステップと、楽曲データに印象値を関連付けることによって楽曲データを分類するステップとを含む楽曲分類方法において、
前記生成ステップは、
楽曲の音声を表した音声信号を分割した複数の部分音声信号に対して高速フーリエ変換（ＦＦＴ）を行うことによって、前記複数の部分音声信号のパワースペクトルを求めるＦＦＴ処理ステップと、
求めたパワースペクトルから、前記複数の部分音声信号の夫々についてメルケプストラム係数を計算するステップと、
計算した前記複数の部分音声信号のメルケプストラム係数を平均することによって、前記音声信号のメルケプストラム係数を求めるステップと、
前記音声信号に含まれる複数の部分音声信号の夫々について、前記ＦＦＴ処理ステップで求めたパワースペクトルにおける所定周波数帯域のパワーを平均した平均パワーを算出するステップと、
算出した平均パワーを各部分音声信号の前記音声信号中での時間的位置に対応させて時間軸上に並べた平均パワー時系列を求めるステップと、
求めた平均パワー時系列のＦＦＴを行うことによって、平均パワー時系列のパワースペクトルを求めるステップと、
求めた平均パワー時系列のパワースペクトルを所定の曲線で近似した近似曲線を求めるステップと、
求めた近似曲線のパラメータを、前記音声信号における音量の周期的な揺らぎを特徴付ける揺らぎデータとして求めるステップとを含み、
前記変換ステップは、
メルケプストラム係数を入力されて特定の印象の度合いを示す印象値を出力するように学習された階層型ニューラルネットワークを用いて、前記生成ステップで求めたメルケプストラム係数を印象値へ変換するステップと、
揺らぎデータ及びメルケプストラム係数を入力されて特定の印象の度合いを示す印象値を出力するように学習された階層型ニューラルネットワークを用いて、前記生成ステップで求めた前記音声信号の揺らぎデータ及びメルケプストラム係数を、楽曲から人間が受ける激しさの印象の度合いを特定範囲内の数値で示した激しさの印象値を含む印象値へ変換するステップとを含み、
更に、
前記生成ステップで前記音声信号から求めた前記平均パワー時系列のパワースペクトル及び前記近似曲線の差分を求めるステップと、
前記差分の大きさが所定値以上である成分の周期の内で所定の周期範囲内で最も長い周期に基づいて、楽曲のテンポを求めるステップと、
前記変換ステップで得られた前記激しさの印象値が所定値より大きく、求めたテンポが所定値以下である場合に、テンポの値を増大させ、前記激しさの印象値が所定値以下であり、求めたテンポが所定値以上である場合に、テンポの値を減少させることにより、求めたテンポを補正するステップと、
補正したテンポを楽曲データに関連付けるステップと
を含むことを特徴とする楽曲分類方法。
楽曲の特徴を示すデータを生成する生成手段と、該生成手段が生成したデータを、楽曲から人間が受ける特定の印象の度合いを示す印象値へ変換する変換手段と、楽曲データに印象値を関連付けることによって楽曲データを分類して記憶する記憶手段とを備える楽曲分類装置において、
前記生成手段は、
楽曲の音声を表した音声信号を分割した複数の部分音声信号に対して高速フーリエ変換（ＦＦＴ）を行うことによって、前記複数の部分音声信号のパワースペクトルを求めるＦＦＴ処理手段と、
求めたパワースペクトルから、前記複数の部分音声信号の夫々についてメルケプストラム係数を計算する手段と、
計算した前記複数の部分音声信号のメルケプストラム係数を平均することによって、特徴データとして前記音声信号のメルケプストラム係数を求める手段と、
前記音声信号に含まれる複数の部分音声信号の夫々について、前記ＦＦＴ処理手段が求めたパワースペクトルにおける所定周波数帯域のパワーを平均した平均パワーを算出する手段と、
該手段が算出した平均パワーを各部分音声信号の前記音声信号中での時間的位置に対応させて時間軸上に並べた平均パワー時系列を求める手段と、
該手段が求めた平均パワー時系列のＦＦＴを行うことによって、平均パワー時系列のパワースペクトルを求める手段と、
該手段が求めた平均パワー時系列のパワースペクトルを所定の曲線で近似した近似曲線を求める手段と、
該手段が求めた近似曲線のパラメータを、前記音声信号における音量の周期的な揺らぎを特徴付ける揺らぎデータとして求める手段とを有し、
前記変換手段は、
メルケプストラム係数を入力されて特定の印象の度合いを示す印象値を出力するように学習された階層型ニューラルネットワークを用いて、前記生成手段で求めたメルケプストラム係数を印象値へ変換する手段と、
揺らぎデータ及びメルケプストラム係数を入力されて特定の印象の度合いを示す印象値を出力するように学習された階層型ニューラルネットワークを用いて、前記生成手段で求めた前記音声信号の揺らぎデータ及びメルケプストラム係数を、楽曲から人間が受ける激しさの印象の度合いを特定範囲内の数値で示した激しさの印象値を含む印象値へ変換する手段とを有し、
更に、
前記生成手段が前記音声信号から求めた前記平均パワー時系列のパワースペクトル及び前記近似曲線の差分を求める手段と、
前記差分の大きさが所定値以上である成分の周期の内で所定の周期範囲内で最も長い周期に基づいて、楽曲のテンポを求める手段と、
前記変換手段により得られた前記激しさの印象値が所定値より大きく、求めたテンポが所定値以下である場合に、テンポの値を増大させ、前記激しさの印象値が所定値以下であり、求めたテンポが所定値以上である場合に、テンポの値を減少させることにより、求めたテンポを補正するテンポ補正手段とを備え、
前記記憶手段は、
前記テンポ補正手段が補正したテンポを関連付けて楽曲データを記憶する手段を有すること
を特徴とする楽曲分類装置。
コンピュータに、楽曲の特徴を示すデータを生成させ、生成したデータを、楽曲から人間が受ける特定の印象の度合いを示す印象値へ変換させるコンピュータプログラムにおいて、
コンピュータに、楽曲の音声を表した音声信号を分割した複数の部分音声信号に対して高速フーリエ変換（ＦＦＴ）を行うことによって、前記複数の部分音声信号のパワースペクトルを求めさせる手順と、
コンピュータに、求めたパワースペクトルから、前記複数の部分音声信号の夫々についてメルケプストラム係数を計算させる手順と、
コンピュータに、計算した前記複数の部分音声信号のメルケプストラム係数を平均することによって、前記音声信号のメルケプストラム係数を求めさせる手順と、
コンピュータに、前記音声信号に含まれる複数の部分音声信号の夫々について、求めたパワースペクトルにおける所定周波数帯域のパワーを平均した平均パワーを算出させる手順と、
コンピュータに、算出した平均パワーを各部分音声信号の前記音声信号中での時間的位置に対応させて時間軸上に並べた平均パワー時系列を求めさせる手順と、
コンピュータに、求めた平均パワー時系列のＦＦＴを行うことによって、平均パワー時系列のパワースペクトルを求めさせる手順と、
コンピュータに、求めた平均パワー時系列のパワースペクトルを所定の曲線で近似した近似曲線を求めさせる手順と、
コンピュータに、求めた近似曲線のパラメータを、前記音声信号における音量の周期的な揺らぎを特徴付ける揺らぎデータとして求めさせる手順と、
コンピュータに、メルケプストラム係数を入力されて特定の印象の度合いを示す印象値を出力するように学習された階層型ニューラルネットワークに対して、求めたメルケプストラム係数を入力して、出力される印象値を取得させる手順と、
コンピュータに、揺らぎデータ及びメルケプストラム係数を入力されて、楽曲から人間が受ける激しさの印象の度合いを特定範囲内の数値で示した激しさの印象値を含む印象値を出力するように学習された階層型ニューラルネットワークに対して、求めた前記音声信号の揺らぎデータ及びメルケプストラム係数を入力して、激しさの印象値を含む印象値を取得させる手順と、
コンピュータに、前記音声信号から求めた前記平均パワー時系列のパワースペクトル及び前記近似曲線の差分を求めさせる手順と、
コンピュータに、前記差分の大きさが所定値以上である成分の周期の内で所定の周期範囲内で最も長い周期に基づいて、楽曲のテンポを求めさせる手順と、
コンピュータに、激しさの印象値が所定値より大きく、求めたテンポが所定値以下である場合に、テンポの値を増大させ、前記激しさの印象値が所定値以下であり、求めたテンポが所定値以上である場合に、テンポの値を減少させることにより、求めたテンポを補正させる手順と
を含むことを特徴とするコンピュータプログラム。