JP4930608B2 - 音響信号分析装置、音響信号分析方法及び音響信号分析プログラム - Google Patents

音響信号分析装置、音響信号分析方法及び音響信号分析プログラム Download PDF

Info

Publication number
JP4930608B2
JP4930608B2 JP2010023988A JP2010023988A JP4930608B2 JP 4930608 B2 JP4930608 B2 JP 4930608B2 JP 2010023988 A JP2010023988 A JP 2010023988A JP 2010023988 A JP2010023988 A JP 2010023988A JP 4930608 B2 JP4930608 B2 JP 4930608B2
Authority
JP
Japan
Prior art keywords
frequency
acoustic signal
component
stable
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010023988A
Other languages
English (en)
Other versions
JP2010152381A (ja
Inventor
一郎 宍戸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JVCKenwood Corp
Original Assignee
JVCKenwood Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JVCKenwood Corp filed Critical JVCKenwood Corp
Priority to JP2010023988A priority Critical patent/JP4930608B2/ja
Publication of JP2010152381A publication Critical patent/JP2010152381A/ja
Application granted granted Critical
Publication of JP4930608B2 publication Critical patent/JP4930608B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Auxiliary Devices For Music (AREA)
  • Electrophonic Musical Instruments (AREA)

Description

本発明は、楽曲の記録された音響信号から楽曲の特徴を抽出する音響信号分析装置、音
響信号分析方法及び音響信号分析プログラムに関する。
近年、音声圧縮技術の進展や大容量記憶装置の普及を背景にして、デジタル化された楽
曲データをコンピュータ等に記憶格納することが広く行われるようになっている。
このような状況下において従来、特許文献1及び2に示されたように、音響信号から曲
調情報を生成し、曲調情報に同期させて照明装置、空調装置、玩具等を制御する装置が提
案されている。また、特許文献3に示されたように、楽曲の音響信号を分析して曲の雰囲
気やジャンルを判定し楽曲検索を行う装置も提案されている。
特開2004−163767号公報 特開2003−228387号公報 特開2004−185432号公報
楽曲や楽器の音色を表現する時に、「分厚い音」、「薄っぺらな音」というような表現
が頻繁に用いられることからも分かるように、音の厚みは楽曲の雰囲気を決める重要なフ
ァクターである。しかしながら、上記特許文献1乃至3においては、音響信号から音圧、
ビート和音などの情報を抽出しているものの、音の厚みを直接反映する特徴量を精度良く
抽出してはいなかった。
特許文献1においては、音響信号からCメジャー、Cマイナー等の和音(コード名)を
検出している他に、基音と倍音の強度比を計算している。基音と倍音の強度比を音の厚み
を表す1つの特徴量として利用することは可能と考えられるが、複数の楽器が混在した一
般的な楽曲の音響信号の周波数スペクトルは非常に複雑であり、このような音響信号から
基音と倍音を十分な精度で分離する技術は現状では確立されているとは言えない。
すなわち、特許文献1で述べられている基音と倍音の強度比は、音の厚みを表現する特
徴量としては、実用上必ずしも適していなかった。
また、楽曲の中で打楽器等が発音している部分においては、幅広い周波数帯域の強度が
上がり、見かけ上の倍音強度が非常に大きくなるが、聴感的にはこのような場所での音の
厚みはあまり感じられない。打楽器等が発音しているタイミングの前後では周波数スペク
トルが大きく変動するため、音響信号の中から周波数スペクトルが一定時間以上安定して
いる場所を探すことにより、このような打楽器の影響を低減することが可能であるが、特
許文献1乃至3では、周波数スペクトルの時間的な安定性を判定する手段、方法を有して
いなかった。
従って、特許文献1に示された方法では、十分な精度で音の厚みに関わる特徴量を検出
することができなかった。
特許文献2においては、音像の定位感、音の高低である高調感、音圧レベルを検出して
楽曲の高揚感を判定している。しかしながら、これらの特徴量は音の厚みと無関係ではな
いものの、聴感的な音の厚みを直接表す指標ではなかった。また上述したように、周波数
スペクトルの時間的安定性を判定する手段、方法を持っていなかった。
特許文献3においては、特許文献1と同様に和音(コード名)を検出しているが、音の
厚みに関する特徴量は検出していなかった。
そこで本発明は、楽曲の雰囲気に大きな影響を持つ音の厚みを直接反映する特徴量を精
度良く生成することができる音響信号分析装置、音響信号分析方法及び音響信号分析プロ
グラムを提供することを目的とする。特に、打楽器等による影響を低減して精度良く特徴
量を生成することができる音響信号分析装置、音響信号分析方法及び音響信号分析プログ
ラムを提供することを目的とする。
また、音響信号から基音と倍音を分離することなく、少ない処理量で音の厚みを直接反
映する特徴量を生成することができる音響信号分析装置、音響信号分析方法及び音響信号
分析プログラムを提供することを目的とする。
そこで、上記課題を解決するために本発明は以下の装置、方法、プログラムを提供するものである。
(1) 楽曲に係る音響信号から前記楽曲の特徴を抽出する音響信号分析装置であって、
前記音響信号を周波数分析して、時間と周波数と成分強度とを対応させた各要素で構成される周波数成分データを生成する周波数分析手段と、
前記周波数成分データから前記成分強度が所定の値以上の要素を有効要素として検出し、前記周波数成分データの中で所定の時間内に同一の周波数の前記有効要素が所定の数以上存在する領域を安定成分として検出する安定成分検出手段と、
所定の区間における前記安定成分の強度の総和または前記安定成分の個数に基づいて前記所定の区間での音の厚みを表す特徴量を生成する特徴量生成手段とを備え、
前記安定成分検出手段は、前記有効要素であるか否かの判定対象となる要素と同じ周波数、または前記同じ周波数の近傍の周波数に対応する他の要素の成分強度を時間方向に加算した値を用いて、前記所定の値を算出する、
ことを特徴とする音響信号分析装置。
(2) 前記安定成分検出手段は、前記有効要素であるか否かの判定対象となる要素と同じ周波数、または前記同じ周波数の近傍の周波数に対応する他の要素の成分強度を時間方向に加算した値を用いて、成分強度の平均値を算出し、その平均値に所定係数を乗じた値を前記所定の値として算出する、
ことを特徴とする上記(1)に記載の音響信号分析装置。
(3) 前記安定成分検出手段は、前記有効要素であるか否かの判定対象となる要素と時間的に近傍の他の要素であり、かつ前記判定対象となる要素と同じ周波数、または前記同じ周波数の近傍の周波数に対応する他の要素の成分強度を時間方向に加算した値を用いて、前記所定の値を算出する、
ことを特徴とする上記(1)または(2)に記載の音響信号分析装置。
(4) 前記周波数分析手段は、周波数軸上に等間隔に存在する周波数、または平均律音階に対応した周波数、または平均律音階の半音よりも更に細かく分割された周波数のうちのいずれかの周波数に対応させた前記各要素を生成する、
ことを特徴とする上記(1)〜(3)のいずれか一項に記載の音響信号分析装置。
(5) 前記特徴量生成手段は、前記所定の区間における前記安定成分の個数、または前記安定成分の個数を前記周波数データを構成する要素における周波数の種類の数で割った値、または前記安定成分の個数を前記周波数データを構成する要素における周波数の種類の数と前記所定の区間の長さとの積で割った値を前記特徴量とする、
ことを特徴とする上記(1)〜(4)のいずれか一項に記載の音響信号分析装置。
(6) 前記特徴量生成手段は、前記所定の区間における前記安定成分の強度の総和、または前記安定成分の強度の総和を前記周波数データを構成する要素における周波数の種類の数で割った値、または前記安定成分の強度の総和を前記周波数データを構成する要素における周波数の種類の数と前記所定の区間の長さとの積で割った値を前記特徴量とする、
ことを特徴とする上記(1)〜(4)のいずれか一項に記載の音響信号分析装置。
(7) 前記特徴量生成手段は、時間方向に平滑化する処理を行って前記特徴量を生成する、
ことを特徴とする上記(1)〜(6)のいずれか一項に記載の音響信号分析装置。
(8) 楽曲に係る音響信号から前記楽曲の特徴を抽出する音響信号分析装置が実行する音響信号分析方法であって、
前記音響信号を周波数分析して、時間と周波数と成分強度とを対応させた各要素で構成される周波数成分データを生成する周波数分析ステップと、
前記周波数成分データから前記成分強度が所定の値以上の要素を有効要素として検出し、前記周波数成分データの中で所定の時間内に同一の周波数の前記有効要素が所定の数以上存在する領域を安定成分として検出する安定成分検出ステップと、
所定の区間における前記安定成分の強度の総和または前記安定成分の個数に基づいて前記所定の区間での音の厚みを表す特徴量を生成する特徴量生成ステップとを備え、
前記安定成分検出ステップは、前記有効要素であるか否かの判定対象となる要素と同じ周波数、または前記同じ周波数の近傍の周波数に対応する他の要素の成分強度を時間方向に加算した値を用いて、前記所定の値を算出する、
ことを特徴とする音響信号分析方法。
(9) 前記安定成分検出ステップは、前記有効要素であるか否かの判定対象となる要素と同じ周波数、または前記同じ周波数の近傍の周波数に対応する他の要素の成分強度を時間方向に加算した値を用いて、成分強度の平均値を算出し、その平均値に所定係数を乗じた値を前記所定の値として算出する、
ことを特徴とする上記(8)に記載の音響信号分析方法。
(10) 前記安定成分検出ステップは、前記有効要素であるか否かの判定対象となる要素と時間的に近傍の他の要素であり、かつ前記判定対象となる要素と同じ周波数、または前記同じ周波数の近傍の周波数に対応する他の要素の成分強度を時間方向に加算した値を用いて、前記所定の値を算出する、
ことを特徴とする上記(8)または(9)に記載の音響信号分析方法。
(11) 前記周波数分析ステップは、周波数軸上に等間隔に存在する周波数、または平均律音階に対応した周波数、または平均律音階の半音よりも更に細かく分割された周波数のうちのいずれかの周波数に対応させた前記各要素を生成する、
ことを特徴とする上記(8)〜(10)のいずれか一項に記載の音響信号分析方法。
(12) 前記特徴量生成ステップは、前記所定の区間における前記安定成分の個数、または前記安定成分の個数を前記周波数データを構成する要素における周波数の種類の数で割った値、または前記安定成分の個数を前記周波数データを構成する要素における周波数の種類の数と前記所定の区間の長さとの積で割った値を前記特徴量とする、
ことを特徴とする上記(8)〜(11)のいずれか一項に記載の音響信号分析方法。
(13) 前記特徴量生成ステップは、前記所定の区間における前記安定成分の強度の総和、または前記安定成分の強度の総和を前記周波数データを構成する要素における周波数の種類の数で割った値、または前記安定成分の強度の総和を前記周波数データを構成する要素における周波数の種類の数と前記所定の区間の長さとの積で割った値を前記特徴量とする、
ことを特徴とする上記(8)〜(11)のいずれか一項に記載の音響信号分析方法。
(14) 前記特徴量生成ステップは、時間方向に平滑化する処理を行って前記特徴量を生成する、
ことを特徴とする上記(8)〜(13)のいずれか一項に記載の音響信号分析方法。
(15) 楽曲に係る音響信号から前記楽曲の特徴を抽出する音響信号分析プログラムであって、
前記音響信号を周波数分析して、時間と周波数と成分強度とを対応させた各要素で構成される周波数成分データを生成する周波数分析ステップと、
前記周波数成分データから前記成分強度が所定の値以上の要素を有効要素として検出し、前記周波数成分データの中で所定の時間内に同一の周波数の前記有効要素が所定の数以上存在する領域を安定成分として検出する安定成分検出ステップと、
所定の区間における前記安定成分の強度の総和または前記安定成分の個数に基づいて前記所定の区間での音の厚みを表す特徴量を生成する特徴量生成ステップとをコンピュータに実行させ、
前記安定成分検出ステップは、前記有効要素であるか否かの判定対象となる要素と同じ周波数、または前記同じ周波数の近傍の周波数に対応する他の要素の成分強度を時間方向に加算した値を用いて、前記所定の値を算出する、
ことを特徴とする音響信号分析プログラム。
(16) 前記安定成分検出ステップは、前記有効要素であるか否かの判定対象となる要素と同じ周波数、または前記同じ周波数の近傍の周波数に対応する他の要素の成分強度を時間方向に加算した値を用いて、成分強度の平均値を算出し、その平均値に所定係数を乗じた値を前記所定の値として算出する、
ことを特徴とする上記(15)に記載の音響信号分析プログラム。
(17) 前記安定成分検出ステップは、前記有効要素であるか否かの判定対象となる要素と時間的に近傍の他の要素であり、かつ前記判定対象となる要素と同じ周波数、または前記同じ周波数の近傍の周波数に対応する他の要素の成分強度を時間方向に加算した値を用いて、前記所定の値を算出する、
ことを特徴とする上記(15)または(16)に記載の音響信号分析プログラム。
(18) 前記周波数分析ステップは、周波数軸上に等間隔に存在する周波数、または平均律音階に対応した周波数、または平均律音階の半音よりも更に細かく分割された周波数のうちのいずれかの周波数に対応させた前記各要素を生成する、
ことを特徴とする上記(15)〜(17)のいずれか一項に記載の音響信号分析プログラム。
(19) 前記特徴量生成ステップは、前記所定の区間における前記安定成分の個数、または前記安定成分の個数を前記周波数データを構成する要素における周波数の種類の数で割った値、または前記安定成分の個数を前記周波数データを構成する要素における周波数の種類の数と前記所定の区間の長さとの積で割った値を前記特徴量とする、
ことを特徴とする上記(15)〜(18)のいずれか一項に記載の音響信号分析プログラム。
(20) 前記特徴量生成ステップは、前記所定の区間における前記安定成分の強度の総和、または前記安定成分の強度の総和を前記周波数データを構成する要素における周波数の種類の数で割った値、または前記安定成分の強度の総和を前記周波数データを構成する要素における周波数の種類の数と前記所定の区間の長さとの積で割った値を前記特徴量とする、
ことを特徴とする上記(15)〜(18)のいずれか一項に記載の音響信号分析プログラム。
(21) 前記特徴量生成ステップは、時間方向に平滑化する処理を行って前記特徴量を生成する、
ことを特徴とする上記(15)〜(20)のいずれか一項に記載の音響信号分析プログラム。
本発明の音響信号分析装置、音響信号分析方法及び音響信号分析プログラムによれば、
有音程楽器が発音されていて一定の周波数が安定的に持続している場所と、打楽器等が発
音されていて一定の周波数が安定的に持続しない場所とを識別し、有音程楽器の時間的に
安定した周波数成分の個数または成分強度の総和を計算して音の厚みを表す特徴量を生成
するので、楽曲の雰囲気を決める大きなファクターである音の厚み感を直接反映し、聴感
的な音の厚み感に適合した特徴量を精度良く生成することができる。また、楽音の基音と
倍音を識別分離しない方式で処理を行うため、比較的少ない処理量で特徴量を生成するこ
とができ、音響信号分析装置を低コスト化することが可能である。また、演算処理能力の
小さなコンピュータでも実行可能である。
本発明の実施例1及び実施例2の音響信号分析装置の構成を示すブロック図である。 図1の周波数分析部の処理フローを示すフローチャートである。 図1の周波数分析部におけるフレーム作成動作を示す図である。 図1の周波数分析部における周波数成分計算動作で使用するフィルタ群の特性を示す図である。 図1の周波数分析部で生成された行列データの特性を示す模式図である。 実施例1における図1の安定成分検出部の処理フローを示すフローチャートである。 実施例1における図1の安定成分検出部のデータ格納形式を示す図である。 実施例1における図1の特徴量生成部の処理フローを示すフローチャートである。 実施例2における図1の安定成分検出部の処理フローを示すフローチャートである。 実施例2における図1の安定成分検出部のデータ格納形式を示す図である。 実施例2における図1の特徴量生成部の処理フローを示すフローチャートである。
以下、本発明の実施の形態を図面を参照して説明する。
(実施例1)
本発明の音響信号分析装置、音響信号分析方法及び音響信号分析プログラムの実施例1
を図1乃至図8に基づいて説明する。図1は本発明の実施例1の音響信号分析装置の構成
を示すブロック図、図2は図1の周波数分析部の処理フローを示すフローチャート、図3
は図1の周波数分析部におけるフレーム作成動作を示す図、図4は図1の周波数分析部に
おける周波数成分計算動作で使用するフィルタ群の特性を示す図、図5は図1の周波数分
析部で生成された行列データの特性を示す模式図、図6は実施例1における図1の安定成
分検出部の処理フローを示すフローチャート、図7は実施例1における図1の安定成分検
出部のデータ格納形式を示す図、図8は実施例1における図1の特徴量生成部の処理フロ
ーを示すフローチャートである。
図1に示すように、音響信号分析装置1は、音響信号入力部11と、A/D変換器11
bと、周波数分析部12と、安定成分検出部13と、安定成分メモリ13bと、特徴量生
成部14と、演算処理回路11a〜14aとを備える。
音響信号入力部11には楽曲が記録された音響信号が入力される。A/D変換器11b
は、音響信号入力部11に入力される音響信号がアナログ信号である場合に音響信号をA
/D変換する。
周波数分析部12は、音響信号を複数の周波数のバンドに分割して、所定時間周期での
各バンドの成分強度を要素とする行列データを生成する。
安定成分検出部13は、周波数分析部12で生成された行列データから成分強度が所定
の値以上の要素を有効要素として検出し、行列データの中で前記時間周期の複数分に相当
する時間内に前記有効要素が所定の数以上存在する領域を安定成分として検出する。安定
成分メモリ13bは、安定成分検出部13で検出された安定成分の情報を格納する。
特徴量生成部14は、安定成分メモリ13bを参照し、所定の区間における安定成分の
強度の総和または安定成分の個数を使って前記区間での音の厚みを表す特徴量を生成する
演算処理回路11a〜14aは、装置各部をそれぞれ演算及び制御する。
次に、実施例1の音響信号分析装置1の動作及び音響信号分析方法を説明する。
まず、音響信号入力部11において、入力される音響信号がアナログ信号である場合に
は、演算処理回路11aは、A/D変換器11bに対して所定のサンプリング周波数Fs
でデジタル化させるように制御する。また、入力される音響信号がデジタル信号の場合に
は、サンプリング周波数が所定の値Fsとなるようにレート変換を行う。音響信号入力部
11でデジタル化されたデータを以下では音響データx[m](m=0〜L−1、Lは音
響データの総数)と表す。
次に、周波数分析部12では、演算処理回路12aは、音響信号入力部11にて所定の
サンプリングレートにデジタル化された音響データを対象にして周波数分析を行い、所定
の時間周期毎に各バンドの成分強度を計算し、成分強度を行列要素とする行列データを作
成する。
本実施例では、周波数分析の方法として公知のSTFT(Short-time Fourier Transfo
rm)を用いるが、これに限定するわけでなく、ウェーブレット変換やフィルターバンクな
どを用いても良い。
ここで、周波数分析部12の処理フローを図2に示すフローチャートに基づいて説明す
る。本実施例では、音響データを固定長のフレームに分割し、フレーム単位での処理を行
う。以下では、フレーム長をN、フレームシフト長をSとする。フレームシフト長Sが時
間周期に相当する。フレームの総数Mは、(数式1)に従って求まる。ここでfloor
関数は小数点以下を切り捨てた整数を返す関数である。
Figure 0004930608
まず、ステップS110では、演算処理回路12aは、フレーム番号を示す制御変数i
を0にセットする。
次に、ステップS120では、演算処理回路12aは、i番目のフレームを作成する。
すなわち図3に示すように、音響データの先頭からi×S個オフセットされた位置からN
個のデータを切り出し、これに(数式2)に示すように窓関数wを乗じて、i番目のフレ
ームデータy[i][n](n=0〜N−1)を作成する。
Figure 0004930608
窓関数としては例えば、(数式3)に示すハミング窓を用いれば良い。また、この他に
も、方形窓、ハニング窓、ブラックマン窓などを用いても良い。
Figure 0004930608
次に、ステップS130では、演算処理回路12aは、(数式4)に従ってi番目のフ
レームの離散フーリエ変換(DFT)を計算する。
Figure 0004930608
次に、ステップS140では、演算処理回路12aは、ステップS130で得られた複
素系列a[i][k](k=0〜N−1)の実数部Re{a[i][k]}と虚数部Im
{a[i][k]}を使って、(数式5)または(数式6)に従って、i番目のフレーム
のスペクトル系列b[i][k](k=0〜N/2−1)を計算する。
Figure 0004930608
Figure 0004930608
次に、ステップS150では、演算処理回路12aは、DFTの結果からフレームi、
バンドqの周波数成分c[i][q](q=0〜Q−1、Qはバンド数)を計算する。こ
こで、ステップS150における計算方法としては、以下の3つがある。
周波数成分を計算する第1の方法は、(数式7)に従ってスペクトル系列b[i][k
]の一部、または全部をc[i][q]に対応させる方法である。ここで、λは0以上の
所定の整数であり、バンドの最低周波数を決めるパラメータである。また、バンド数Qは
(N/2−λ)以下である所定の値に設定する。第1の方法は計算量が最も少なく簡便で
ある。
Figure 0004930608
周波数成分を計算する第2の方法は、(数式8)に従って平均律音階に対応した周波数
成分を求める方法である。
Figure 0004930608
ここで、Fsは音響信号入力部11におけるサンプリング周波数であり、Frは平均律
音階の基準となる周波数である。例えば、「中央のラの音」を440Hzとして、これよ
りも4オクターブ低い音を平均律音階の基準とした場合、Fr=27.5Hzとなる。
また、Vは1オクターブの音階を何個のバンドに分割するかを決める定数である。例え
ば1オクターブを12個のバンドに分割する場合はV=12とすれば良い。また、Vの値
をこれより大きくして平均律音階の半音よりも更に細かいバンドに分割しても良い。また
、関数Rは入力値に最も近い整数を出力する関数である。また、K1及びK2は、バンド
の最低周波数(最低音階)及び最高周波数(最高音階)を決める定数であり、μはバンド
を表わす引数qの最小値を0とするための定数である。同一値のqに対応するkの個数分
だけスペクトル系列b[i][k]を加算して周波数成分c[i][q]を求める。
第2の方法は第1の方法に比べて、楽曲の音楽的な特徴をより反映した周波数成分を計
算することができる。
周波数成分を計算する第3の方法は、(数式9)に従って平均律音階に対応した周波数
成分を求める方法である。
Figure 0004930608
ここで、z[q][k](q=0〜Q−1、k=0〜N/2−1)は、図4に示すよう
な帯域特性を持つフィルタ群であり、各フィルタの中心周波数は、平均律音階の周波数に
対応している。
図4に示した一例では、平均律音階のC1音程をバンド0に対応させて、以降半音ごと
に1つのバンドに対応させて、最後にB6音程をバンドQ−1に対応させている。図4(
a)に示すz[0][k]はC1(ド)に対応した周波数を通過させるフィルタであり、
図4(b)に示すz[1][k]はそれより半音高いC#1(ド#)に対応した周波数を
通過させるフィルタを示している。
スペクトル系列b[i][k]は周波数軸上に等間隔に存在するのに対して、平均律音
階は高音部になるほど隣り合った半音間の周波数間隔が広がるので、フィルタ群z[q]
[k]の中心周波数もそれに対応して、高音部ほど隣り合った中心周波数の間隔が広くな
っている。例えば、図4(a)に示すz[0][k]と図4(b)に示すz[1][k]
の中心周波数の差よりも図4(c)に示すz[Q−2][k]と図4(d)に示すz[Q
−1][k]の中心周波数の差の方が大きい。
また、各フィルタの帯域幅も同様に、高音部ほど広くなっている。例えば、図4(d)
に示すZ[Q−1][k]の帯域幅は、図4(a)に示すz[0][k]の帯域幅よりも
広い。
また、図4に示した例では平均律の半音に一致したバンドであるが、平均律音階の半音
を更に細かく分割するようなバンドを得るようにしても良い。
第3の方法は、第2の方法に比べて更に精度良く平均律音階に対応した周波数を求める
ことができる。
図2の説明に戻ると、次にステップS160において、演算処理回路12aは、フレー
ム番号を示す制御変数iの値を1増やす。
次に、ステップS170では、演算処理回路12aは、フレーム番号を示す制御変数i
の値がフレーム総数Mより小さいか否かチェックする。フレーム総数Mより小さい(YE
S)時は、ステップS120に戻り処理を繰り返す。フレーム総数M以上である(NO)
時は、すべてのフレームについて処理を行ったことになるので、処理を終了する。
以上の処理が終了した時点で、周波数分析部12には、周波数成分c[i][q](フ
レームi=0〜M−1、バンドq=0〜Q−1)が行列形式で形成格納されており、安定
成分検出部13が利用できるようになっている。
ここで、本発明の音響信号分析装置1が生成する特徴量について説明する。人間が楽曲
や音楽を聞いて感じる音の厚みの度合いには、様々な要因が関係しているが、以下の2つ
の要因が大きく影響している。
(1)同時に発音されている音数(音符数、基音の数)
(2)個々の音に含まれる倍音成分
(1)は、いわゆるハーモニーに関わり、楽譜で表現可能な事項である。通常、同時に
発音されている音数(音符数、基音の数)が多いほど「音が厚い」と感じられる。
(2)は楽器の音色に関わり、楽譜では表現できない事項である。通常、個々の音に含
まれる倍音成分が多いほど「音が厚い」と感じられる。
上記2つの要因は別々のものであるので、2つの要因を一度分離した後に総合的な音の
厚み感を計算する方法が考えられる。しかしながら、複数かつ不特定の種類の楽器が混在
している一般的な楽曲の音響信号から基音を認識することは難しく、上記2つの要因を無
理に分離することは実用的でない。
そこで本発明では、上記2つの要因を分離せずに音の厚み感を表す特徴量を計算する。
このため、比較的少ない計算量で特徴量が得られる。
図5は図1の周波数分析部12で生成された行列データの特性を示す模式図である。図
5ではフレームを横軸、バンドを縦軸に示しており、黒い部分(C部においては斜線部を
含む)が成分強度の強い要素を示している。一般的な楽曲には一定の音程を接続して発音
する有音程楽器が含まれているので、おおよそ水平方向の線分が多く存在する。
この水平方向の線分には、基音に相当するものと倍音に相当するものが混在しており、
どれが基音で、どれが倍音であるかを判別することは難しい。
一方で、例えばA部とB部とを比較した場合に、水平方向の線分の数が多いA部の方が
、聴感的に音が厚く感じられる部分である確率が高い。
また、楽曲の中で明確な音程を持たない打楽器が発音されているような箇所や一部の楽
器の発音開始箇所では、C部に示すように、幅広い帯域で成分強度の強い要素が存在する
。このような部分は、見かけ上の倍音成分が非常に強くなるが、聴感的には音の厚みはそ
れ程感じられない。
そこで、安定成分検出部13及び特徴量生成部14においては、打楽器等の影響を受け
にくいようにして、有音程楽器の時間的に安定した周波数成分の個数または成分強度の総
和を計算して特徴量を生成する。
次に、安定成分検出部13の処理フローについて、図6に示すフローチャートに基づい
て説明する。安定成分検出部13では、周波数分析部12に格納されている周波数成分c
[i][q](i=0〜M−1、q=0〜Q−1)を読み出して処理を行う。
まず、ステップS210では、演算処理回路13aは、探索を開始するフレーム番号を
表す制御変数pを0にセットする。
次に、ステップS220では、演算処理回路13aは、バンドを表す制御変数qを安定
成分の対象となる最小のバンドQ1(Q1は0以上Q未満の定数)にセットする。
次に、ステップS230では、演算処理回路13aは、後述する条件に合致する周波数
成分を有効成分としてカウントするための変数rを0にセットする。
次に、ステップS240では、演算処理回路13aは、フレーム番号を表す制御変数i
をpの値にセットする。
次に、ステップS250では、演算処理回路13aは、周波数成分c[i][q]が有
効な成分であるか否かチェックする。有効な成分である(YES)と判定した時は、ステ
ップS260に進み、有効な成分でない(NO)と判定した時は、ステップS270に進
む。ステップS250で有効な成分を判定する具体的な方法としては、以下に説明する5
つの方法のいずれか又は適当な組合せを用いれば良い。
有効な成分を判定する第1の方法は、(数式10)を用いて、c[i][q]がしきい
値α[q]以上である場合に有効な成分と判定する方法である。
Figure 0004930608
ここで、しきい値α[q]は、後述する方法で決めれば良い。
有効な成分を判定する第2の方法は、(数式11)を用いる方法である。これは、前述
した(数式10)の条件に加えて、バンドq(中心バンドと呼ぶ)と同一時間の周波数成
分であり、かつバンドqの近傍の周波数バンド(近傍バンドと呼ぶ)に属するいくつかの
周波数成分を特定して、これら周波数成分の総和に一定比率γを乗じた値よりもバンドq
の周波数成分c[i][q]の方が大きい場合に有効成分とするという条件を加えている
。すなわち、ある周波数成分が所定の値以上であり、かつその周波数成分がその近傍の周
波数成分の総和に所定の比率を乗じた値よりも大きい場合に、その周波数成分を有効成分
と判定することになる。なお(数式11)では、フレームiの周波数成分のみを用いて総
和を計算しているが、これに限定される訳ではなく、例えば、フレームiの近傍のフレー
ムを含めて総和を計算しても良い。
Figure 0004930608
ここで、G1、G2、γは定数である。また、しきい値α[q]は、後述する方法で決
めれば良い。この方法は、一般に有音程楽器が発音されている時には、その音程のバンド
の成分が隣接したバンドの成分よりも強く、打楽器等が発音されている時には隣接したバ
ンドの成分との差が小さい、といった性質を利用している。
すなわち、(数式11)の2項目の条件は、図5に示すA及びBの部分では真となるが
、Cの部分では偽となり、打楽器等が発音している部分を安定成分に含めない作用を持っ
ている。定数G1、G2は、各バンド間の周波数差に応じて決めれば良い。一般的な楽曲
では、半音違いの音程で2つの有音程楽器が発音されることはあまり多くないのに対して
、打楽器等が発音される場合には半音違う周波数成分も同時に強いことが多い。従って、
中心バンドの強度が中心バンドと半音〜2半音周波数の異なる隣接バンドの強度よりある
程度大きい場合に有音程楽器が発音されているものと判定できる。このためには、中心バ
ンドと近傍バンドの周波数差が平均律音階の1半音あるいは2半音に相当し、近傍バンド
の片側帯域幅が平均律音階の1半音あるいは2半音に相当するように、G1及びG2を設
定すれば良い。例えば、各バンドを平均律音階の各半音に対応させた場合は、G1=1〜
2、G2=1〜3程度にするのが適当である。もちろん、この値に限定されるわけでない
有効な成分を判定する第3の方法は(数式12)を用いる方法である。有効な成分を判
定する第2の方法と考え方は同様であるが、バンドqの近傍のバンドに属する周波数成分
から特定した周波数成分の総和ではなく、バンドqの近傍のバンドに属する周波数成分か
ら特定した周波数成分の最大値を用いている。すなわち、ある周波数成分が所定の値以上
であり、かつその周波数成分がその近傍の周波数成分の最大値に所定の比率を乗じた値よ
りも大きい場合に、その周波数成分を有効成分と判定することになる。なお(数式12)
では、フレームiの周波数成分のみを用いて最大値を計算しているが、これに限定される
訳ではなく、例えば、フレームiの近傍のフレームを含めて最大値を計算しても良い。
Figure 0004930608
有効な成分を判定する第4の方法は、(数式13)を用いる方法である。これは、前述
した(数式10)の条件に加えて、バンドqと同一時間の周波数成分であって、かつバン
ドqの周波数バンドと倍音関係にある周波数バンド(倍音バンド)に属する周波数成分を
特定し、更に倍音バンドに属する周波数成分の近傍の周波数成分からいくつかの周波数成
分を特定して、これら周波数成分の総和に一定比率を乗じた値よりも倍音バンドに属する
周波数成分の方が大きい場合にc[i][q]を有効成分とする方法である。すなわち、
ある周波数成分が所定の値以上であり、かつその周波数成分と倍音関係にある倍音成分の
値が、倍音成分の近傍の周波数成分の総和に所定の比率を乗じた値よりも大きい場合に、
その周波数成分を有効成分と判定することになる。
Figure 0004930608
ここで関数h(d,q)は、バンドqのd倍の周波数(d倍音)に相当するバンド番号
を返す関数である。これは、前述した(数式10)の条件に加えて、バンドqのd倍音に
相当するバンド(dqバンドと呼ぶ)の周波数成分からdqバンドの近傍のバンドの周波
数成分の総和を引いた値に比率η[d]を乗じた値をd=2〜D(Dは2以上の定数)と
して加算した値が0より大きい場合に有効成分とするという条件を加えている。
また、G3、G4はG1、G2と同様に各バンド間の周波数差により決まる定数である
。また、しきい値α[q]は、後述する方法で決めれば良い。
この方法は、一般に有音程楽器が発音されている時には、倍音構造が存在し、基音の整
数倍の周波数を持つ倍音バンドの成分が、周波数的に倍音バンドの近傍にあるバンド(倍
音近傍バンドと呼ぶ)の成分よりも強いのに対して、打楽器等が発音されている時には、
明確な倍音構造は存在しないため、倍音バンドと倍音近傍バンドとの成分の強度に関して
そのような条件が成立し難い、といった性質を利用している。すなわち、(数式13)の
2項目の条件は、図5に示すA及びBの部分では真となるが、Cの部分では偽となり、打
楽器等が発音している部分を安定成分に含めない作用を持っている。なお(数式13)で
は、フレームiの周波数成分のみを用いて総和を計算しているが、これに限定される訳で
はなく、例えば、フレームiの近傍のフレームを含めて総和を計算しても良い。
有効な成分を判定する第5の方法は、(数式14)を用いる方法である。これは、有効
成分を判定する第4の方法と似ているが、倍音近傍バンドの周波数成分の総和ではなく、
倍音近傍バンドの周波数成分の最大値を用いる。すなわち、ある周波数成分が所定の値以
上であり、かつその周波数成分と倍音関係にある倍音成分の値が、倍音成分の近傍の周波
数成分の最大値に所定の比率を乗じた値よりも大きい場合に、その周波数成分を有効成分
と判定することになる。
なお(数式14)では、フレームiの周波数成分のみを用いて最大値を計算しているが
、これに限定される訳ではなく、例えば、フレームiの近傍のフレームを含めて最大値を
計算しても良い。
Figure 0004930608
更には、上述した5つの方法を適宜組み合わせて有効な成分を判定しても良い。例えば
、第2の方法と第4の方法を組み合わせて、(数式11)を満たし、なおかつ(数式13
)を満たす場合にのみ有効な成分と判定しても良い。すなわちこの場合は、ある周波数成
分が所定の値以上であり、かつその周波数成分がその近傍の周波数成分の総和に所定の比
率を乗じた値よりも大きく、かつその周波数成分と倍音関係にある倍音成分の値が倍音成
分の近傍の周波数成分の総和に所定の比率を乗じた値よりも大きい場合に、その周波数成
分を有効成分と判定することになる。この場合は、第2の方法または第4の方法を単独で
用いる場合に比べて、前述したような打楽器等による影響を更に低減することができ、聴
感的な音の厚みを表わす特徴量を更に精度良く計算することができる。
また、別の一例としては、第3の方法と第5の方法を組み合わせて、(数式12)を満
たし、なおかつ(数式14)を満たす場合にのみ有効な成分と判定しても良い。すなわち
この場合は、ある周波数成分が所定の値以上であり、かつその周波数成分がその近傍の周
波数成分の最大値に所定の比率を乗じた値よりも大きく、かつその周波数成分と倍音関係
にある倍音成分の値が倍音成分の近傍の周波数成分の最大値に所定の比率を乗じた値より
も大きい場合に、その周波数成分を有効成分と判定することになる。この場合は、第3の
方法または第5の方法を単独で用いる場合に比べて、前述したような打楽器等による影響
を更に低減することができ、聴感的な音の厚みを表わす特徴量を更に精度良く計算するこ
とができる。
また、これ以外の方法を組み合わせて有効な成分を判定しても良い。
次に、上述した(数式10)〜(数式14)におけるしきい値α[q]を決める方法に
ついて説明する。
しきい値α[q]を決める第1の方法は、あらかじめ設定した定数にする方法である。
この方法は安定成分検出部13における演算量が最も少なく簡便である。なお、上述した
有効成分を判定する方法において第2〜第5の方法を使用する場合は、しきい値α[q]
を比較的小さな値(極端な場合は「0」)にして、有効成分の判定におけるしきい値α[
q]の影響力が小さくなるように設定することも可能である。
しきい値α[q]を決める第2の方法は、(数式15)で示すように、全フレーム(M
個)のバンド毎の周波数成分の平均値を用いる方法である。
Figure 0004930608
ここで、βはあらかじめ設定されている定数である。第2の方法は楽曲毎の音響信号の
大きさのバラツキに影響されにくい特長を持っている。
しきい値α[q]を決める第3の方法は、(数式16)に示すように、i番目のフレー
ムの近傍のフレームでのバンド毎の周波数成分の平均値を用いる方法である。
Figure 0004930608
ここで、φ(i)はi番目のフレームの近傍に属するフレームの集合を表し、Hは近傍
フレームの数(H<M)であり、βはあらかじめ設定されている定数である。第3の方法
は、1つの楽曲の中で音響信号の強度が大きく変化している場合で、なおかつ信号強度の
変化を処理結果に反映させたくない場合に適している。
しきい値α[q]を決める第4の方法は、(数式17)に示すように、複数のバンドに
渡る周波数成分の平均値を用いる方法である。ここで、δは平均値の算出に用いるバンド
数を決めるパラメータである。
Figure 0004930608
図6の説明に戻って、ステップS260では、演算処理回路13aは、有効成分をカウ
ントするための変数rの値を1増やす。
次に、ステップS270では、演算処理回路13aは、制御変数iの値を1増やす。
次に、ステップS280では、演算処理回路13aは、制御変数iの値が(p+U)未
満であるか否か判定し、(p+U)未満である(YES)時は、ステップS250に戻っ
て処理を繰り返す。ここでUは定数である。制御変数iの値が(p+U)以上である(N
O)時は、ステップS290に進む。
そして、ステップS290では、演算処理回路13aは、有効成分カウント用の変数r
が定数V(ただしV≦U)以上であるか否かを判定し、V以上である(YES)時はステ
ップS300に進み、V未満である(NO)時はステップS310に進む。
ここでV=Uとすると、有効な成分がU個連続して存在する時のみ安定成分と判定する
ことになる。ただし実際には、ある音程の音が一定時間持続して発音されている場合にお
いても、微小な周波数のゆらぎ(ビブラート)があるので、有効な成分が連続するとは限
らず、断続的に存在する場合もある。このため、VをUの80〜90%程度に設定する方
が良好な結果が得られる場合がある。
次に、ステップS300では、演算処理回路13aは、ステップS290での条件を満
たす周波数成分に関する情報を安定成分検出部13の安定成分メモリ13bに格納する。
具体的には図7に示す形式で(p,q)の組を安定成分メモリ13bに格納する。安定成
分メモリ13bは特徴量生成部14から参照できるようになっている。
次に、ステップS310では、演算処理回路13aは、制御変数qの値を1増やす。
次に、ステップS320では、演算処理回路13aは、制御変数qの値がQ2以下であ
るか否かを判定し、Q2以下である(YES)時はステップS230に戻り処理を繰り返
す。Q2より大きい(NO)時はステップS330に進む。ここでQ2は、安定成分の対
象とする最大のバンドを表す定数である。
そして、ステップS330では、演算処理回路13aは、制御変数pの値をPだけ増や
す。ここで、Pは通常1であるが、処理量を減らしたい場合にはPを2以上の値としても
良い。ただし、Pを2以上とする場合は、ステップS300における安定成分の格納時に
、(p,q)〜(p+P−1,q)の組をまとめて格納するようにする。
そして、ステップS340では、演算処理回路13aは、制御変数pが(M−U)未満
であるか否か判定する。(M−U)未満である(YES)時はステップS220に戻って
処理を繰り返し、(M−U)以上である(NO)時は処理を終了する。
このようにして安定成分検出部13の処理を行った後には、安定成分メモリ13bに安
定成分の情報が格納されている。
次に、特徴量生成部14の処理フローについて、図8に示すフローチャートに基づいて
説明する。特徴量生成部14では、所定の長さの区間毎に特徴量を生成する。本実施例で
は、フレームシフト長SのT倍を区間の長さとする(Tは1以上の整数)。
まず、ステップS510において、演算処理回路14aは、特徴量を生成する区間の先
頭を表す制御変数tを0にセットする。
次に、ステップS520において、演算処理回路14aは、安定成分検出部13の安定
成分メモリ13bを参照し、区間t内の安定成分の数Eをカウントする。具体的には、安
定成分メモリ13bのpフィールドが、t≦p<t+Tを満たす安定成分の数をカウント
すれば良い。
次に、ステップS530において、演算処理回路14aは、区間tに対する特徴量ou
t[t]として、安定成分の数E、あるいはEを全バンド数Qで割った値E/Q、あるい
はEを全バンド数Qと区間長Tとの積で割った値E/(QT)を出力する。
次に、ステップS540において、演算処理回路14aは、制御変数tをTだけ増やす
次に、ステップS550において、演算処理回路14aは、制御変数tがfloor(
M/T)未満であるか否かを判定する。ここでfloor関数は、小数点以下を切り捨て
た整数を返す関数である。floor(M/T)未満である(YES)時はステップS5
20に戻って処理を行い、floor(M/T)以上である(NO)時は特徴量生成部1
4の処理を終了する。
なお、特徴量生成部14で生成される特徴量の時系列データout[t]を時間方向に
平滑化して、より滑らかな出力を得るようにしても良い。
このように実施例1の音響信号分析装置及び音響信号分析方法によれば、有音程楽器が
発音されていて一定の周波数が安定的に持続している場所と、打楽器等が発音されていて
一定の周波数が安定的に持続しない場所とを識別し、有音程楽器の時間的に安定した周波
数成分の個数を計算して音の厚みを表す特徴量を生成するので、楽曲が記録された音響信
号から音の厚みを直接反映した特徴量を精度良く生成することができる。また、楽音の基
音と倍音を識別分離しない方式で処理を行うため、簡易な計算で特徴量を生成することが
できる。
(実施例2)
本発明の音響信号分析装置、音響信号分析方法及び音響信号分析プログラムの実施例2
を図1、図9乃至図11に基づいて説明する。図1は本発明の実施例2の音響信号分析装
置の構成を示すブロック図、図9は実施例2における図1の安定成分検出部の処理フロー
を示すフローチャート、図10は実施例2における図1の安定成分検出部のデータ格納形
式を示す図、図11は実施例2における図1の特徴量生成部の処理フローを示すフローチ
ャートである。
本発明の実施例2における音響信号分析装置1の構成は、図1に示すように、実施例1
と同様である。また、音響信号入力部11と周波数分析部12は、実施例1で説明したも
のと同様の動作を行う。
次に、安定成分検出部13の処理フローについて、図9に示すフローチャートに基づい
て説明する。安定成分検出部13では、周波数分析部12に格納されている周波数成分c
[i][q](i=0〜M−1,q=0〜Q−1)を読み出して処理を行う。
まず、ステップS710では、演算処理回路13aは、探索を開始するフレーム番号を
表す制御変数pを0にセットする。
次に、ステップS720では、演算処理回路13aは、バンドを表す制御変数qを安定
成分の対象となる最小のバンドQ1(Q1は0以上Q未満の定数)にセットする。
次に、ステップS730では、演算処理回路13aは、後述する条件に合致する周波数
成分を有効成分としてカウントするための変数rを0にセットする。
次に、ステップS740では、演算処理回路13aは、有効成分の強度の和を計算する
ための変数saを0にセットする。
次に、ステップS750では、演算処理回路13aは、フレーム番号を表す制御変数i
をpの値にセットする。
次に、ステップS760では、演算処理回路13aは、周波数成分c[i][q]が有
効成分であるか否かチェックする。有効な成分である(YES)と判定した時は、ステッ
プS770に進み、有効な成分でない(NO)と判定した時はステップS790に進む。
ステップS760の具体的な方法は実施例1で説明した方法と同様である。
次に、ステップS770では、演算処理回路13aは、有効成分をカウントするための
変数rの値を1増やす。
次に、ステップS780では、演算処理回路13aは、有効成分の強度の和を計算する
ための変数saに周波数成分c[i][q]を加算する。
次に、ステップS790では、演算処理回路13aは、制御変数iの値を1増やす。
次に。ステップS800では、演算処理回路13aは、制御変数iの値が(p+U)未
満であるか否かを判定し、(p+U)未満である(YES)時は、ステップS760に戻
って処理を繰り返す。ここでUは定数である。制御変数iの値が(p+U)以上である(
NO)時は、ステップS810に進む。
そして、ステップS810では、演算処理回路13aは、有効成分カウント用の変数r
が定数V(ただしV≦U)以上であるか否かを判定し、V以上である(YES)時はステ
ップS820に進み、V未満である(NO)時はステップS830に進む。
ここでV=Uとすると、有効な成分がU個連続して存在する時のみ安定成分と判定する
ことになる。ただし実際には、ある音程の音が一定時間持続して発音されている場合にお
いても、微小な周波数のゆらぎ(ビブラート)があるので、有効な成分が連続するとは限
らず、断続的に存在する場合もある。このため、VをUの80〜90%程度に設定する方
が良好な結果が得られる場合がある。
次に、ステップS820では、演算処理回路13aは、図10に示す形式で(p,q,
sa)の組を安定成分メモリ13bに格納する。安定成分メモリ13bは特徴量生成部1
4から参照できるようになっている。
次に、ステップS830では、演算処理回路13aは、制御変数qの値を1増やす。
次に、ステップS840では、演算処理回路13aは、制御変数qの値がQ2以下であ
るか否かを判定し、Q2以下である(YES)時はステップS730に戻り処理を繰り返
す。Q2より大きい(NO)時はステップS850に進む。ここでQ2は、安定成分の対
象とする最大のバンドを表す定数である。
そして、ステップS850では、演算処理回路13aは、制御変数pの値をPだけ増や
す。ここで、Pは通常1であるが、処理量を減らしたい場合にはPを2以上の値としても
良い。ただし、Pを2以上とする場合は、ステップS820における安定成分の格納時に
、(p,q,sa)のみでなく、(p,q,sa)〜(p+P−1,q,sa)の組をま
とめて格納するようにする。
そして、ステップS860では、演算処理回路13aは、制御変数pが(M−U)未満
であるか否かを判定する。(M−U)未満である(YES)時はステップS720に戻っ
て処理を繰り返し、(M−U)以上である(NO)時は処理を終了する。
このようにして安定成分検出部13の処理を行った後には、安定成分メモリ13bに安
定成分の情報が格納されている。
次に、特徴量生成部14の処理フローについて、図11に示すフローチャートに基づい
て説明する。特徴量生成部14では、所定の長さの区間毎に特徴量を生成する。本実施例
では、フレームシフト長SのT倍を区間の長さとする(Tは1以上の整数)。
まず、ステップS910において、演算処理回路14aは、特徴量を生成する区間の先
頭を表す制御変数tを0にセットする。
次に、ステップS920において、演算処理回路14aは、安定成分検出部13の安定
成分メモリ13bを参照し、区間t内の安定成分の強度の総和sumを計算する。具体的
には、安定成分メモリ13bのpフィールドが、t≦p<t+Tを満たす安定成分の集合
θ[t]を求め、(数式18)に示すように集合θ[t]に属するsaの総和を求めてs
umとすれば良い。
Figure 0004930608
次に、ステップS930において、演算処理回路14aは、区間tに対する特徴量ou
t[t]として、sum、あるいはsum/Q、或いはsum/(QT)を出力する。
次に、ステップS940において、演算処理回路14aは、制御変数tをTだけ増やす
次に、ステップS950において、演算処理回路14aは、制御変数tがfloor(
M/T)未満であるか否かを判定する。ここでfloor関数は、関数は小数点以下を切
り捨てた整数を返す関数である。floor(M/T)未満である(YES)時はステッ
プS920に戻って処理を行い、floor(M/T)以上である(NO)時は特徴量生
成部14の処理を終了する。
なお、特徴量生成部14で生成される特徴量の時系列データout[t]を時間方向に
平滑化して、より滑らかな出力を得るようにしても良い。
このように実施例2の音響信号分析装置及び音響信号分析方法は、安定成分検出部13
及び特徴量生成部14において、有音程楽器の時間的に安定した周波数成分の所定の区間
における安定成分の強度の総和を計算して音の厚みを表す特徴量を生成するもので、実施
例1と同様の効果が得られる。
なお、実施例1及び実施例2で説明した音響信号分析装置では、装置各部のそれぞれに
演算処理回路を設けたが、1つの演算処理回路が装置各部を制御する構成にすることも可
能である。
また、実施例1及び実施例2で説明した音響信号分析装置は、その装置構成の一部また
は全部をパーソナルコンピュータ等から構成することが可能である。この場合、上記で説
明した装置各部は、コンピュータのハードウェアもしくはソフトウェアによりその機能を
実現可能である。例えば、コンピュータに上記実施例1及び実施例2で説明した動作の一
部または全部を実行させるためのプログラムを、コンピュータのハードディスク装置、C
D−ROM等の記録媒体、もしくはダウンロードによりコンピュータのメモリ等に記憶さ
せて使用しても良い。
本発明は、楽曲の音響的な特徴を使って検索を行う楽曲検索装置に適用することができ
る。本発明で生成される特徴量を検索タグに適用することにより、「音の厚い楽曲を探し
たい」といった利用者ニーズに応えるような検索が可能になる。また、音の厚み感は楽曲
の雰囲気を決める重要なファクターなので、この特徴量を用いることにより、従来よりも
楽曲の雰囲気を正確に反映した楽曲の検索が可能になる。
また、本発明は音楽のジャンル、曲調に合わせて照明装置、空調装置、玩具、視覚エフ
ェクト等の画面表示などを制御する制御装置および音楽のジャンル、曲調に合わせて音質
、音量、音場などを制御するオーディオ装置に適用することができる。従来の制御装置や
オーディオ装置に比べて、楽曲の音の厚み感や、盛り上がり感をより精度良く捉えて制御
することが可能になる。
1 音響信号分析装置
11 音響信号入力部
12 周波数分析部
13 安定成分検出部
14 特徴量生成部
11a〜14a 演算処理回路
11b A/D変換器
13b 安定成分メモリ

Claims (21)

  1. 楽曲に係る音響信号から前記楽曲の特徴を抽出する音響信号分析装置であって、
    前記音響信号を周波数分析して、時間と周波数と成分強度とを対応させた各要素で構成される周波数成分データを生成する周波数分析手段と、
    前記周波数成分データから前記成分強度が所定の値以上の要素を有効要素として検出し、前記周波数成分データの中で所定の時間内に同一の周波数の前記有効要素が所定の数以上存在する領域を安定成分として検出する安定成分検出手段と、
    所定の区間における前記安定成分の強度の総和または前記安定成分の個数に基づいて前記所定の区間での音の厚みを表す特徴量を生成する特徴量生成手段とを備え、
    前記安定成分検出手段は、前記有効要素であるか否かの判定対象となる要素と同じ周波数、または前記同じ周波数の近傍の周波数に対応する他の要素の成分強度を時間方向に加算した値を用いて、前記所定の値を算出する、
    ことを特徴とする音響信号分析装置。
  2. 前記安定成分検出手段は、前記有効要素であるか否かの判定対象となる要素と同じ周波数、または前記同じ周波数の近傍の周波数に対応する他の要素の成分強度を時間方向に加算した値を用いて、成分強度の平均値を算出し、その平均値に所定係数を乗じた値を前記所定の値として算出する、
    ことを特徴とする請求項1に記載の音響信号分析装置。
  3. 前記安定成分検出手段は、前記有効要素であるか否かの判定対象となる要素と時間的に近傍の他の要素であり、かつ前記判定対象となる要素と同じ周波数、または前記同じ周波数の近傍の周波数に対応する他の要素の成分強度を時間方向に加算した値を用いて、前記所定の値を算出する、
    ことを特徴とする請求項1または請求項2に記載の音響信号分析装置。
  4. 前記周波数分析手段は、周波数軸上に等間隔に存在する周波数、または平均律音階に対応した周波数、または平均律音階の半音よりも更に細かく分割された周波数のうちのいずれかの周波数に対応させた前記各要素を生成する、
    ことを特徴とする請求項1〜請求項3のいずれか一項に記載の音響信号分析装置。
  5. 前記特徴量生成手段は、前記所定の区間における前記安定成分の個数、または前記安定成分の個数を前記周波数データを構成する要素における周波数の種類の数で割った値、または前記安定成分の個数を前記周波数データを構成する要素における周波数の種類の数と前記所定の区間の長さとの積で割った値を前記特徴量とする、
    ことを特徴とする請求項1〜請求項4のいずれか一項に記載の音響信号分析装置。
  6. 前記特徴量生成手段は、前記所定の区間における前記安定成分の強度の総和、または前記安定成分の強度の総和を前記周波数データを構成する要素における周波数の種類の数で割った値、または前記安定成分の強度の総和を前記周波数データを構成する要素における周波数の種類の数と前記所定の区間の長さとの積で割った値を前記特徴量とする、
    ことを特徴とする請求項1〜請求項4のいずれか一項に記載の音響信号分析装置。
  7. 前記特徴量生成手段は、時間方向に平滑化する処理を行って前記特徴量を生成する、
    ことを特徴とする請求項1〜請求項6のいずれか一項に記載の音響信号分析装置。
  8. 楽曲に係る音響信号から前記楽曲の特徴を抽出する音響信号分析装置が実行する音響信号分析方法であって、
    前記音響信号を周波数分析して、時間と周波数と成分強度とを対応させた各要素で構成される周波数成分データを生成する周波数分析ステップと、
    前記周波数成分データから前記成分強度が所定の値以上の要素を有効要素として検出し、前記周波数成分データの中で所定の時間内に同一の周波数の前記有効要素が所定の数以上存在する領域を安定成分として検出する安定成分検出ステップと、
    所定の区間における前記安定成分の強度の総和または前記安定成分の個数に基づいて前記所定の区間での音の厚みを表す特徴量を生成する特徴量生成ステップとを備え、
    前記安定成分検出ステップは、前記有効要素であるか否かの判定対象となる要素と同じ周波数、または前記同じ周波数の近傍の周波数に対応する他の要素の成分強度を時間方向に加算した値を用いて、前記所定の値を算出する、
    ことを特徴とする音響信号分析方法。
  9. 前記安定成分検出ステップは、前記有効要素であるか否かの判定対象となる要素と同じ周波数、または前記同じ周波数の近傍の周波数に対応する他の要素の成分強度を時間方向に加算した値を用いて、成分強度の平均値を算出し、その平均値に所定係数を乗じた値を前記所定の値として算出する、
    ことを特徴とする請求項8に記載の音響信号分析方法。
  10. 前記安定成分検出ステップは、前記有効要素であるか否かの判定対象となる要素と時間的に近傍の他の要素であり、かつ前記判定対象となる要素と同じ周波数、または前記同じ周波数の近傍の周波数に対応する他の要素の成分強度を時間方向に加算した値を用いて、前記所定の値を算出する、
    ことを特徴とする請求項8または請求項9に記載の音響信号分析方法。
  11. 前記周波数分析ステップは、周波数軸上に等間隔に存在する周波数、または平均律音階に対応した周波数、または平均律音階の半音よりも更に細かく分割された周波数のうちのいずれかの周波数に対応させた前記各要素を生成する、
    ことを特徴とする請求項8〜請求項10のいずれか一項に記載の音響信号分析方法。
  12. 前記特徴量生成ステップは、前記所定の区間における前記安定成分の個数、または前記安定成分の個数を前記周波数データを構成する要素における周波数の種類の数で割った値、または前記安定成分の個数を前記周波数データを構成する要素における周波数の種類の数と前記所定の区間の長さとの積で割った値を前記特徴量とする、
    ことを特徴とする請求項8〜請求項11のいずれか一項に記載の音響信号分析方法。
  13. 前記特徴量生成ステップは、前記所定の区間における前記安定成分の強度の総和、または前記安定成分の強度の総和を前記周波数データを構成する要素における周波数の種類の数で割った値、または前記安定成分の強度の総和を前記周波数データを構成する要素における周波数の種類の数と前記所定の区間の長さとの積で割った値を前記特徴量とする、
    ことを特徴とする請求項8〜請求項11のいずれか一項に記載の音響信号分析方法。
  14. 前記特徴量生成ステップは、時間方向に平滑化する処理を行って前記特徴量を生成する、
    ことを特徴とする請求項8〜請求項13のいずれか一項に記載の音響信号分析方法。
  15. 楽曲に係る音響信号から前記楽曲の特徴を抽出する音響信号分析プログラムであって、
    前記音響信号を周波数分析して、時間と周波数と成分強度とを対応させた各要素で構成される周波数成分データを生成する周波数分析ステップと、
    前記周波数成分データから前記成分強度が所定の値以上の要素を有効要素として検出し、前記周波数成分データの中で所定の時間内に同一の周波数の前記有効要素が所定の数以上存在する領域を安定成分として検出する安定成分検出ステップと、
    所定の区間における前記安定成分の強度の総和または前記安定成分の個数に基づいて前記所定の区間での音の厚みを表す特徴量を生成する特徴量生成ステップとをコンピュータに実行させ、
    前記安定成分検出ステップは、前記有効要素であるか否かの判定対象となる要素と同じ周波数、または前記同じ周波数の近傍の周波数に対応する他の要素の成分強度を時間方向に加算した値を用いて、前記所定の値を算出する、
    ことを特徴とする音響信号分析プログラム。
  16. 前記安定成分検出ステップは、前記有効要素であるか否かの判定対象となる要素と同じ周波数、または前記同じ周波数の近傍の周波数に対応する他の要素の成分強度を時間方向に加算した値を用いて、成分強度の平均値を算出し、その平均値に所定係数を乗じた値を前記所定の値として算出する、
    ことを特徴とする請求項15に記載の音響信号分析プログラム。
  17. 前記安定成分検出ステップは、前記有効要素であるか否かの判定対象となる要素と時間的に近傍の他の要素であり、かつ前記判定対象となる要素と同じ周波数、または前記同じ周波数の近傍の周波数に対応する他の要素の成分強度を時間方向に加算した値を用いて、前記所定の値を算出する、
    ことを特徴とする請求項15または請求項16に記載の音響信号分析プログラム。
  18. 前記周波数分析ステップは、周波数軸上に等間隔に存在する周波数、または平均律音階に対応した周波数、または平均律音階の半音よりも更に細かく分割された周波数のうちのいずれかの周波数に対応させた前記各要素を生成する、
    ことを特徴とする請求項15〜請求項17のいずれか一項に記載の音響信号分析プログラム。
  19. 前記特徴量生成ステップは、前記所定の区間における前記安定成分の個数、または前記安定成分の個数を前記周波数データを構成する要素における周波数の種類の数で割った値、または前記安定成分の個数を前記周波数データを構成する要素における周波数の種類の数と前記所定の区間の長さとの積で割った値を前記特徴量とする、
    ことを特徴とする請求項15〜請求項18のいずれか一項に記載の音響信号分析プログラム。
  20. 前記特徴量生成ステップは、前記所定の区間における前記安定成分の強度の総和、または前記安定成分の強度の総和を前記周波数データを構成する要素における周波数の種類の数で割った値、または前記安定成分の強度の総和を前記周波数データを構成する要素における周波数の種類の数と前記所定の区間の長さとの積で割った値を前記特徴量とする、
    ことを特徴とする請求項15〜請求項18のいずれか一項に記載の音響信号分析プログラム。
  21. 前記特徴量生成ステップは、時間方向に平滑化する処理を行って前記特徴量を生成する、
    ことを特徴とする請求項15〜請求項20のいずれか一項に記載の音響信号分析プログラム。
JP2010023988A 2010-02-05 2010-02-05 音響信号分析装置、音響信号分析方法及び音響信号分析プログラム Active JP4930608B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010023988A JP4930608B2 (ja) 2010-02-05 2010-02-05 音響信号分析装置、音響信号分析方法及び音響信号分析プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010023988A JP4930608B2 (ja) 2010-02-05 2010-02-05 音響信号分析装置、音響信号分析方法及び音響信号分析プログラム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2004358258A Division JP4483561B2 (ja) 2004-12-10 2004-12-10 音響信号分析装置、音響信号分析方法及び音響信号分析プログラム

Publications (2)

Publication Number Publication Date
JP2010152381A JP2010152381A (ja) 2010-07-08
JP4930608B2 true JP4930608B2 (ja) 2012-05-16

Family

ID=42571450

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010023988A Active JP4930608B2 (ja) 2010-02-05 2010-02-05 音響信号分析装置、音響信号分析方法及び音響信号分析プログラム

Country Status (1)

Country Link
JP (1) JP4930608B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6045511B2 (ja) * 2014-01-08 2016-12-14 Psソリューションズ株式会社 音響信号検出システム、音響信号検出方法、音響信号検出サーバー、音響信号検出装置、及び音響信号検出プログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01158496A (ja) * 1987-09-30 1989-06-21 Agency Of Ind Science & Technol 音声の特徴抽出方式
JP2002215142A (ja) * 2001-01-17 2002-07-31 Dainippon Printing Co Ltd 音響信号の符号化方法
JP3801029B2 (ja) * 2001-11-28 2006-07-26 ヤマハ株式会社 演奏情報生成方法、演奏情報生成装置およびプログラム
JP4244133B2 (ja) * 2002-11-29 2009-03-25 パイオニア株式会社 楽曲データ作成装置及び方法

Also Published As

Publication number Publication date
JP2010152381A (ja) 2010-07-08

Similar Documents

Publication Publication Date Title
Bittner et al. Deep Salience Representations for F0 Estimation in Polyphonic Music.
JP4665836B2 (ja) 楽曲分類装置、楽曲分類方法、及び楽曲分類プログラム
US7582824B2 (en) Tempo detection apparatus, chord-name detection apparatus, and programs therefor
De La Cuadra et al. Efficient pitch detection techniques for interactive music
US9672800B2 (en) Automatic composer
JP4916947B2 (ja) リズム検出装置及びリズム検出用コンピュータ・プログラム
JP2008516289A (ja) 音声信号の基礎となるメロディを抽出する方法および装置
US20110011247A1 (en) Musical composition discrimination apparatus, musical composition discrimination method, musical composition discrimination program and recording medium
JP5229998B2 (ja) コード名検出装置及びコード名検出用プログラム
JP2008015214A (ja) 歌唱力評価方法及びカラオケ装置
JP4483561B2 (ja) 音響信号分析装置、音響信号分析方法及び音響信号分析プログラム
Dixon et al. Estimation of harpsichord inharmonicity and temperament from musical recordings
JP6288197B2 (ja) 評価装置及びプログラム
JP6102076B2 (ja) 評価装置
JP4930608B2 (ja) 音響信号分析装置、音響信号分析方法及び音響信号分析プログラム
JP5005445B2 (ja) コード名検出装置及びコード名検出用プログラム
JP2007298607A (ja) 音響信号分析装置、音響信号分析方法、及び音響信号分析用プログラム
JP4271667B2 (ja) デュエットの同期性を採点するカラオケ採点装置
JP2016184112A (ja) アンサンブル評価装置
JP2009003225A (ja) コード名検出装置及びコード名検出用プログラム
Orio A model for human-computer interaction based on the recognition of musical gestures
JP5618743B2 (ja) 歌唱音声評価装置
JP2008015212A (ja) 音程変化量抽出方法、ピッチの信頼性算出方法、ビブラート検出方法、歌唱訓練プログラム及びカラオケ装置
JP5585320B2 (ja) 歌唱音声評価装置
JP2008015213A (ja) ビブラート検出方法、歌唱訓練プログラム及びカラオケ装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100730

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110722

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110920

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20111012

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120117

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120130

R150 Certificate of patent or registration of utility model

Ref document number: 4930608

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150224

Year of fee payment: 3