JP4871182B2 - 楽曲種類判別装置、楽曲種類判別方法、および楽曲種類判別プログラム - Google Patents

楽曲種類判別装置、楽曲種類判別方法、および楽曲種類判別プログラム Download PDF

Info

Publication number
JP4871182B2
JP4871182B2 JP2007076073A JP2007076073A JP4871182B2 JP 4871182 B2 JP4871182 B2 JP 4871182B2 JP 2007076073 A JP2007076073 A JP 2007076073A JP 2007076073 A JP2007076073 A JP 2007076073A JP 4871182 B2 JP4871182 B2 JP 4871182B2
Authority
JP
Japan
Prior art keywords
music
linear prediction
prediction residual
ratio
power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007076073A
Other languages
English (en)
Other versions
JP2008233725A (ja
Inventor
孝 三橋
光弥 駒村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pioneer Corp
TechExperts Inc
Original Assignee
Pioneer Corp
TechExperts Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pioneer Corp, TechExperts Inc filed Critical Pioneer Corp
Priority to JP2007076073A priority Critical patent/JP4871182B2/ja
Publication of JP2008233725A publication Critical patent/JP2008233725A/ja
Application granted granted Critical
Publication of JP4871182B2 publication Critical patent/JP4871182B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Auxiliary Devices For Music (AREA)
  • Electrophonic Musical Instruments (AREA)

Description

本願は、楽曲の特徴量を抽出して楽曲の種類を判別する楽曲種類判別装置の技術分野に関する。
従来においては、楽曲を検索するために、書誌的情報(タグ情報)を活用することがあった。その一例としては、楽曲情報であるMP3ファイル中にテキスト情報として、「タイトル、アーティスト名、ジャンル、作成年」等の情報を楽曲の先頭または楽曲の終了後に書き込むID3タグ規格を用いた楽曲検索がある。
また、楽曲の特徴量として、楽曲の周波数を抽出するための技術としてFFT(Fast Fourier Transform)等の周波数解析技術が知られている。
これらの技術を使用した技術の一例として、下記文献1が存在する。
特表2006−508390号公報
しかしながら、上述のID3タグにおいては、楽曲を直接分析した情報が付与されているわけではないので、品質上の問題があった。また、FFT等の周波数分析手法を用いると演算量が膨大になるので演算時間がかかり、リアルタイムに楽曲の種類の識別を行なうことが困難であった。
本願は、上記の各問題点に鑑みて為されたもので、その課題の一例としては、少ない演算量で簡易に精度よく楽曲の種類を判別できる楽曲種別判別装置、楽曲種別判別方法および楽曲種別判別プログラムを提供することにある。
上記課題を解決するために、請求項1に記載の楽曲種類判別装置は、入力された楽曲信号に基づいて、前記楽曲信号を分析し、楽曲の種類の判別を行なう楽曲種類判別装置において、入力された前記楽曲信号のパワを演算する楽曲パワ演算手段と、前記楽曲信号を線形予測分析することにより、線形予測残差を算出する線形予測残差算出手段と、前記楽曲信号のパワと前記算出された線形予測残差のパワとの比である線形予測残差パワ比を算出する線形予測残差パワ比算出手段と、前記算出された線形予測残差の零交差数と、前記楽曲信号の零交差数との比である零交差数比を算出する零交差数比算出手段と、前記線形予測残差パワ比と零交差数比とに対して統計処理する統計処理手段と、記統計処理手段によって統計処理された線形予測残差パワ比の統計処理値と、零交差数比の統計処理値に基づいて、前記楽曲信号の種類を判別する判別手段と、を備えることを特徴とする。
上記課題を解決するために、請求項に記載の楽曲種類判別方法は、入力された楽曲信号に基づいて、前記楽曲信号を分析し、楽曲の種類の判別を行なう楽曲種類判別方法において、入力された前記楽曲信号のパワを演算する楽曲パワ演算工程と、前記楽曲信号を線形予測分析することにより、線形予測残差を算出する線形予測残差算出工程と、前記楽曲信号のパワと前記算出された線形予測残差のパワとの比である線形予測残差パワ比を算出する線形予測残差パワ比算出工程と、前記算出された線形予測残差の零交差数と、前記楽曲信号の零交差数との比である零交差数比を算出する零交差数比算出工程と、前記線形予測残差パワ比と零交差数比とに対して統計処理する統計処理工程と、記統計処理手段によって統計処理された線形予測残差パワ比の統計処理値と、零交差数比の統計処理値とに基づいて、前記楽曲信号の種類を判別する判別工程と、を有することを特徴とする。
上記課題を解決するために、請求項に記載の楽曲種類判別プログラムは、請求項1
に記載の楽曲種類判別装置に含まれるコンピュータを、入力された楽曲信号のパワを演算する楽曲パワ演算手段、前記楽曲信号を線形予測分析することにより、線形予測残差を算出する線形予測残差算出手段、前記楽曲信号のパワと前記算出された線形予測残差のパワとの比である線形予測残差パワ比を算出する線形予測残差パワ比算出手段、前記算出された線形予測残差の零交差数と、前記楽曲信号の零交差数との比である零交差数比を算出する零交差数比算出手段、前記線形予測残差パワ比と零交差数比とに対して統計処理する統計処理手段、および、前記統計処理手段によって統計処理された線形予測残差パワ比の統計処理値と、零交差数比の統計処理値とに基づいて、前記楽曲信号の種類を判別する判別手段として機能させることを特徴とする。
以下、添付図面に基づいて、本願の実施形態について説明する。本実施形態では楽曲の種類として特にアコースティック曲を検出する方法について説明する。
図1は本実施形態の楽曲種類判別装置の構成を示すブロック図であり、図2は本実施形態における楽器モデル及び線形予測分析を説明するための図であり、図4は入力信号と予測残差信号の時間軸特性および周波数軸特性を示す図であり、図5は周波数重心とゼロ交差数との関係を示す図であり、図6はアコースティック曲と非アコースティック曲とのゼロ交差比の分布を示す図であり、図7は楽曲をゼロ交差比と残差パワ比で解析した一例を示す図であり、図10は本実施形態の動作を示すフローチャートである。
最初に本実施形態の楽曲種類判別装置Sの構成について図1を用いて説明する。
楽曲種類判別装置Sは、入力部1、分割手段を含むフレーム分割部2、演算手段および電力比較手段を含むパワ演算比較部3、分析手段を含む線形予測分析部4、線形予測残差信号比較部5、検出手段及び演算手段を含むゼロ交差比検出演算部6、統計処理手段を含む統計処理部7、および判別手段を含む楽曲判別部8を含んで構成される。
入力部1は、入力される楽曲信号Siが入力される部分で、メモリなどの記憶デバイスを備え、一旦入力された楽曲信号Siを記憶しておくことも可能である。
フレーム分割部2は、入力された楽曲信号Siを1曲毎に、フレーム分割する。例えば、フレーム分割部2は一曲を時間軸方向に512または1024サンプル毎にフレーム分割する。そしてフレーム分割部2以降における各処理部は信号処理をフレーム単位で処理する。分割方法は、一曲または一曲の一部分を時間軸方向に等時間間隔(一曲または一曲の一部分において分割されたフレームはすべて同じ時間間隔)で分割する手法以外にも、あらかじめ定められら時間間隔で一曲または一曲の一部分を分割することも可能である。
パワ演算比較部3は、フレーム分割部2において分割された楽曲信号Siのフレーム毎に、パワがどの程度あるかを演算する。そして、演算されたフレーム毎にパワがあらかじめ定められた値(Thp)より大きいか否かを比較する。パワ演算比較部3は、演算されたフレームのパワがあらかじめ定められた値(Thp)より大きい場合には、そのフレームをパワ演算部3から出力し、演算されたフレームのパワがあらかじめ定められた値(Thp)以下の場合は、そのフレームをパワ演算部3から出力しない。
パワ比較演算部3では、入力された楽曲信号Siの中から無音となっている部分をフレーム毎に判断する。そして、無音部分については、パワ比較演算部3以降の処理を行なわないためにパワ比較演算部3が設けられている。
従って、あらかじめ定められた値(Thp)は、フレームの長さ、および楽曲信号Siに含まれる雑音レベルによって変動する値であって、そのフレームの演算処理を行なわなくとも、楽曲の種類判別に支障がない値である。
また、一フレームの一部が有音部分である場合があるので、あらかじめ定められた値(Thp)は一フレーム中の有音部分の割合によって定められる。また、楽曲信号Siに雑音が含まれる場合には、あらかじめ定められた値(Thp)は少なくとも一フレームの雑音パワよりも大きい値となっている。
線形予測分析部4は、パワ演算比較部3から出力されたフレームについて、線形予測分析を行なう。線形予測分析は時系列分析の一例としての手法である。
線形予測分析については、図2を用いて説明する。楽曲、特に本実施形態においてはアコースティック曲について説明する。
図2は楽器モデルを表す。図2における楽器音生成モデル9において、楽器における音源となる弦やリードをパルス列10と雑音11とにモデル化すると、ギターの胴や管楽器の管などの共鳴器が合成フィルタ12で表される。楽器音は、パルス列10または雑音11からなる音源からの信号が合成フィルタ12を介して放音されることによって生成されると考えることになる。
この合成フィルタ12を全極フィルタで表すことが線形予測分析となる。
線形予測とは一般に過去のサンプルの線形結合から現在の値を予測することを意味し、(式1)による数式で表現される。
予測信号は過去P個のサンプルを用いて(式1)で表される。
Figure 0004871182
aは線形予測係数と呼ばれる。
a0=1とすると、原信号と予測信号の残差e(n)は、式(2)で表される。
Figure 0004871182
Z変換で式1および式2を表現するとそれぞれ式3および式4で表現される。
Figure 0004871182
Figure 0004871182
従って、Y(z)を式5で表現できる。
Figure 0004871182
Y(z)が楽器音の場合、式5はこの楽器音Y(z)が全極フィルタ1/A(z)の出力であるとみなすことができることを表している。
図2における楽器音合成フィルタ12をこの全極フィルタで表現することが線形予測分析である。また、全極フィルタ1/A(z)は、E(z)が最小となるように推定される。E(z)を線形予測残差と呼ぶ。
Y(z)が音声の場合には、線形予測残差E(z)はパルス列もしくは雑音になるため、常にある程度のパワを持つことになる。しかし、アコースティック曲を放音するピアノ(打弦)およびギター(撥弦)などでは音源となる弦に振動を与えた直後からすぐに減衰過程に入り、共鳴音が主体となるため、線形予測残差15のパワは小さくなる。
しかし、バイオリン等の擦弦楽器やサキソフォン等の管楽器は、発音中ずっと音源部がパワを持つ(擦弦楽器の場合には楽器音が放音されている間は演奏者が弦をずっと引き続けていることになり、管楽器の場合には楽器音が放音されている間は演奏者がずっと吹き続けていることになる。)ため、線形予測残差15のパワは小さくならない。また、電子楽器や電気的なエフェクト処理がなされている場合には上記楽器モデルがあてはまらない。
さらに、上記楽器音生成モデル9は複数楽器が鳴っている状況ではあてはまらないため、ピアノやギター等の楽器が単体で鳴っている場合に有効となる。ピアノ曲やアコースティックギター曲などでは、落ち着いた響きを持たせるために他の楽器と被らない時間が多く、上記の線形予測残差パワを用いれば、判別可能となるのである。
次に線形予測残差信号比較部5について説明する。
線形予測分析部4において出力された線形予測残差信号は、録音レベルにより変動する信号であるため、録音レベルによる誤差を回避するため、線形予測残差信号比較部5においては線形予測残差信号を原信号(楽曲信号Si)のパワで正規化を行う。一フレーム内の原信号のパワと線形予測残差のパワの比LPR(Linear Prediction residual power Ratio)をとり、そのフレームのLPRがあらかじめ定められた値(ThLPR(閾値))以下であればアコースティック音の可能性が高いと判定する。そして、アコースティック音の可能性が高い(あらかじめ定められた値(ThLPR(閾値))よりも小さい。)と判断されたフレームがある場合には、線形予測分析部4はそのフレームを次段のゼロ交差検出部6へ出力する。また、アコースティック音の可能性が低い(あらかじめ定められた値(ThLPR(閾値))よりも大きい。)と判断されたフレームがある場合には、線形予測分析部4はそのそのフレームを次段のゼロ交差検出部6へ出力しない。
ここで、線形予測残差パワ比LPRの閾値決定方法の一実験例について図3を用いて説明する。
図3は、20曲について線形予測残差パワ比LPRを演算し、プロットした図である。縦軸は、線形予測残差パワ比LPRの値を示し、図3において上へ行くほど線形予測残差パワ比LPRが大きいことが示されている。
また横軸は、実験を実施した20曲が順番に並べられていることが示されている。一曲に対して、アコースティック音であるフレーム部分が○で示され、同一曲において、非アコースティック音であるフレーム部分が×で示されている。従って、同じ横軸の目盛り上に、アコースティック音○と非アコースティック音×とが一つずつ示されている。
図3において、線形予測残差パワ比LPRを0.005に設定すると、線形予測残差パワ比LPRが0.005以上となる非アコースティック音×は19箇所になるので、19曲について正確に非アコースティック音×が判定されている。
また、線形予測残差パワ比LPRが0.005以下となるアコースティック音○は19箇所になるので、19曲について正確にアコースティック音○が判定されている。従って、ThLPR(閾値)を0.005に設定すると、非常に高い確率で、アコースティック音○と非アコースティック音×とを判定することが可能となる。
このようにThLPR(閾値)は実験値から求められ、0.05前後でアコースティック音と非アコースティック音とを区別するのによい値が得られている。また、図3から分かるように、本実験からは、ThLPR(閾値)を0.000よりも大きく0.010以下の値に設定することで、おおむね良好に、アコースティック音と非アコースティック音とを区別することができることが示されている。
次に、ゼロ交差比検出演算部6について説明する。
線形予測残差のパワ比LPRだけでは、ピアノやギター等のアコースティック音の分離性能は充分でなく、例えばリバーブ(電気的な共振)がかかったエレクトリックギター音等も混入することがある。そこで線形予測分析の適合度を表す特徴量を併用(アコースティック曲の判別精度を向上させる)するために、ゼロ交差数を使用している。
ゼロ交差数とは、一定区間(例えば、一フレーム)において信号がゼロレベルを交差する回数であり、その区間の信号を代表するような周波数成分に影響される。
ゼロ交差比検出演算部6は、線形予測残差信号比較部5から出力された線形予測残差のパワ比が閾値より小さなフレームに対し、線形予測残差信号のゼロ交差数と、原信号(楽曲信号Si)の当該一フレームのゼロ交差数とを検出する(一つの楽曲内における線形予測残差のパワ比が(ThLPR(閾値))より小さな全フレームまたはあらかじめ定められた一定区間の予測残差のパワ比が(ThLPR(閾値))より小さな全フレームについてゼロ交差数を検出する。)。
そして、ゼロ交差比検出演算部6は、同一フレームについて、(一フレーム内の原信号(楽曲信号Si)のゼロ交差数)と(一フレーム内の線形予測残差信号のゼロ交差数)とを検出し、この比の値であるゼロ交差比ZCR(=(一フレーム内の原信号(楽曲信号Si)のゼロ交差数)/(一フレーム内の線形予測残差信号のゼロ交差数))を演算する。
次に、統計処理部7について説明する。
統計処理部7においては、一つの楽曲の全フレームまたはあらかじめ定められた一定区間の全フレームにおける線形予測残差パワ比LPRの平均値、及びゼロ交差比ZCRの分布の度合いを演算する(一例として分散または標準偏差を演算する)。
ゼロ交差比は原信号のゼロ交差数をパラメータにするため、曲調や楽器構成に影響され、平均値は様々な値を取る。しかし、分布幅に注目すると、アコースティック曲においては、楽器構成やアレンジがシンプルな場合が多く、ゼロ交差比の分布幅が一定値に収まる傾向がある。
したがって、分布の度合いを示すパラメータは分散または標準偏差に限られず、様々な分布の度合いを示すパラメータを用いることが可能である。
次に、楽曲判別部8について説明する。
楽曲判別部8は、統計処理部7にて算出された、線形予測残差パワ比の平均値とゼロ交差比ZCRの分散または標準偏差等の分布の度合いを示すパラメータが判別境界の範囲内である場合に、楽曲信号Siとして入力された楽曲がアコースティック曲であると判断し、アコースティック曲であることを示す判別出力信号So(一例としてHigh状態)を出力する。
また、本実施形態においては線形予測残差パワ比LPRの平均値とゼロ交差比ZCRの分布の度合いを示すパラメータとを用いた線形判別に限られるわけはなく、サポートベクターマシン等の判別方法を適用することも可能である。詳細は図7において説明する。
次に図4を用いて、入力部1に入力される楽曲信号Siの波形と線形予測分析部4において演算され出力される線形予測残差信号So4との波形を説明する。
図4(a)はアコースティック曲としての楽曲信号Siの波形であり、図4(b)は線形予測分析部4において推定された分析フィルタを楽曲信号Siが通過した後の予測残差信号So4である。
図4(a)において、楽曲信号Siの波形には繰り返し構造が見受けられる。一方、図4(b)の線形予測残差信号So4の波形には繰り返し構造は殆ど見受けられず、雑音に近い形状であり、振幅も小さくなっている。これは、線形予測分析の結果、線形予測残差が雑音に近くなったことを示しており、この楽曲信号Siが図2の楽器モデルに適合していることを示す。
従って、原信号である楽曲信号Siと線形予測残差信号So4とのパワ比が小さい場合には原信号がアコースティック曲である可能性が高くなることが図4(a)および図4(b)から推測される。
図4(c)は、全極フィルタ1/A(z)、楽曲信号Si、および線形予測残差信号So4の周波数特性を示した図である。楽曲信号Siが線形予測分析され、全極フィルタ1/A(z)が予測演算される。全極フィルタ1/A(z)の周波数特性は、楽曲信号Siの周波数特性のほぼ包絡線となっている。
また、式2より線形予測残差信号So4(e(n))は楽曲信号Si(原信号y(n))から予測信号を引いた信号となる。楽曲信号Siが音声であって有声音の場合には、線形予測残差信号So4は、周波数領域では調波構造(図4(c)における線形予測残差信号So4のスペクトルが周波数軸上等間隔でピークを持つ構造)となり、時間領域ではパルス列となる。また、楽曲信号Siが音声であって無声音の場合には、線形予測残差信号So4は、雑音に近くなる。楽曲信号Siが楽器音の場合、線形予測残差信号So4は、雑音に近くなり、そのパワを調べることで、アコースティック楽曲の判別に利用する。
次に図5を用いて、ゼロ交差数と周波数重心との相関について説明する。
図5(a)は楽曲信号Siの周波数重心の時間変化の一例を示す図である。図5(a)において、横軸は時間(フレーム)、縦軸はそのフレームにおける周波数重心を示す。周波数重心とは、周波数スペクトルの重心位置を示す量であり、大きいほど高い周波数成分のパワが大きく、小さいほど低い周波数成分のパワが大きいことになる。また、フレームにおける周波数重心とは、そのフレーム内の時間信号を周波数解析し、その重心位置を算出したものである。図5(a)においては、上に行くほど周波数重心が大きく(高周波数成分が多く)、下に行くほど周波数重心が小さい(低周波数成分が多い)ことを示す。横軸が時間であるので、図5(a)は時間につれてスペクトルが変化する様子を表しているといえる。時刻t1、t2、t3においてピークを示しているが、これはこの時刻において、周波数スペクトルが大きく変化していることを示している。
図5(b)は、線形予測残差信号So4のゼロ交差数をプロットした図である。横軸が時間(フレーム)、縦軸はそのフレーム内におけるゼロ交差数を示す。フレーム内におけるゼロ交差数とは、そのフレーム内において、時間信号が何回ゼロを交差するかカウントしたものである。図5(b)においては、時刻T1,T2,T3において見受けられるピークが図5(a)の時刻t1,t2,t3におけるピークに対応しており、ゼロ交差数が周波数重心に対応していることが判る。
なお、ゼロ交差数のカウントは、一例として、1サンプル前のデータとの符号比較で検出することができる。すなわち、現時点でのサンプルデータと1サンプル前のデータとの積演算を行なって、演算結果が負となればゼロ交差していることを検出できる。また、現時点でのサンプルデータのMSB(Most Significant bit)と1サンプル前のデータのMSBとの排他的論理和演算(XOR(eXclusive OR)を行なって、演算結果が1となればゼロ交差していることが検出される。
図5(c)は、図5(a)と同様の手法を用いて複数の曲における周波数重心を抽出した結果を横軸にし、図5(b)と同様の手法を用いて複数の曲におけるゼロ交差数を縦軸にして、プロットした図である。図5(c)からわかるように、周波数重心とゼロ交差数とは正の相関関係にあることが分かる。
周波数重心を求めるには、FFTなどの膨大な計算量を必要とする分析手法が必要とされるが、ゼロ交差数は前述したように演算が容易で計算量がFFTに比較して非常に少ないという利点がある。
したがって、ゼロ交差数と周波数重心とに強い相関関係があれば、簡易な演算であって素早く演算できるゼロ交差数演算によって、周波数スペクトルの性質を表す周波数重心を簡易に求めることができる。
このゼロ交差数を利用して、図2の楽器モデルへの適合度を表す量を導入する。一般的な音楽信号のスペクトルは低域にパワを持っているので、周波数重心(ゼロ交差数で代用可能)は比較的小さな値となる。一方、ドラム等パルス性の音や雑音は高域まで広くパワを持つため、周波数重心(ゼロ交差数で代用可能)は大きな値となる。
そこで、楽曲信号Siのゼロ交差数と線形予測残差信号So4のゼロ交差数の比ZCR(Zero Cross Ratio)を用いる。ZCR=(楽曲信号Siのゼロ交差数)/(線形予測残差信号So4のゼロ交差数)と定義する。
楽曲信号Siが図2の楽器モデルに適合し、線形予測残差So4が雑音に近くなった場合、先述のように雑音の周波数重心は大きいため、ZCRの分母が大きくなり、その値は0に近くなると考えられる。
一方、楽曲信号Siが図2の楽器モデルに適合しない場合、線形予測残差So4は雑音とはならず、その周波数重心は楽曲信号Siのものとあまり変化しない。従って、ゼロ交差比ZCRにおいては、分母と分子が近い値になるため、ZCR自体は1に近い値となると考えられる。
よって、ゼロ交差比ZCRにより、楽曲信号Siが図2の楽器モデルにどの程度適合するのかを調べることが期待出来る。
次に、図6を用いて、アコースティック曲と非アコースティック曲とのゼロ交差比の分布の違いについて説明する。ゼロ交差比ZCRの分子は、楽曲信号Siのゼロ交差数である。楽曲によりスペクトルの形状は異なるため、ゼロ交差比ZCRの分子も様々な値を取る。従って、先述のように、ゼロ交差比ZCRの値は、楽器モデルへの適合度を示す可能性があるものの、多数の楽曲からこの値のみにてアコースティック曲と非アコースティック曲を区別することは困難である。
そこで、本実施形態においては、ゼロ交差比の分布が、アコースティック曲と非アコースティック曲とで異なることについて実験データから説明する。
本実施形態においては、ゼロ交差比検出演算部6において、原信号である楽曲信号Siのゼロ交差数と線形予測残差信号So4のゼロ交差数とを検出する。そして、原信号である楽曲信号Siのゼロ交差数と線形予測残差信号So4のゼロ交差数との比をゼロ交差比ZCR(楽曲信号Siのゼロ交差数/線形予測残差信号So4のゼロ交差数)として算出している。
ゼロ交差比ZCRは、0〜1までの間の値をとり、小さい値(0に近い値)であれば、図2の楽器モデルに適合していると考えられる。また、ゼロ交差比ZCRが、大きい値(1に近い値)であれば図2の楽器モデルに不適合であると考えられる。
以下においては、アコースティック曲と非アコースティック曲におけるゼロ交差比について説明する。
図6(a)はアコースティック曲におけるゼロ交差比の度数分布を示す図である。図6(a)の横軸はゼロ交差比の値を示しており、縦軸は度数(ゼロ交差比がその値となるフレームの数)を示している。
図6(b)は非アコースティック曲におけるゼロ交差比の分布を示す図である。図6(a)と同様に図6(b)の横軸はゼロ交差比の値を示しており、縦軸は度数(ゼロ交差比がその値となるフレームの数)を示している。
図6(a)と図6(b)とを比較してわかるように、図6(a)のアコースティック曲におけるゼロ交差比の分布(ばらつき度合い)は狭く集中しており、標準偏差(std dev(standard deviation)も小さい値(標準偏差=0.0356)となっている。これはアコースティック曲の構成がシンプルであり、音域も限られているため、ゼロ交差比ZCRの分子の値(原信号(楽曲信号Si)のゼロ交差数)が一定の範囲に収まること、及び楽器モデル(図2)に適合するフレーム数が多く、分母(線形予測残差信号So4のゼロ交差数)も一定の範囲の値をとることに起因している。
一方、図6(b)の非アコースティック曲におけるゼロ交差比の分布(ばらつき度合い)は広がっており、標準偏差も大きい値(標準偏差=0.0746)となっている。図6(b)の非アコースティック曲の標準偏差(0.0746)は、図6(a)のアコースティック曲の標準偏差(0.0356)のおおよそ2倍となっている。これは、非アコースティック曲においては、楽器構成が多岐に渡り、音域も広くなるため、ゼロ交差比ZCRの分子の値(原信号(楽曲信号Si)のゼロ交差数)が様々になることに起因している。
すなわち、アコースティック曲では、ゼロ交差比の分布は狭く(標準偏差が小さい)、非アコースティック曲では、ゼロ交差比の分布は広がっている(標準偏差が大きい)ことが分かる。
次に図7を用いて、本実施形態における楽曲の解析例について説明する。
図7は、統計処理部7にて演算された特徴量を用い、横軸を線形予測残差パワ比LPRの一楽曲における平均値とし、縦軸を線形予測残差ゼロ交差比ZCRの一楽曲における標準偏差(std dev)としたものである。
横軸の一楽曲における線形予測残差パワ比LPRの平均値は、図7におけるグラフ目盛りの左端が0であり、図7におけるグラフ目盛りの右側へ移動するほど、線形予測残差パワ比LPRの平均値は大きくなる。すなわち、図7におけるグラフ目盛りの右側へ移動するほど線形予測残差信号のパワが大きくなり、楽器モデル(図2)に適合しないことを示しているので、その楽曲がアコースティック曲でない可能性が高くなる。
また、縦軸の一楽曲におけるゼロ交差比ZCRの標準偏差(std dev)は、図7におけるグラフ目盛りの下端が0であり、図7におけるグラフ目盛りの上側へ移動するほど、ゼロ交差比ZCRの標準偏差の値は大きくなる。すなわち、図7におけるグラフ目盛りの上側へ移動するほど楽曲信号においてゼロ交差比ZCRのばらつきが大きくなっていることを示しているので、その楽曲がアコースティック曲でない可能性が高くなる。
また、図7において○印で表示した点はアコースティック曲であることを示し、図7において×印で表示した点は非アコースティック曲であることを示している。○印と×印のポイントは全部で1296箇所ある。つまり、図7は本実施形態の処理を1296楽曲について実施した結果を表した図である。○印で表示されたアコースティック曲は、図7において左下部分に集中していることが分かる。
すなわち、アコースティック曲には、線形予測残差パワ比LPRの平均値が小さく、ゼロ交差比ZCRの標準偏差の値が小さい傾向があるということが図7から分かる。
そこで、本実施形態においては、線形予測残差パワ比LPRの平均値が0.009でありゼロ交差比ZCRの標準偏差が0の地点と、線形予測残差パワ比LPRの平均値が0でありゼロ交差比の標準偏差が0.07の地点とを結んだ線を判別境界ADLとし、その内側(境界線は含んでも含まなくとも良い)にある曲がアコースティック曲であると推定すると、1296曲に含まれるアコースティック曲のうち、おおよそ80%の曲がこの範囲内に含まれる。
このアコースティック曲判別境界線ADL(線形予測残差パワ比LPRの平均値が0.01よりも小さい(閾値を含んでも含まなくともよい。)値(望ましくは0.009前後)と、ゼロ交差比ZCRの標準偏差の値が0.07よりも小さい(閾値を含んでも含まなくともよい。)値(望ましくは0.066前後)とを線形に結んだ線(本実施形態においては直線)によっておおよそ80パーセントの確率で一般の楽曲からアコースティック曲を判別することが可能となる。
ここで、アコースティック曲判別境界線ADLを決定する場合に問題となる適合率(Precision)PRと再現率(Recall)REについて、図8および図9を用いて説明する。
図8は、適合率PRと再現率REとの定義および関係を説明する図である。
図8において本実施形態の楽曲種類判別装置Sを用いて、楽曲信号Siとして入力された楽曲がアコースティック曲であり、判別装置Sによりアコースティック曲であると判別された楽曲の集合がC1である。また、入力された楽曲の中で、アコースティック曲であった楽曲の集合がアコースティック曲群A1である。また、楽曲種類判別装置Sが、入力された楽曲はアコースティック曲であると判別した曲群がB1(アコースティック曲であると判別された曲群)である。
従って、アコースティック曲群A1と、アコースティック曲であると判別された曲群B1とが重なる部分C1(A1∩B1)が、楽曲種類判別装置Sによって正しくアコースティック曲と判別された正解の楽曲群(C1)である。
ここで、適合率PRは(正解の楽曲群C1)/(アコースティック曲であると判別された曲群B1)で表され、再現率REは(正解の楽曲群C1)/(アコースティック曲群A1)で表される。
適合率PRが大きくなれば、誤判定される楽曲の数が小さくなる。したがって、楽曲種類判別装置Sにとって適合率PRが大きくなることが望ましい。
また、再現率REが大きくなれば、アコースティック曲群A1のうち楽曲種類判別装置Sによってアコースティック曲でないと判別される楽曲の数(漏れてしまう楽曲の数)が小さくなる。したがって、楽曲種類判別装置Sにとって再現率REが大きくなることが望ましい。
すなわち、楽曲種類判別装置Sにとって適合率PRおよび再現率REの両方が大きいことが望ましい。しかし、適合率PRと再現率REとはトレードオフの関係にあり、アコースティック曲判別境界線ADLの変化によって適合率PRと再現率REとはトレードオフの関係にありながら変動する(適合率PRが大きくなると再現率REは小さくなり、再現率REが大きくなると適合率PRは小さくなる)。
次に、アコースティック曲判別境界線ADLの変化による、適合率PRと再現率REとの変動関係について図9を用いて説明する。
図9の縦軸は適合率PRと再現率REとを百分率で表示し、横軸はアコースティック曲判別境界線ADLを変化させた図である。
適合率PRと再現率REとは100%に近いほど望ましいのであるが、図9から分かるように、図9に向かって、横軸方向に左から右に移動するに従って、適合率PRが90%以上から60%台に減少していく様子が示されている。一方再現率REは、図9に向かって横軸方向に左から右に移動するに従って、50%台から90%台へと増加する様子が示されている。このように適合率PRと再現率REとは、トレードオフの関係にあり、何れかを100%に近づけようとすると、一方が0%に近づく。したがって、アコースティック曲判別境界線ADLは、適合率PRと再現率REとの重要度に基づいて定められる。
本願では一例として、楽曲種類判別装置Sによる楽曲判別によって、非アコースティック曲をアコースティック曲と判別する場合を少なくするために適合率PRを大きくした場合(適合率PRの重要度が大きい、優先度が大きい)について説明する。図9において、適合率PRが90%の場合である点、適合率PR1に対応する再現率REは75%(再現率RE1)である。この場合におけるアコースティック曲判別境界線ADLを示した図が図7である。
図7については、適合率PRと再現率REとに基づいて説明する。図7のアコースティック曲判別境界線ADLは、図9における適合率PR1と再現率RE1とに基づいて定められた境界線であるから、アコースティック曲判別境界線ADL、縦軸、および横軸で囲まれる部分である図7における左下部分が適合率PR90%、再現率RE75%の領域となる。
従って、楽曲種類判別装置Sによってアコースティック曲であると判別された楽曲のうち90%の楽曲が実際にアコースティク曲であって(楽曲種類判別装置Sの判別が正しい。)、アコースティック曲であると判別された楽曲のうち10%の楽曲が非アコースティク曲である(楽曲種類判別装置Sの判別が間違っている。)。したがって、この場合には、楽曲種類判別装置Sは非アコースティック曲をアコースティック曲であると判別する確率を小さく設定していることになる。
一方、楽曲種類判別装置Sによって、アコースティック曲であると判別されるべきであった楽曲(再現率RE)のうち、アコースティック曲として判別されなかった楽曲は4曲に一曲の割合(25%)となっており、比較的小さい値となっている。
このように本実施形態では、楽曲種類判別装置Sが非アコースティック曲をアコースティック曲であると判別する確率をなるべく小さくしつつ(適合率PRの重要度、優先度を大きくしつつ)、アコースティック曲であると判別されるべき楽曲のうち、アコースティック曲として判別されない楽曲を一定の割合に抑える(再現率REの重要度、優先度を許容できるレベル)構成とするべく図7におけるアコースティック曲判別境界線ADLを設定している。
図7における、アコースティック曲判別境界線ADLの右上方向に行くほど、適合率PRは減少し、再現率REが増加する傾向にある。すなわち、楽曲種類判別装置Sがアコースティック曲であると判別した楽曲のうち非アコースティック曲である楽曲の確率が高くなり(適合率PRは減少)、アコースティック曲であると判別されるべき楽曲のうち、アコースティック曲として判別されない楽曲が減少する(再現率REは増加)傾向にある。
また本発明における判別方法は、上述した線形判別の他、サポートベクターマシン等を活用することもできる。
次に図10のフローチャートを用いて本実施形態の動作について説明する。
ステップS1において、楽曲信号Siが、入力部1に入力される。
ステップS2において、楽曲全体にわたる楽曲信号Si、または楽曲の解析対象区間全体の楽曲信号Siが入力されたか否かが判定される。楽曲全体にわたる楽曲信号Si、または楽曲の解析対象区間全体の楽曲信号Siが入力された場合(ステップS2:YES)の場合には、ステップS10に進む。楽曲全体にわたる楽曲信号Si、または楽曲の解析対象区間全体の楽曲信号Siが入力されていない場合(ステップS2:NO)の場合には、ステップS3に進む。
ステップS3において、入力部1から出力された楽曲信号Siが、フレーム分割部2に入力され、フレーム分割部2は楽曲信号Siを複数のフレームに分割する。分割は時間軸上において複数のフレームに分割することにより行なわれる。
ステップS4において、ステップS2において分割されたフレームについてフレーム毎のパワPsigを、パワ演算比較部3において演算する。
ステップS5において、ステップS3において演算された各フレームのパワPsigが予め定められた楽曲信号パワ閾値(Thp)より大きいか否かが、パワ演算比較部3によって判断される。各フレームのパワが予め定められた楽曲信号パワ閾値(Thp)より大きい場合(ステップS5:Yes)にはステップS6に進む。この場合には、パワ演算比較部3はそのフレームを線形予測分析部4に出力する。また、各フレームのパワが予め定められた楽曲信号パワ閾値(Thp)より小さい場合(ステップS5:No)には、ステップS2に進む。この場合には、パワ演算比較部3はそのフレームを線形予測分析部4に出力しない。次にステップS6に進む。
ステップS6において、線形予測分析部4は各フレームについて線形予測分析を行なう。線形予測分析部4は、各フレームについて線形予測分析演算を行なった結果としての線形予測残差信号So4を線形予測残差信号比較部5へ出力する。
ステップS7において、線形予測残差信号比較部5は、線形予測分析部4から出力され線形予測残差信号比較部5に入力された線形予測残差信号So4について、フレーム毎にパワを求める演算を行なう。また、線形予測残差信号比較部5は、録音レベルによる誤差(線形予測残差信号の比較間違い)を回避するために、同じフレームの楽曲信号Siのパワで正規化を行なう。線形予測残差パワ比LPRは、LPR=(線形予測残差信号So4のフレームのパワ/同じフレームの楽曲信号Siのパワ)によって演算される。
ステップS8において、線形予測残差信号比較部5は、正規化を行なった線形予測残差パワ比LPR(線形予測残差信号So4のフレームのパワ/同じフレームの楽曲信号Siのパワ)が、予め定められた値(ThLPR)よりも小さいか否かを判断する。正規化を行なった線形予測残差パワ比LPRが予め定められた値(ThLPR)よりも小さい場合には、原音である該当する楽曲信号Siの当該フレームの信号がアコースティック音であるとして次の演算を行なう。
すなわち、正規化を行なった線形予測残差パワ比LPRが予め定められた値(ThLPR)よりも小さい場合(ステップS8:YES)の場合にはステップS9に進む。この場合には、線形予測残差信号比較部5は、線形予測残差信号So4を、ゼロ交差比検出演算部6へ出力する。
また、正規化を行なった線形予測残差パワ比LPRが予め定められた値(ThLPR)よりも大きい場合(ステップS8:NO)の場合にはステップS2に進む。この場合には、線形予測残差信号比較部5は、線形予測残差信号So4を、ゼロ交差比検出演算部6へは出力しない。
ここで、予め定められた値(ThLPR)は1よりも小さい値であって任意の値を設定することができる(原信号(楽曲信号Si)のパワよりも線形予測残差信号So4のパワが小さいフレームを抽出する。)。
ステップS9において、ゼロ交差比検出演算部6は入力された線形予測残差信号So4および楽曲信号Siについてゼロ交差数を検出する。そして、ゼロ交差比検出演算部6は楽曲信号の特徴量としてゼロ交差比ZCRを演算する。ゼロ交差比ZCRは、(原信号(楽曲信号Si)のゼロ交差数/線形予測残差信号So4のゼロ交差数)で演算される。
ステップS11において、統計処理部7は、線形予測残差パワ比LPRの平均を演算し、ゼロ交差比ZCRの分布(ばらつき度合い)について統計的な演算を行なう。例えば、本実施形態の一例として、ゼロ交差比ZCRの標準偏差を求める。標準偏差は、楽曲信号Siとして入力され、フレーム分割部2において分割されたフレーム毎に、ゼロ交差比検出演算部6にて算出されたゼロ交差比ZCRを、統計処理部7が統計処理をすることによって演算される。
ステップS12において、楽曲判別部8は、ステップS9において演算された線形予測残差パワ比LPRの平均、及びゼロ交差比ZCRの分布を表す特徴量(一実施例として標準偏差)に基づいて、入力部1に入力された楽曲信号Siがアコースティック曲であるか否かを判断する。線形予測残差パワ比LPRの平均、及びゼロ交差比ZCRの分布を表す特徴量(一実施例として標準偏差)と判別境界を照合し、それらが境界内にある場合は、楽曲判別部8は楽曲信号Siがアコースティック曲であると判断し、判別出力Soに楽曲信号Siがアコースティック曲であることを示す情報を付加する(一例として判別出力SoをHigh状態にする)。また、判別境界外にある場合は、楽曲判別部8は楽曲信号Siが非アコースティック曲であると判断し、判別出力Soに楽曲信号Siが非アコースティック曲であることを示す情報を付加する(一例として判別出力SoをLow状態にする)。
また、本実施形態においては、アコースティク曲を判別するための手順として各処理部の動作を説明したが、非アコースティック曲を判別するために各処理部の動作を説明することもできる(この場合にはステップS5、ステップS8およびステップS11での各閾値との比較判断は逆となる)。
以上説明したように、本発明によれば、FFT等の周波数分析演算を使用しないので、少ない演算量でかつ正確にアコースティク曲と非アコースティック曲とを判別することが可能となった。
また、本発明によれば、入力信号はフレーム単位(予め定められた単位)で演算されるので、演算量が少なく、高速かつ正確に演算を行なうことが可能となった。
さらに、本発明によれば、時系列分析が線形予測分析で行なわれるので、時系列分析を高速フーリエ変換FFTで行った場合のように膨大な計算量(重たい演算)と計算時間とが必要なくなる。したがって、簡易な構成による少ない演算量によって、楽曲を判別するための時系列分析を行なうことができるようになった。
さらに、本発明によれば、周波数重心を求めるための膨大な計算量(重たい演算)と計算時間とが必要な高速フーリエ変換FFTを必要とせず、ゼロクロス数だけをカウントすればよいので、簡易な構成かつ極めて少ない演算量で楽曲の信号処理を行なうことが可能となった。
さらに、本発明によれば、統計処理手段は、分布の広がり具合を統計処理値としているので、構成がシンプルで音域も限られるアコースティック曲の特徴量を容易に把握することが可能となった。また、非アコースティック曲および複数のアコースティック楽器が同時に演奏される部分を効率よく判別することが可能となった。
さらに、本発明によれば、分析結果の絶対値を使用することによる入力信号のレベルおよび入力信号の雑音レベルによる判断ミスを最小限に減少させることが可能となった。
さらに、本発明によれば、入力信号中の無音部分を効率よく排除することが可能となったので、次段以降の演算結果の信頼性が上がり、結果として楽曲種類の判別の精度があがった。また、無駄な演算をする必要がなくなったので、演算量を減少することができた。
さらに、本発明によれば、統計処理が行なわれるのは、分析値が予め定められた値以下のフレームである。したがって、バイオリン等の擦弦楽器および管楽器等の楽器による楽曲は発音中ずっと音源部がパワを持つので、予め定められた値をこれらのフレーム毎に持つパワ値以下とすることにより、ピアノ(打弦)およびギター(撥弦)等の楽器によるアコースティック曲を精度よく分離することが可能となる。
また、本実施形態においては、ゼロ交差比を用いているが、本発明はゼロ交差比に限定されるわけではなく、ゼロ交差比の代わりに線形予測残差信号と原信号(楽曲信号Si)との相関値を用いることもできる。この場合には、ゼロ交差比を演算するための演算量よりも少し演算量が増えるが、アコースティック曲および非アコースティック曲を判別する精度は、ゼロ交差比を用いる場合よりもよくなる。
また、本実施の形態で説明した楽曲種類判別装置は、家庭(ホーム)または車(カー)におけるミュージックサーバに適用できる他に、音楽配信技術、楽曲情報に関するコンピュータプログラムにも適用することができる。さらにホームシアターシステム、PDP等の薄型テレビ、PC、ポータブルDVD等のパーソナルサラウンドシステムに適用することが可能である。
なお、図10における動作手順を、ハードディスク等の記録媒体に予め記録しておき、或いはインターネット等のネットワークを介して予め記録しておき、これを汎用のマイクロコンピュータ等により読み出して実行することにより、当該汎用のマイクロコンピュータ等を実施形態に係わるCPUとして機能させることも可能である。
本実施形態の楽曲種類判別装置の構成を示すブロック図である。 本実施形態の楽器モデル及び線形予測分析を説明する図である。 本実施形態における線形予測残差パワ比LPRの閾値決定方法の一例を示す図である。 本実施形態の入力信号と予測残差信号の時間軸特性および周波数軸特性の一例を示す図である。 本実施形態の周波数重心とゼロ交差数との関係の一例を示す図である。 本実施形態のアコースティック曲と非アコースティック曲とのゼロ交差比の分布の一例を示す図である。 本実施形態において楽曲をゼロ交差比と残差パワ比で解析した一例を示す図である。 本実施形態の適合率と再現率とを説明する図である。 本実施形態の適合率と再現率との関係を示す図である。 本実施形態の動作を示すフローチャートである。信号処理部の左スピーカ入力用サラウンド信号の流れを示す構成図である。
符号の説明
1 … 入力部
2 … フレーム分割部
3 … パワ演算比較部
4 … 線形予測分析部
5 … 線型予測残差信号比較部
6 … ゼロ交差検出演算部
7 … 系統処理部
8 … 楽曲判別部
Si … 楽曲信号
So … 判別出力

Claims (7)

  1. 入力された楽曲信号に基づいて、前記楽曲信号を分析し、楽曲の種類の判別を行なう楽曲種類判別装置において、
    入力された前記楽曲信号のパワを演算する楽曲パワ演算手段と、
    前記楽曲信号を線形予測分析することにより、線形予測残差を算出する線形予測残差算出手段と、
    前記楽曲信号のパワと前記算出された線形予測残差のパワとの比である線形予測残差パワ比を算出する線形予測残差パワ比算出手段と、
    前記算出された線形予測残差の零交差数と、前記楽曲信号の零交差数との比である零交差数比を算出する零交差数比算出手段と、
    前記線形予測残差パワ比と零交差数比とに対して統計処理する統計処理手段と、
    記統計処理手段によって統計処理された線形予測残差パワ比の統計処理値と、零交差数比の統計処理値に基づいて、前記楽曲信号の種類を判別する判別手段と、
    を備えることを特徴とする楽曲種類判別装置。
  2. 請求項1に記載の楽曲種類判別装置において、
    前記統計処理手段が、前記線形予測残差パワ比の平均値と、零交差数比の分散値又は標準偏差値とを算出し、
    前記判別手段は、前記線形予測残差パワ比の平均値と、前記零交差数比の分散値又は標準偏差値との空間に判別境界を設け、当該判別境界に応じて前記楽曲信号の種類を判別することを特徴とする楽曲種類判別装置。
  3. 請求項1または請求項2に記載の楽曲種類判別装置において、
    前記楽曲信号を予め定められた単位に分割する分割手段を更に備え、
    前記楽曲パワ演算手段、前記線形予測残差算出手段、前記線形予測残差パワ比算出手段、および、前記零交差数比算出手段は前記分割手段によって分割された前記楽曲信号の単位に基づいて演算処理を行なうことを特徴とする楽曲種類判別装置。
  4. 請求項1乃至3の何れか一項に記載の楽曲種類判別装置において、
    前記楽曲パワ演算手段は、演算された前記楽曲パワを予め定められた値と比較する比較手段を有し、前記楽曲パワ比が予め定められた値よりも大きいと比較判断された場合に、前記線形予測残差を算出することを特徴とする楽曲種類判別装置。
  5. 請求項1乃至3の何れか一項に記載の楽曲種類判別装置において、
    前記線形予測残差パワ比算出手段は、前記線形予測残差パワ比を予め定められた値と比較する比較手段を有し、前記線形予測残差パワ比が予め定められた値よりも小さいと比較判断された場合に、零交差数比を算出することを特徴とする楽曲種類判別装置。
  6. 入力された楽曲信号に基づいて、前記楽曲信号を分析し、楽曲の種類の判別を行なう楽曲種類判別方法において、
    入力された前記楽曲信号のパワを演算する楽曲パワ演算工程と、
    前記楽曲信号を線形予測分析することにより、線形予測残差を算出する線形予測残差算出工程と、
    前記楽曲信号のパワと前記算出された線形予測残差のパワとの比である線形予測残差パワ比を算出する線形予測残差パワ比算出工程と、
    前記算出された線形予測残差の零交差数と、前記楽曲信号の零交差数との比である零交差数比を算出する零交差数比算出工程と、
    前記線形予測残差パワ比と零交差数比とに対して統計処理する統計処理工程と、
    前記統計処理手段によって統計処理された線形予測残差パワ比の統計処理値と、零交差数比の統計処理値とに基づいて、前記楽曲信号の種類を判別する判別工程と、
    を有することを特徴とする楽曲種類判別方法。
  7. 請求項1に記載の楽曲種類判別装置に含まれるコンピュータを、
    入力された楽曲信号のパワを演算する楽曲パワ演算手段、
    前記楽曲信号を線形予測分析することにより、線形予測残差を算出する線形予測残差算出手段、
    前記楽曲信号のパワと前記算出された線形予測残差のパワとの比である線形予測残差パワ比を算出する線形予測残差パワ比算出手段、
    前記算出された線形予測残差の零交差数と、前記楽曲信号の零交差数との比である零交差数比を算出する零交差数比算出手段、
    前記線形予測残差パワ比と零交差数比とに対して統計処理する統計処理手段、および、
    前記統計処理手段によって統計処理された線形予測残差パワ比の統計処理値と、零交差数比の統計処理値とに基づいて、前記楽曲信号の種類を判別する判別手段として機能させることを特徴とする楽曲種類判別プログラム。
JP2007076073A 2007-03-23 2007-03-23 楽曲種類判別装置、楽曲種類判別方法、および楽曲種類判別プログラム Expired - Fee Related JP4871182B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007076073A JP4871182B2 (ja) 2007-03-23 2007-03-23 楽曲種類判別装置、楽曲種類判別方法、および楽曲種類判別プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007076073A JP4871182B2 (ja) 2007-03-23 2007-03-23 楽曲種類判別装置、楽曲種類判別方法、および楽曲種類判別プログラム

Publications (2)

Publication Number Publication Date
JP2008233725A JP2008233725A (ja) 2008-10-02
JP4871182B2 true JP4871182B2 (ja) 2012-02-08

Family

ID=39906549

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007076073A Expired - Fee Related JP4871182B2 (ja) 2007-03-23 2007-03-23 楽曲種類判別装置、楽曲種類判別方法、および楽曲種類判別プログラム

Country Status (1)

Country Link
JP (1) JP4871182B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2010021035A1 (ja) * 2008-08-20 2012-01-26 パイオニア株式会社 情報生成装置及び情報生成方法並びに情報生成用プログラム

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120045065A1 (en) * 2009-04-17 2012-02-23 Pioneer Corporation Surround signal generating device, surround signal generating method and surround signal generating program
JP4837123B1 (ja) * 2010-07-28 2011-12-14 株式会社東芝 音質制御装置及び音質制御方法
CN113327618B (zh) * 2021-05-17 2024-04-19 西安讯飞超脑信息科技有限公司 声纹判别方法、装置、计算机设备和存储介质
CN113327617B (zh) * 2021-05-17 2024-04-19 西安讯飞超脑信息科技有限公司 声纹判别方法、装置、计算机设备和存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4438144B2 (ja) * 1999-11-11 2010-03-24 ソニー株式会社 信号分類方法及び装置、記述子生成方法及び装置、信号検索方法及び装置
JP4219539B2 (ja) * 2000-08-11 2009-02-04 日本放送協会 音響分類装置
WO2006003848A1 (ja) * 2004-06-30 2006-01-12 Matsushita Electric Industrial Co., Ltd. 楽曲情報算出装置及び楽曲再生装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2010021035A1 (ja) * 2008-08-20 2012-01-26 パイオニア株式会社 情報生成装置及び情報生成方法並びに情報生成用プログラム

Also Published As

Publication number Publication date
JP2008233725A (ja) 2008-10-02

Similar Documents

Publication Publication Date Title
Eronen et al. Musical instrument recognition using cepstral coefficients and temporal features
Herrera-Boyer et al. Automatic classification of pitched musical instrument sounds
Brossier Automatic annotation of musical audio for interactive applications
US8592670B2 (en) Polyphonic note detection
Carabias-Orti et al. Musical instrument sound multi-excitation model for non-negative spectrogram factorization
CN106571150B (zh) 一种识别音乐中的人声的方法和系统
Krishna et al. Music instrument recognition: from isolated notes to solo phrases
Benetos et al. Joint multi-pitch detection using harmonic envelope estimation for polyphonic music transcription
US9305570B2 (en) Systems, methods, apparatus, and computer-readable media for pitch trajectory analysis
JP4871182B2 (ja) 楽曲種類判別装置、楽曲種類判別方法、および楽曲種類判別プログラム
Caetano et al. Automatic segmentation of the temporal evolution of isolated acoustic musical instrument sounds using spectro-temporal cues
Su et al. Exploiting Frequency, Periodicity and Harmonicity Using Advanced Time-Frequency Concentration Techniques for Multipitch Estimation of Choir and Symphony.
Tardieu et al. An instrument timbre model for computer aided orchestration
Kothe et al. Musical instrument recognition using k-nearest neighbour and Support Vector Machine
Kitahara Mid-level representations of musical audio signals for music information retrieval
Zlatintsi et al. Musical instruments signal analysis and recognition using fractal features
Bhalke et al. Hybridization of fractional fourier transform and acoustic features for musical instrument recognition
Bhalke et al. Fractional fourier transform based features for musical instrument recognition using machine learning techniques
JP4843711B2 (ja) 楽曲種類判別装置、楽曲種類判別方法、および楽曲種類判別プログラム
Hu et al. Dynamic characteristics of musical note for musical instrument classification
Zhang Cooperative music retrieval based on automatic indexing of music by instruments and their types
Kothe et al. Musical instrument recognition using wavelet coefficient histograms
Shelke et al. An Effective Feature Calculation For Analysis & Classification of Indian Musical Instruments Using Timbre Measurement
Bando et al. A chord recognition method of guitar sound using its constituent tone information
Dosenbach et al. Identification of individual guitar sounds by support vector machines

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100215

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110822

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110830

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111025

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111115

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111118

R150 Certificate of patent or registration of utility model

Ref document number: 4871182

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141125

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees