JP5732994B2

JP5732994B2 - 楽曲検索装置および方法、プログラム、並びに記録媒体

Info

Publication number: JP5732994B2
Application number: JP2011092987A
Authority: JP
Inventors: 澁谷　崇; 崇澁谷; 安部　素嗣; 素嗣安部
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2011-04-19
Filing date: 2011-04-19
Publication date: 2015-06-10
Anticipated expiration: 2031-04-19
Also published as: US20120266743A1; EP2515295A1; CN102750948A; CN102750948B; EP2515295B1; US8754315B2; JP2012226080A

Description

本技術は、楽曲検索装置および方法、プログラム、並びに記録媒体に関し、特に、入力信号から楽曲を同定することができるようにする楽曲検索装置および方法、プログラム、並びに記録媒体に関する。

従来、入力信号として入力される楽曲を同定するために、入力信号の特徴量と、同定される楽曲の候補となる参照信号の特徴量とのマッチング処理が行われている。しかしながら、例えば、ドラマ等のテレビジョン番組の放送音源を入力信号とした場合、入力信号には、BGM（Back Ground Music）としての楽曲の信号成分と、人の会話や騒音（環境雑音）、ホワイトノイズやピンクノイズ、効果音等、楽曲以外の信号成分である雑音成分（以下、単に雑音ともいう）とが混在していることが多く、この雑音による入力信号の特徴量の変化が、マッチング処理の結果に影響を及ぼしてしまう。

そこで、入力信号の特徴量において、信頼度の低い成分をマスクするマスクパターンを用いて、信頼度の高い成分のみを用いてマッチング処理を行う技術が提案されている。

具体的には、時間周波数領域の信号に変換された入力信号の特徴量を表現する特徴行列に対して、所定の時間周波数領域に対応する行列成分をマスクする複数種類のマスクパターンを予め用意し、入力信号の特徴量とデータベース内の複数の参照信号の特徴量とのマッチング処理を全てのマスクパターンを用いて行い、最も高い類似度が算出された参照信号の楽曲を、入力信号の楽曲として同定するようにしたものがある（例えば、特許文献１参照）。

特開２００９−２７６７７６号公報

しかしながら、入力信号において、どの時間にどの周波数の雑音が重畳されているかは予測できず、そのような入力信号に適したマスクパターンを予め用意することは困難であるので、特許文献１の技術では、適切なマッチング処理を行うことができず、楽曲と雑音とが混在する入力信号から、その楽曲を精度良く同定することはできない。

一方で、入力信号において平均パワーが大きい時間区間における成分を、楽曲以外の雑音が重畳されている成分と仮定し、入力信号において平均パワーが小さい時間区間の特徴量のみを用いてマッチングを行うようにするマスクパターンを作成する技術がある。この手法によれば、入力信号に応じたマスクパターンを作成することはできるが、そのマスクパターンは、周波数成分が考慮されておらず、入力信号に適したマスクパターンとは言えない。さらに、図１の左側に示されるように、時間周波数領域の入力信号において、楽曲の信号成分Dmに人の会話による雑音Dvが含まれている場合、この技術では、人の会話が途切れている領域S1およびS2におけるわずかな時間区間の特徴量のみを用いてしかマッチング処理を行うことができないので、楽曲と雑音とが混在する入力信号から、その楽曲を精度良く同定することは困難である。楽曲と雑音とが混在する入力信号から、その楽曲を精度良く同定するには、図１の右側に示されるように、領域S3およびS4における楽曲の信号成分Dmの特徴量を用いてマッチング処理を行うことが望ましい。

本技術は、このような状況に鑑みてなされたものであり、入力信号から楽曲を精度良く同定することができるようにするものである。

本技術の一側面の楽曲検索装置は、入力信号を楽曲のみからなる参照信号と比較することによって、前記入力信号の楽曲を同定する楽曲検索装置であって、時間周波数領域に変換された前記入力信号の各領域の信号成分の強さと、前記信号成分の強さを近似した関数とに基づいて、前記信号成分のトーンらしさの指標を算出する指標算出部と、前記指標に基づいて求められる前記入力信号の各領域における特徴量と、時間周波数領域に変換された前記参照信号について算出された前記指標に基づいて求められる前記参照信号の各領域における前記特徴量の類似度を算出する類似度算出部と、前記類似度に基づいて、前記入力信号の楽曲を同定する楽曲同定部とを備え、前記指標算出部は、所定の時間区間の前記入力信号から、前記信号成分の強さが極大となる点を検出する極大点検出部と、前記極大となる点近傍の前記信号成分の強さをテンプレート関数で近似する近似処理部とを備え、前記極大となる点近傍の前記信号成分の強さと前記テンプレート関数との誤差に基づいて、前記指標を算出する。

前記指標算出部には、前記テンプレート関数の曲率に応じて前記指標を調整させることができる。

前記指標算出部には、前記テンプレート関数が極大となる点の周波数に応じて前記指標を調整させることができる。

前記楽曲検索装置には、前記入力信号の各領域における第１の特徴量と、前記参照信号の各領域における前記第１の特徴量とに基づいて、前記入力信号および前記参照信号の各領域に対する重み分布を生成するとともに、前記入力信号の各領域における第１の特徴量と、前記参照信号の各領域における前記第１の特徴量との第１の特徴量同士の類似度を算出する重み分布生成手段をさらに設け、前記類似度算出部には、前記重み分布による重み付けおよび前記第１の特徴量同士の類似度に基づいて、前記入力信号の各領域における第２の特徴量と、前記参照信号の各領域における前記第２の特徴量の類似度を算出させることができる。

前記楽曲検索装置には、前記指標を時間方向にフィルタリングすることにより得られる前記指標の時間平均量を、前記第１の特徴量として算出する第１の特徴量算出部と、前記指標を時間方向にフィルタリングすることにより得られる前記指標の時間変化量を、前記第２の特徴量として算出する第２の特徴量算出部とをさらに設けることができる。

本技術の一側面の楽曲検索方法は、入力信号を楽曲のみからなる参照信号と比較することによって、前記入力信号の楽曲を同定する楽曲検索方法であって、時間周波数領域に変換された前記入力信号の各領域の信号成分の強さと、前記信号成分の強さを近似した関数とに基づいて、前記信号成分のトーンらしさの指標を算出する指標算出ステップと、前記指標に基づいて求められる前記入力信号の各領域における特徴量と、時間周波数領域に変換された前記参照信号について算出された前記指標に基づいて求められる前記参照信号の各領域における前記特徴量の類似度を算出する類似度算出ステップと、前記類似度に基づいて、前記入力信号の楽曲を同定する楽曲同定ステップとを含み、前記指標算出ステップは、所定の時間区間の前記入力信号から、前記信号成分の強さが極大となる点を検出する極大点検出ステップと、前記極大となる点近傍の前記信号成分の強さをテンプレート関数で近似する近似処理ステップとを含み、前記極大となる点近傍の前記信号成分の強さと前記テンプレート関数との誤差に基づいて、前記指標を算出する。

本技術の一側面のプログラムおよび一側面の記録媒体に記録されるプログラムは、入力信号を楽曲のみからなる参照信号と比較することによって、前記入力信号の楽曲を同定する信号処理をコンピュータに実行させるプログラムであって、時間周波数領域に変換された前記入力信号の各領域の信号成分の強さと、前記信号成分の強さを近似した関数とに基づいて、前記信号成分のトーンらしさの指標を算出する指標算出ステップと、前記指標に基づいて求められる前記入力信号の各領域における特徴量と、時間周波数領域に変換された前記参照信号について算出された前記指標に基づいて求められる前記参照信号の各領域における前記特徴量の類似度を算出する類似度算出ステップと、前記類似度に基づいて、前記入力信号の楽曲を同定する楽曲同定ステップとを含む処理をコンピュータに実行させ、前記指標算出ステップは、所定の時間区間の前記入力信号から、前記信号成分の強さが極大となる点を検出する極大点検出ステップと、前記極大となる点近傍の前記信号成分の強さをテンプレート関数で近似する近似処理ステップとを含み、前記極大となる点近傍の前記信号成分の強さと前記テンプレート関数との誤差に基づいて、前記指標を算出する。

本技術の一側面においては、時間周波数領域に変換された入力信号の各領域の信号成分の強さと、信号成分の強さを近似した関数とに基づいて、信号成分のトーンらしさの指標が算出され、指標に基づいて求められる入力信号の各領域における特徴量と、時間周波数領域に変換された参照信号について算出された指標に基づいて求められる参照信号の各領域における特徴量の類似度が算出され、類似度に基づいて、入力信号の楽曲が同定される。特に、所定の時間区間の入力信号から、信号成分の強さが極大となる点が検出され、極大となる点近傍の信号成分の強さがテンプレート関数で近似され、極大となる点近傍の信号成分の強さとテンプレート関数との誤差に基づいて、指標が算出される。

本技術の一側面によれば、入力信号から楽曲を精度良く同定することが可能となる。

マッチング処理に用いられる入力信号の特徴量について説明する図である。本技術を適用した楽曲検索装置の一実施の形態の構成を示すブロック図である。指標算出部の機能構成例を示すブロック図である。第１の特徴量算出部の機能構成例を示すブロック図である。第２の特徴量算出部の機能構成例を示すブロック図である。楽曲同定処理について説明するフローチャートである。入力信号解析処理について説明するフローチャートである。指標算出処理について説明するフローチャートである。ピークの検出について説明する図である。ピーク周辺のパワースペクトルの近似について説明する図である。指標の調整関数について説明する図である。入力信号のトーンらしさの指標の例について説明する図である。第１の特徴量算出処理について説明するフローチャートである。第１の特徴量の例について説明する図である。第２の特徴量算出処理について説明するフローチャートである。第２の特徴量の例について説明する図である。参照信号解析処理について説明するフローチャートである。マッチング処理について説明するフローチャートである。マスクパターンの生成の例について説明する図である。入力信号の第２の特徴量と参照信号の第２の特徴量とのマッチング処理について説明する図である。時系列に並べられた類似度の例を示す図である。類似度の時間的連続性について説明する図である。コンピュータのハードウェアの構成例を示すブロック図である。

以下、本技術の実施の形態について図を参照して説明する。なお、説明は以下の順序で行う。
１．楽曲検索装置の構成
２．楽曲同定処理

＜１．楽曲検索装置の構成＞
図２は、本技術を適用した楽曲検索装置の一実施の形態の構成を示している。

図２の楽曲検索装置１１は、楽曲の信号成分と、人の会話や騒音等の雑音成分（雑音）とが混在した入力信号と、雑音が混在しない楽曲の信号成分からなる参照信号とを比較することで、入力信号の楽曲を同定し、その同定結果を出力する。

楽曲検索装置１１は、入力信号解析部３１、参照信号解析部３２、およびマッチング処理部３３から構成される。

入力信号解析部３１は、外部の装置等から入力される入力信号を解析し、入力信号の特徴を表す特徴量を入力信号から抽出し、マッチング処理部３３に供給する。

入力信号解析部３１は、切り出し部５１、時間周波数変換部５２、指標算出部５３、第１の特徴量算出部５４、および第２の特徴量算出部５５を備えている。

切り出し部５１は、入力信号から所定時間分の信号を切り出し、時間周波数変換部５２に供給する。

時間周波数変換部５２は、切り出し部５１からの所定時間分の入力信号を、時間周波数領域の信号（スペクトログラム）に変換し、指標算出部５３に供給する。

指標算出部５３は、時間周波数変換部５２からの入力信号のスペクトログラムから、そのスペクトログラムの時間周波数領域毎に、楽曲の信号成分であることを表すトーンらしさの指標を算出し、第１の特徴量算出部５４および第２の特徴量算出部５５に供給する。

ここで、トーンらしさの指標とは、入力信号における周波数毎の信号成分の強さ（パワースペクトル）で表されるトーンの時間に対する安定性を示すものとする。一般的に、楽曲においては、ある特定の音程（周波数）を持つ音がある一定時間鳴り続けるため、時間方向に対してトーンは安定する。一方、人の会話においては、時間方向に対してトーンはゆらぐ性質を持ち、また、環境雑音においては、時間方向に連続するトーンがあまり見られない。そこで、指標算出部５３は、所定の時間区間分の入力信号について、トーンの有無および安定性を数値化することで、トーンらしさの指標を求める。

第１の特徴量算出部５４は、指標算出部５３からの、スペクトログラムの時間周波数領域毎のトーンらしさの指標に基づいて、入力信号の楽曲らしさを表す特徴量である第１の特徴量を算出し、マッチング処理部３３に供給する。

第２の特徴量算出部５５は、指標算出部５３からの、スペクトログラムの時間周波数領域毎のトーンらしさの指標に基づいて、入力信号の楽曲の個性を表す特徴量である第２の特徴量を算出し、マッチング処理部３３に供給する。

参照信号解析部３２は、図示せぬ記憶部に蓄積されているか、または、外部の装置等から入力されてくる参照信号を解析し、その参照信号の特徴を表す特徴量を参照信号から抽出し、マッチング処理部３３に供給する。

参照信号解析部３２は、時間周波数変換部６１、指標算出部６２、第１の特徴量算出部６３、および第２の特徴量算出部６４を備えている。

時間周波数変換部６１は、参照信号をスペクトログラムに変換し、指標算出部６２に供給する。

指標算出部６２は、時間周波数変換部６１からの参照信号のスペクトログラムから、そのスペクトログラムの時間周波数領域毎に、楽曲の信号成分であることを表すトーンらしさの指標を算出し、第１の特徴量算出部６３および第２の特徴量算出部６４に供給する。

第１の特徴量算出部６３は、指標算出部６２からの、スペクトログラムの時間周波数領域毎のトーンらしさの指標に基づいて、参照信号の楽曲らしさを表す第１の特徴量を算出し、マッチング処理部３３に供給する。

第２の特徴量算出部６４は、指標算出部６２からの、スペクトログラムの時間周波数領域毎のトーンらしさの指標に基づいて、参照信号の楽曲の個性を表す第２の特徴量を算出し、マッチング処理部３３に供給する。

マッチング処理部３３は、入力信号解析部３１からの入力信号の第１の特徴量と、参照信号解析部３２からの参照信号の第１の特徴量とに基づいて、入力信号解析部３１からの入力信号の第２の特徴量と、参照信号解析部３２からの参照信号の第２の特徴量とのマッチング処理を行うことで、入力信号に含まれる楽曲を同定する。

マッチング処理部３３は、マスクパターン生成部７１、類似度算出部７２、および比較判定部７３を備えている。

マスクパターン生成部７１は、入力信号解析部３１からの入力信号の時間周波数領域毎の第１の特徴量と、参照信号解析部３２からの参照信号の時間周波数領域毎の第１の特徴量とに基づいて、入力信号の第２の特徴量と参照信号の第２の特徴量とのマッチング処理に用いられるマスクパターンを生成し、類似度算出部７２に供給する。また、マスクパターン生成部７１は、入力信号解析部３１からの入力信号の時間周波数領域毎の第１の特徴量と、参照信号解析部３２からの参照信号の時間周波数領域毎の第１の特徴量との類似度である第１の特徴量同士の類似度を算出し、類似度算出部７２に供給する。

類似度算出部７２は、マスクパターン生成部７１からのマスクパターンおよび第１の特徴量同士の類似度を用いて、入力信号解析部３１からの入力信号の第２の特徴量と、参照信号解析部３２からの第２の参照信号の特徴量との類似度を算出し、比較判定部７３に供給する。

比較判定部７３は、類似度算出部７２からの類似度に基づいて、入力信号に含まれる楽曲が参照信号の楽曲であるか否かを判定し、その参照信号の楽曲の属性を表す楽曲属性情報を、同定結果として出力する。

［指標算出部の構成］
次に、図３を参照して、図２の指標算出部５３の詳細な構成について説明する。

図３の指標算出部５３は、時間区間選択部８１、ピーク検出部８２、近似処理部８３、トーン度算出部８４、および出力部８５を備えている。

時間区間選択部８１は、時間周波数変換部５２からの入力信号のスペクトログラムにおいて、所定の時間区間のスペクトログラムを選択し、ピーク検出部８２に供給する。

ピーク検出部８２は、時間区間選択部８１によって選択された所定の時間区間（時間フレーム）のスペクトログラムにおいて、単位周波数毎に、信号成分の強さが極大となる点であるピークを検出する。

近似処理部８３は、所定の時間区間のスペクトログラムにおいて、ピーク検出部８２によって検出されたピーク周辺の信号成分の強さ（パワースペクトル）を、所定の関数で近似する。

トーン度算出部８４は、近似処理部８３により近似された所定の関数と、ピーク検出部８２によって検出されたピーク周辺のパワースペクトルとの距離（誤差）に基づいて、所定の時間区間分のスペクトログラムについての、トーンらしさの指標を数値化したトーン度を算出する。

出力部８５は、トーン度算出部８４によって算出された、所定の時間区間分のスペクトログラムについてのトーン度を保持する。また、出力部８５は、保持している全時間区間分のスペクトログラムについてのトーン度を、切り出し部５１により切り出された所定時間分の入力信号のトーンらしさの指標として、第１の特徴量算出部５４および第２の特徴量算出部５５に供給する。

このようにして、時間周波数領域における所定の時間区間毎、単位周波数毎にトーン度（要素）を持つトーンらしさの指標が算出される。

［第１の特徴量算出部の構成］
次に、図４を参照して、図２の第１の特徴量算出部５４の詳細な構成について説明する。

図４の第１の特徴量算出部５４は、フィルタ処理部９１、リサンプリング処理部９２、および２値化処理部９３を備えている。

フィルタ処理部９１は、指標算出部５３からの、入力信号の時間周波数領域における所定の時間区分毎、単位周波数毎にトーン度（要素）を持つトーンらしさの指標に対して、時間方向にフィルタリングすることで、トーンらしさの指標の時間平均量を算出し、入力信号の楽曲らしさを表す第１の特徴量として、リサンプリング処理部９２に供給する。

リサンプリング処理部９２は、フィルタ処理部９１からの第１の特徴量を、時間方向にリサンプリング（ダウンサンプリング）し、２値化処理部９３に供給する。

２値化処理部９３は、リサンプリング処理部９２からのダウンサンプリングされた第１の特徴量に対して２値化処理を施し、マッチング処理部３３に供給する。

［第２の特徴量算出部の構成］
次に、図５を参照して、図２の第２の特徴量算出部５５の詳細な構成について説明する。

図５の第２の特徴量算出部５５は、フィルタ処理部１０１、リサンプリング処理部１０２、および３値化処理部１０３を備えている。

フィルタ処理部１０１は、指標算出部５３からの、入力信号の時間周波数領域における所定の時間区分毎、単位周波数毎にトーン度（要素）を持つトーンらしさの指標に対して、時間方向にフィルタリングすることで、トーンらしさの指標の時間変化量を算出し、入力信号の楽曲の個性を表す第２の特徴量として、リサンプリング処理部１０２に供給する。

リサンプリング処理部１０２は、フィルタ処理部１０１からの第２の特徴量を、時間方向にリサンプリング（ダウンサンプリング）し、３値化処理部１０３に供給する。

３値化処理部１０３は、リサンプリング処理部１０２からのダウンサンプリングされた第２の特徴量に対して３値化処理を施し、マッチング処理部３３に供給する。

なお、図２の参照信号解析部３２の指標算出部６２、第１の特徴量算出部６３、および第２の特徴量算出部６４は、それぞれ、上述で説明した入力信号解析部３１の指標算出部５３、第１の特徴量算出部５４、および第２の特徴量算出部５５と同様の機能および構成を有するので、その詳細な説明は省略する。

＜２．楽曲同定処理＞
次に、図６のフローチャートを参照して、楽曲検索装置１１の楽曲同定処理について説明する。楽曲同定処理は、外部の装置等から、同定されるべき楽曲が含まれる入力信号が楽曲検索装置１１に入力されると開始される。なお、楽曲検索装置１１には、入力信号が、時間的に連続して入力される。

ステップＳ１１において、入力信号解析部３１は、入力信号解析処理を実行し、外部の装置等から入力された入力信号を解析し、入力信号の特徴量を入力信号から抽出する。

［入力信号解析処理の詳細］
ここで、図７のフローチャートを参照して、図６のフローチャートのステップＳ１１における入力信号解析処理の詳細について説明する。

ステップＳ３１において、入力信号解析部３１の切り出し部５１は、入力信号から所定時間（例えば、１５秒間）分の信号を切り出し、時間周波数変換部５２に供給する。

ステップＳ３２において、時間周波数変換部５２は、例えばハン窓等の窓関数や、例えば離散フーリエ変換等を用いて、切り出し部５１からの所定時間分の入力信号をスペクトログラムに変換し、指標算出部５３に供給する。なお、ここでは、窓関数として、ハン窓に限らず、サイン窓やハミング窓が用いられてもよく、また、離散フーリエ変換に限らず、離散コサイン変換が用いられてもよい。さらに、変換されたスペクトログラムは、パワースペクトルや振幅スペクトル、対数振幅スペクトルのいずれであってもよい。また、周波数分解能を高めるために、零詰めによるオーバーサンプリングにより周波数変換長を窓の長さより長く（例えば２倍や４倍等に）してもよい。

ステップＳ３３において、指標算出部５３は、指標算出処理を実行することで、時間周波数変換部５２からの入力信号のスペクトログラムから、そのスペクトログラムの時間周波数領域毎に入力信号のトーンらしさの指標を算出する。

［指標算出処理の詳細］
ここで、図８のフローチャートを参照して、図７のフローチャートのステップＳ３３における指標算出処理の詳細について説明する。

ステップＳ５１において、指標算出部５３の時間区間選択部８１は、時間周波数変換部５２からの入力信号のスペクトログラムにおいて、所定の時間区間（例えば、１５秒間の入力信号のうちの最初の１秒間）のスペクトログラムを選択し、ピーク検出部８２に供給する。

ステップＳ５２において、ピーク検出部８２は、時間区間選択部８１によって選択された１秒間分のスペクトログラムにおいて、時間フレーム（時間bin）毎に、各周波数帯についての信号成分のパワースペクトル（強さ）が、その周波数帯の近傍で極大となる時間周波数領域上の点であるピークを検出する。

例えば、図９の上段に示される、時間周波数領域に変換された入力信号のスペクトログラムにおいて、ある時間フレームで、ある周波数帯近傍の時間周波数領域Γでは、図９の下段に示されるようなピークｐが検出されるようになる。

ステップＳ５３において、近似処理部８３は、時間区間選択部８１によって選択された１秒間分のスペクトログラムについて、ピーク検出部８２によって検出された時間フレーム毎の各周波数帯のピーク周辺のパワースペクトルを、予め定義された定型的な関数であるテンプレート関数で近似する。以下においては、テンプレート関数は２次関数であるものとするが、これに限らず、３次以上の高次関数や三角関数等、その他の関数であってもよい。

上述したように、図９の下段においてはピークｐが検出されるものとしたが、ピークとなるパワースペクトルは、時間方向に対して安定するトーン（以下、持続性トーンともいう）に限らず、ノイズ、サイドローブ、干渉、時間変動トーン等の信号成分についても発生するため、そのピークに基づいてトーンらしさの指標が適切に算出されるとは限らない。また、離散フーリエ変換のピークは離散的であるので、そのピーク周波数は、真のピーク周波数であるとは限らない。

文献「J. O. Smith III and X. Serra:“PARSHL: A program for analysis/synthesis of inharmonic sounds based on a sinusoidal representation”in Proc. ICMC’87」によれば、楽曲であるか人の声であるかにかかわらず、ある時間フレームでのピーク周辺の対数パワースペクトルの値は、２次関数で近似することが可能であるとされている。

そこで、本技術においては、時間フレーム毎の各周波数帯のピーク周辺のパワースペクトルを２次関数で近似する。

さらに、本技術においては、以下の仮定の下、そのピークが持続性トーンによるものであるか否かを決定する。

ａ）持続性トーンは、その２次関数を時間方向に伸ばした関数により近似される。
ｂ）周波数の時間変化については、楽曲によるピークは時間方向に持続するので、零次近似される（変化しないものとする）。
ｃ）振幅の時間変化については、ある程度の許容を必要とし、例えば２次関数等で近似される。

したがって、持続性トーンは、図１０で示されるような、ある時間フレームにおける２次関数を時間方向に伸ばしたトンネル型の関数（双２次関数）でモデル化され、時間ｔおよび周波数ωに対して、以下の式（１）で表すことができる。なお、ω_ｐは、ピーク周波数を表している。

・・・（１）

よって、ある着目しているピーク周辺において、上述した仮定ａ）乃至ｃ）に基づいた双２次関数を、例えば最小二乗近似で当てはめたときの誤差を、トーン（持続性トーン）らしさの指標とすることができる。すなわち、以下の式（２）を誤差関数とすることができる。

・・・（２）

式（２）において、f(k,n)は、第ｎフレーム、第ｋビンのDFTスペクトルを示しており、g(k,n)は、上述で示された、持続性トーンのモデルを示す式（１）と同義の式であり、以下の式（３）で示される。

・・・（３）

なお、式（２）におけるΓは、対象となるピーク周辺の時間周波数領域を示している。時間周波数領域Γにおいて、周波数方向のサイズは、時間周波数変換に用いた窓関数に応じて、かつ、周波数変換長により決定されるメインローブのサンプルポイント数を超えないように決定される。また、時間方向のサイズは、持続性トーンを定義するのに必要な時間長に応じて決定される。

図８のフローチャートに戻り、ステップＳ５４において、トーン度算出部８４は、近似処理部８３により近似された２次関数と、ピーク検出部８２によって検出されたピーク周辺のパワースペクトルとの誤差、すなわち、上述した式（２）の誤差関数に基づいて、時間区間選択部８１によって選択された１秒間分のスペクトログラムについての、トーンらしさの指標であるトーン度を算出する。

ここで、上述した式（２）の誤差関数を、平面モデルへ当てはめたときの誤差関数を以下の式（４）で表すこととすると、トーン度ηは、以下の式（５）のように示される。

・・・（４）

・・・（５）

式（５）において、ａハット（ａに^を付した文字をａハットと記述する。以下、本明細書において、同様に記載する。）、ｂハット、ｃハット、ｄハット、ｅハットは、それぞれ、J(a,b,c,d,e)を最小とするa,b,c,d,eであり、ｅ’ハットは、J(e’)を最小とするｅ’である。

このようにして、トーン度ηが求められる。

ところで、式（５）において、ａハットは、持続性トーンを表すモデルの曲線（２次関数）のピーク曲率を示している。

ピーク曲率は、入力信号の信号成分が正弦波であれば、理論的には、時間周波数変換に用いた窓関数の種類とサイズによって決まる定数である。したがって、実際に得られたピーク曲率ａハットの値が理論値からずれるほど、その信号成分が持続性トーンである可能性は低くなると考えられる。また、そのピークがサイドローブ性のものであったとしても、得られるピーク曲率は変わってくるため、ピーク曲率ａハットのずれはトーンらしさの指標に影響すると言える。すなわち、ピーク曲率ａハットの理論値からのずれの値に応じて、トーン度ηを調整することにより、より適正なトーンらしさの指標を得ることができるようになる。ピーク曲率ａハットの理論値からのずれの値に応じて調整されたトーン度η’は、以下の式（６）のように示される。

・・・（６）

式（６）において、値ａ_idealは、時間周波数変換に用いた窓関数の種類とサイズによって決まるピーク曲率の理論値である。また、関数D(x)は、図１１に示されるような値をとる調整関数であり、関数D(x)によれば、ピーク曲率の値が理論値から離れるほど、トーン度は小さくなる。すなわち、式（６）によれば、ピークでない要素については、トーン度η’は０となる。なお、関数D(x)は、図１１に示される形状の関数に限らず、ピーク曲率の値が理論値から離れるほど、トーン度が小さくなるような関数であればよい。

このように、曲線（２次関数）のピーク曲率に応じてトーン度を調整することで、より適切なトーン度が得られるようになる。

ところで、式（５）におけるａハットおよびｂハットによって与えられる値−(ｂハット)/2(ａハット)は、離散ピーク周波数から真のピーク周波数へのオフセットを示している。

真のピーク周波数は、理論上、離散ピーク周波数から±0.5ビンの位置にある。離散ピーク周波数から真のピーク周波数へのオフセット値−(ｂハット)/2(ａハット)が、着目しているピークの位置と極端に異なる場合、上述で示された式（２）の誤差関数を計算する際のマッチングが正しくない可能性が高い。すなわち、このことは、トーンらしさの指標の信頼性に影響すると考えられるので、オフセット値−(ｂハット)/2(ａハット)の、着目しているピークの位置（ピーク周波数）ｋ_ｐからのずれの値に応じて、トーン度ηを調整することにより、より適切なトーンらしさの指標を得るようにしてもよい。具体的には、図１１に示される関数D(x)に−(ｂハット)/2(ａハット)−ｋ_ｐを代入した項を、式（６）の左辺と乗算した値をトーン度ηとするようにしてもよい。

また、トーン度ηは、上述した手法以外の手法により算出されるようにもできる。

具体的には、まず、上述した式（２）の誤差関数において、持続性トーンを表すモデルg(k,n)を、ピーク周辺のパワースペクトルの時間平均形状を近似した２次関数ak²+bk+cで置き換えた、以下の式（７）の誤差関数を与える。

・・・（７）

次に、上述した式（２）の誤差関数において、持続性トーンを表すモデルg(k,n)を、着目しているピークのある第ｍフレームのパワースペクトルを近似した２次関数a’k²+b’k+c’で置き換えた、以下の式（８）の誤差関数を与える。なお、ｍは、着目しているピークのあるフレーム番号を示している。

・・・（８）

ここで、式（７）において、J(a,b,c)を最小とするa,b,cを、それぞれａハット、ｂハット、ｃハットとし、式（８）において、J(a’,b’,c’)を最小とするa’,b’,c’を、それぞれａ’ハット、ｂ’ハット、ｃ’ハットとしたとき、トーン度ηは以下の式（９）で与えられる。

・・・（９）

式（９）において、関数D₁(x)，D₂(x)は、それぞれ、上述で説明した図１１に示されるような値をとる関数とされる。なお、式（９）によれば、ピークでない要素については、トーン度η’は０となり、また、ａハットが０またはａ’ハットが０の場合にも、トーン度η’は０となる。

なお、以上のように算出されたトーン度ηに対して、シグモイド関数等による非線形変換を施すようにしてもよい。

さて、図８のフローチャートに戻り、ステップＳ５５において、出力部８５は、トーン度算出部８４によって算出された、１秒間分のスペクトログラムについてのトーン度を保持し、全ての時間区間（例えば、１５秒間）について、上述した処理を行ったか否かを判定する。

ステップＳ５５において、全ての時間区間について上述した処理が行われていないと判定された場合、処理はステップＳ５１に戻り、次の時間区間（１秒間）のスペクトログラムに対して、ステップＳ５１乃至Ｓ５５の処理が繰り返される。なお、ステップＳ５１乃至Ｓ５５の処理は、上述したように、１秒間の時間区間ずつのスペクトログラムに対して行われるようにしてもよいし、処理対象となるスペクトログラムの時間区間を、例えば0.5秒ずつずらして、処理対象の時間区間の一部を、前の処理対象の時間区間とオーバーラップさせながら行われるようにしてもよい。

一方、ステップＳ５５において、全ての時間区間について上述した処理が行われたと判定された場合、処理はステップＳ５６に進む。

ステップＳ５６において、出力部８５は、保持している時間区間（１秒間）毎のトーン度を時系列に配列することで得られる行列を、第１の特徴量算出部５４および第２の特徴量算出部５５に供給（出力）し、処理はステップＳ３３に戻る。

図１２は、指標算出部５３によって算出されるトーンらしさの指標の例について説明する図である。

図１２に示されるように、入力信号のスペクトログラムから算出された入力信号のトーンらしさの指標Ｓは、時間方向および周波数方向に、トーン度を要素（以下、成分ともいう）として有している。トーンらしさの指標Ｓにおける四角形（マス目）のそれぞれは、各時間、各周波数毎の成分を表しており、図示されないが、それぞれトーン度としての値を有する。また、図１２に示されるように、トーンらしさの指標Ｓの時間粒度は１秒とされる。

このように、入力信号のスペクトログラムから算出される入力信号のトーンらしさの指標は、各時間、各周波数毎に成分を有しているので、行列として扱うことができる。以下、行列としてのトーンらしさの指標を、適宜、指標行列と言う。

なお、極低周波帯域については、例えばハムノイズ等の楽曲以外の信号成分によるピークが含まれる可能性が高いので、トーン度を算出しないようにしてもよい。また、例えば８kHzより上の高周波帯域についても、楽曲を構成する重要な要素でない可能性があるので、トーン度を算出しないようにしてもよい。さらに、離散ピーク周波数におけるパワースペクトルの値が、例えば−80dB等の所定の値よりも小さい場合にも、トーン度を算出しないようにしてもよい。

図７のフローチャートに戻り、ステップＳ３３の後、ステップＳ３４において、第１の特徴量算出部５４は、指標算出部５３からのトーンらしさの指標に基づいて、第１の特徴量算出処理を実行し、入力信号の楽曲らしさを表す第１の特徴量を算出する。

［第１の特徴量算出処理の詳細］
ここで、図１３のフローチャートを参照して、図７のフローチャートのステップＳ３４における第１の特徴量算出処理の詳細について説明する。

ステップＳ７１において、フィルタ処理部９１は、指標算出部５３からの指標行列に対して、例えばハン窓等の窓関数（平滑化フィルタ）を用いて、時間方向にフィルタリングすることで、トーンらしさの指標の時間平均量を算出し、入力信号の楽曲らしさを表す第１の特徴量として、リサンプリング処理部９２に供給する。

ステップＳ７２において、リサンプリング処理部９２は、フィルタ処理部９１からの第１の特徴量を、時間方向にリサンプリング（ダウンサンプリング）し、２値化処理部９３に供給する。

ステップＳ７３において、２値化処理部９３は、リサンプリング処理部９２からの、ダウンサンプリングされた第１の特徴量に対して２値化処理を施し、マッチング処理部３３に供給して、処理はステップＳ３４に戻る。

図１４は、上述した処理によって得られる第１の特徴量の例を示している。

図１４においては、左から順番に、時間周波数領域の入力信号、トーンらしさの指標、および第１の特徴量が示されている。入力信号に楽曲の信号成分が含まれている場合、トーンらしさの指標においては、対応する時間周波数領域の値が大きくなる（持続性トーンが現れる）。そして、トーンらしさの指標の値が大きい（持続性トーンが現れる）領域においては、上述した第１の特徴量算出処理によって、大きい値の第１の特徴量が現れるようになる。したがって、図１４に示されるように、第１の特徴量は、入力信号の楽曲の信号成分と同様の領域に値を持つようになる。また、その値は、例えば０，１等の値に２値化されるようになるので、第１の特徴量の情報量が削減されるようになり、後段の処理の高速化を図ることができるようになる。

なお、２値化処理に用いられる閾値は、固定の値としてもよいし、時間フレーム毎の平均値等から得られる統計的な値としてもよい。

また、上述した第１の特徴量算出処理においては、時間方向にリサンプリングするのに加えて、周波数方向にリサンプリングするようにしてもよいし、２値化処理に代えて量子化処理を行うようにしてもよい。

図７のフローチャートに戻り、ステップＳ３４の後、ステップＳ３５において、第２の特徴量算出部５５は、指標算出部５３からのトーンらしさの指標に基づいて、第２の特徴量算出処理を実行し、入力信号の楽曲の個性を表す第２の特徴量を算出する。

［第２の特徴量算出処理の詳細］
ここで、図１５のフローチャートを参照して、図７のフローチャートのステップＳ３５における第２の特徴量算出処理の詳細について説明する。

ステップＳ９１において、フィルタ処理部１０１は、指標算出部５３からの指標行列に対して、例えば１周期サイン窓等の窓関数（フィルタ）を用いて、時間方向にフィルタリングすることで、トーンらしさの指標の時間平均変化量を算出し、入力信号の楽曲の個性を表す第２の特徴量として、リサンプリング処理部１０２に供給する。

ステップＳ９２において、リサンプリング処理部１０２は、フィルタ処理部１０１からの第２の特徴量を、時間方向にリサンプリング（ダウンサンプリング）し、３値化処理部１０３に供給する。

ステップＳ９３において、３値化処理部１０３は、リサンプリング処理部１０２からの、ダウンサンプリングされた第２の特徴量に対して３値化処理を施し、マッチング処理部３３に供給して、処理はステップＳ３５に戻る。

図１６は、上述した処理によって得られる第２の特徴量の例を示している。

図１６においては、左から順番に、時間周波数領域の入力信号、トーンらしさの指標、および第２の特徴量が示されている。入力信号に楽曲の信号成分が含まれている場合、トーンらしさの指標においては、対応する時間周波数領域の値が大きくなる（持続性トーンが現れる）。そして、トーンらしさの指標の値が大きい（持続性トーンが現れる）領域においては、上述した第２の特徴量算出処理によって、トーンの立上がりにおいては大きい値（正の値）で、トーンの立下がりにおいては小さい値（負の値）となる第２の特徴量が現れるようになる。したがって、図１６に示されるように、第２の特徴量は、入力信号の楽曲の信号成分と同様の領域に値を持つようになり、その値は、例えば、図１６における領域s1においては正の値となり、領域s2においては負の値となる。また、その値は、−１，０，１等の値に３値化されるようになるので、第２の特徴量の情報量が削減されるようになり、後段の処理の高速化を図ることができるようになる。

なお、３値化処理に用いられる閾値は、固定の値としてもよいし、時間フレーム毎の平均値等から得られる統計的な値としてもよい。

また、上述した第２の特徴量算出処理においては、時間方向にリサンプリングするのに加えて、周波数方向にリサンプリングするようにしてもよいし、３値化処理に代えて量子化処理を行うようにしてもよい。

なお、以上のようにして算出された第１の特徴量と第２の特徴量の、時間方向および周波数方向の粒度は同一とされる。

さて、図７のフローチャートに戻り、ステップＳ３５の後、処理は図６のフローチャートのステップＳ１１に戻る。

図６のフローチャートにおいて、ステップＳ１１の後、処理はステップＳ１２に進み、参照信号解析部３２は、参照信号解析処理を実行し、外部の装置等から入力される参照信号を解析し、参照信号の特徴量を参照信号から抽出する。

［参照信号解析処理の詳細］
ここで、図１７のフローチャートを参照して、図６のフローチャートのステップＳ１２における参照信号解析処理の詳細について説明する。

ステップＳ１１１において、参照信号解析部３２の時間周波数変換部６１は、入力された参照信号をスペクトログラムに変換し、指標算出部６２に供給する。

ステップＳ１１２において、指標算出部６２は、指標算出部５３と同様にして、指標算出処理を実行することで、時間周波数変換部６１からの参照信号のスペクトログラムから、そのスペクトログラムの時間周波数領域毎に参照信号のトーンらしさの指標を算出し、第１の特徴量算出部６３および第２の特徴量算出部６４に供給する。

なお、ステップＳ１１２の指標算出処理は、図８のフローチャートを参照して説明した指標算出処理と基本的に同様であるので、その説明は省略する。

ステップＳ１１３において、第１の特徴量算出部６３は、第１の特徴量算出部５４と同様にして、指標算出部６２からのトーンらしさの指標に基づいて、第１の特徴量算出処理を実行し、参照信号の楽曲らしさを表す第１の特徴量を算出し、マッチング処理部３３に供給する。

なお、ステップＳ１１３の第１の特徴量算出処理は、図１３のフローチャートを参照して説明した第１の特徴量算出処理と基本的に同様であるので、その説明は省略する。なお、２値化処理に用いられる閾値は、異なる値であってもよい。

ステップＳ１１４において、第２の特徴量算出部６４は、第２の特徴量算出部５５と同様にして、指標算出部６２からのトーンらしさの指標に基づいて、第２の特徴量算出処理を実行し、参照信号の楽曲の個性を表す第２の特徴量を算出し、マッチング処理部３３に供給する。

なお、ステップＳ１１４の第２の特徴量算出処理は、図１５のフローチャートを参照して説明した第２の特徴量算出処理と基本的に同様であるので、その説明は省略する。

また、このとき、参照信号解析部３２は、楽曲検索装置１１内の図示せぬデータベースから、参照信号の楽曲の属性を表す楽曲属性情報（楽曲名、演奏者名、楽曲ID等）を読み出し、算出した参照信号の特徴量（第１および第２の特徴量）に対応付けて、マッチング処理部３３に供給する。

なお、複数の参照信号についての特徴量および楽曲属性情報は、楽曲検索装置１１内の図示せぬデータベースに記憶されて、マッチング処理部３３に取得されるようにしてもよい。

図１７のフローチャートにおいて、ステップＳ１１４の後、処理は図６のフローチャートのステップＳ１２に戻る。

このようにして算出される入力信号および参照信号の第１の特徴量および第２の特徴量は行列として扱われ、その時間方向および周波数方向の粒度は同一とされる。

また、楽曲の個性を表す第２の特徴量は、上述した入力信号（参照信号）のトーンらしさの指標の時間変化量に限らず、他の評価値とするようにしてもよい。

図６のフローチャートにおいて、ステップＳ１２の後、処理はステップＳ１３に進み、マッチング処理部３３は、マッチング処理を実行し、入力信号に含まれる楽曲を同定し、その同定結果を出力する。

［マッチング処理の詳細］
ここで、図１８のフローチャートを参照して、図６のフローチャートのステップＳ１３におけるマッチング処理の詳細について説明する。

ステップＳ１３１において、マスクパターン生成部７１は、入力信号解析部３１からの入力信号の時間周波数領域毎の第１の特徴量と、参照信号解析部３２からの参照信号の時間周波数領域毎の第１の特徴量とに基づいて、入力信号の第２の特徴量と参照信号の第２の特徴量とのマッチング処理に用いられるマスクパターンを生成し、類似度算出部７２に供給する。

例えば、入力信号解析部３１からの第１の特徴量として、図１９の左上段に示されるような第１の特徴量S1が供給され、参照信号解析部３２からの第１の特徴量として、図１９の左下段に示されるような第１の特徴量A1が供給された場合、マスクパターン生成部７１は、第１の特徴量S1の各要素と、第１の特徴量A1の各要素とを乗算した値を要素とするマスクパターンＷを生成する。このように、入力信号および参照信号のスペクトログラムにおいて、トーンらしさの指標の高い領域には第１の特徴量に応じた重み付けをし、トーンらしさの指標の低い領域をマスクする、重み分布としてのマスクパターンが生成される。

ステップＳ１３２において、マスクパターン生成部７１は、入力信号解析部３１からの入力信号の時間周波数領域毎の第１の特徴量と、参照信号解析部３２からの参照信号の時間周波数領域毎の第１の特徴量の各要素に基づいて、入力信号の第１の特徴量S1と参照信号の第１の特徴量A1の類似度R1を算出し、類似度算出部７２に供給する。

ステップＳ１３３において、類似度算出部７２は、マスクパターン生成部７１からのマスクパターンＷ、および、第１の特徴量同士の類似度R1を用いて、入力信号解析部３１からの入力信号の第２の特徴量と、参照信号解析部３２からの第２の参照信号の特徴量との類似度を算出し、算出された類似度を、比較判定部７３に供給する。

ここで、図２０を参照して、入力信号の第２の特徴量と参照信号の第２の特徴量との類似度の算出の例について説明する。

図２０においては、上段に、参照信号の第２の特徴量Ｌ、下段左側に、入力信号の第２の特徴量S2、そして、下段右側に、マスクパターンＷが示されている。上述で説明したように、これらは行列として扱うことができる。

図２０に示されるように、参照信号の第２の特徴量Ｌの時間方向の成分の数は、入力信号の第２の特徴量S2の時間方向の成分の数と比較して多い（なお、入力信号の第２の特徴量S2の時間方向の成分の数と、マスクパターンＷの時間方向の成分の数とは同一である）。そこで、入力信号の第２の特徴量と参照信号の第２の特徴量との類似度を算出する際、類似度算出部７２は、参照信号の第２の特徴量Ｌから、入力信号の第２の特徴量S2と同一の時間方向の成分の数となる部分行列A2を、時間方向（図中右方向）にずらしながら（時間方向にオフセットを与えながら）順次切り出し、この部分行列A2と入力信号の第２の特徴量S2との類似度を算出する。ここで、部分行列A2を切り出す際の時間方向のオフセットをｔとすると、まず、マスクパターンＷ、および、第１の特徴量同士の類似度R1は、以下の式（１０），（１１）で示される。

・・・（１０）

・・・（１１）

そして、式（１０）で示されるマスクパターンＷ、および、式（１１）で示される第１の特徴量の類似度R1を用いて、部分行列A2と入力信号の第２の特徴量S2との類似度R(t)は、以下の式（１２）で示される。

・・・（１２）

なお、式（１０）乃至（１２）において、ｆ，ｕは、参照信号の第２の特徴量の部分行列A2、入力信号の第２の特徴量S2、マスクパターンＷの各行列の周波数成分および時間成分を表している。すなわち、ｆおよびｕが添字として付されているA1，S1，Ｗ，A2，S2は、それぞれの行列A1，S1，Ｗ，A2，S2における各要素を表している。

なお、式（１２）で示される類似度R(t)の算出においては、各行列の全要素について演算する必要はなく、マスクパターンＷにおいてマスクされていない時間周波数領域の要素（０でない要素）について演算すればよいので、演算コストを抑えることができる。さらに、マスクパターンＷにおいてマスクされていない時間周波数領域の要素の値は、入力信号および参照信号の時間周波数領域毎の楽曲らしさを表しているので、楽曲らしさの高い（楽曲の成分のみからなる）時間周波数領域の要素に対してより大きい重み付けをして類似度R(t)を算出することができる。すなわち、より精度の高い類似度を算出することができるようになる。なお、マスクパターンＷの各要素が全て０である場合、類似度R(t)＝０とされる。

このようにして、類似度算出部７２は、全ての部分行列A2（全ての部分行列A2を切り出す時間オフセットｔ）に対して類似度を算出し、最大となる類似度を、入力信号の第２の特徴量と参照信号の第２の特徴量との類似度として、比較判定部７３に供給する。比較判定部７３は、類似度算出部７２からの類似度を、内部の記憶領域に保持する。

なお、マスクパターンＷは、式（１０）で表される行列要素間の乗算に限らず、加重幾何平均や加重相加平均等の他の演算により求められるようにしてもよい。

さらに、マスクパターンＷは、行列要素間の演算後に、各要素に対してシグモイド関数等による非線形変換を施すようにしてもよい。

また、第１の特徴量同士の類似度R1は、上述した式（１２）による演算に限らず、二乗誤差や絶対誤差等、２つの行列の各要素間の差に基づいて算出されるようにしてもよいし、予め決められた固定の値としてもよい。

さらに、類似度R(t)は、入力信号および参照信号の第２の特徴量が３値化されている場合には、以下の式（１３），（１４）に示されるように、離散関数を用いて算出されるようにしてもよい。

・・・（１３）

・・・（１４）

図１８のフローチャートに戻り、ステップＳ１３４において、類似度算出部７１は、全ての時間分の入力信号に対して類似度算出の処理を行ったか否かを判定する。

ステップＳ１３４において、全ての時間分の入力信号について類似度算出の処理を行っていないと判定された場合、ステップＳ１３１に戻り、全ての時間分の入力信号について類似度算出の処理を行うまで、ステップＳ１３１乃至Ｓ１３４の処理が繰り返される。

そして、ステップＳ１３４において、全ての時間分の入力信号について類似度算出の処理を行ったと判定されると、処理はステップＳ１３５に進み、比較判定部７３は、類似度算出部７２から供給された類似度に基づいて、入力信号に含まれる楽曲が参照信号の楽曲であるか否かを判定し、その参照信号の楽曲の属性を表す楽曲属性情報を、同定結果として出力する。

具体的には、まず、比較判定部７３は、類似度算出部７２から供給され保持されている、全ての時間分の入力信号についての類似度を時系列に並べる。

図２１は、時系列に並べられた類似度の例を示している。

比較判定部７３は、図２１に示される時系列に並べられた類似度に対して、所定の閾値THsを超える類似度の区間Tsを、全ての時間分の入力信号において、参照信号の楽曲が含まれる可能性が高い候補区間とする。また、比較判定部７３は、候補区間Tsにおいて、最大となる類似度Rpを特定する。さらに、比較判定部７３は、類似度の時間的連続性を求める。

ここで、図２２を参照して、類似度の時間的連続性について説明する。

上述したように、比較判定部７３に保持される類似度は、所定時間分の入力信号の特徴量（第２の特徴量）の行列S2と、参照信号の特徴量（第２の特徴量）Ｌの部分行列A2の類似度のうち最大となる類似度である。

ここで、全ての時間分の入力信号の特徴量の行列S2allについて類似度を算出したとき、入力信号の一部に参照信号の楽曲が含まれている場合には、類似度が最大となった入力信号の特徴量の行列S2と参照信号の特徴量の部分行列A2のペアは、図２２に示されるように、同じ時間間隔で時間方向にシフトすると考えられる。そこで、比較判定部７３は、類似度が最大となった入力信号の特徴量の行列S2と参照信号の特徴量の部分行列A2のペアが、同じ時間間隔で時間方向にシフトした量（時間）を、類似度の時間的連続性の指標とする。

そして、比較判定部７３は、上述した候補区間Tsの長さ、最大類似度Rpの値、および類似度の時間的連続性の指標に基づいて、所定の識別関数を用いて、入力信号に含まれる楽曲が参照信号の楽曲であるか否かを判定する。比較判定部７３は、入力信号に含まれる楽曲が参照信号の楽曲であると判定した場合、その参照信号の楽曲の属性を表す楽曲属性情報を、同定結果として出力する。

なお、比較判定部７３は、入力信号に含まれる楽曲が参照信号の楽曲でないと判定した場合、入力信号に含まれる楽曲は参照信号の楽曲ではない旨の情報を出力する。

以上の処理によれば、楽曲と雑音とが混在した入力信号を、楽曲のみからなる参照信号と比較する際、時間周波数領域の入力信号と参照信号において、トーンらしさの指標が算出され、その指標から求められる入力信号の特徴量と参照信号の特徴量の類似度が算出され、その類似度に基づいて入力信号の楽曲が同定されるようになる。トーンらしさの指標は、パワースペクトルの時間に対する安定性を定量化したものであるので、その指標から求められる特徴量は、楽曲らしさを確実に表現するものとなる。したがって、より精度の高い類似度を算出することができるようになり、ひいては、楽曲と雑音とが混在する入力信号から、その楽曲を精度良く同定することが可能となる。

また、マスクパターンを、入力信号の特徴量と参照信号の特徴量とを用いて生成するようにしたので、入力信号の特徴量のみから生成されたマスクパターンと比較して、より確実に入力信号と参照信号をマスクしてマッチング処理を行うことができるようになる。

具体的には、入力信号に音の少ない楽曲が含まれている場合、入力信号の特徴量のみから生成されたマスクパターンを用いると、参照信号の楽曲にその音が含まれていれば、異なる楽曲であっても、参照信号のその他の音はマスクされてしまうので、入力信号が参照信号と一致すると判断されてしまう可能性がある。例えば、入力信号にベース（低音）のみの楽曲が含まれている場合、参照信号の楽曲のベース進行が、入力信号に含まれる楽曲のベース進行に似ているだけで、入力信号が参照信号と一致すると判断されてしまう。

そこで、本技術においては、入力信号の第１の特徴量と参照信号の第１の特徴量とからマスクパターンを生成するとともに、マスクパターンの生成に用いられる入力信号の第１の特徴量と参照信号の第１の特徴量との類似度も算出することで、入力信号および参照信号の両方に含まれる音の特徴量に基づいて、マッチング処理が行われるようになる。これにより、入力信号に含まれる音が、参照信号に含まれる音の一部と似ているだけでは、入力信号が参照信号と一致すると判断されなくなり、楽曲と雑音とが混在する入力信号から、その楽曲を精度良く同定することが可能となる。

また、時間成分だけでなく、周波数成分を考慮した特徴量を用いて、マッチング処理を行うことができるので、図１で示されたような、途切れている時間が非常に短い会話が雑音として含まれている入力信号であっても、その入力信号から、楽曲を精度良く同定することができる。これにより、ドラマ等のテレビジョン番組において、出演者等の会話が被ってしまっているBGMを精度良く同定することが可能となる。

なお、図７のフローチャートを参照して説明した楽曲同定処理においては、入力信号解析処理とマッチング処理との間に、参照信号解析処理が実行されるようにしたが、参照信号解析処理は、マッチング処理が実行される前に実行されていればよく、入力信号解析処理が実行される前に実行されてもよいし、入力信号解析処理と並行して実行されてもよい。

また、本技術は、図２に示される楽曲検索装置１１に適用される他、例えば、インターネット等のネットワークを介して情報を送受信するネットワークシステムに適用されるようにもできる。具体的には、携帯電話機等の端末装置に、図２の切り出し部５１を設けるようにするとともに、サーバに、図２の切り出し部５１以外の構成を設けるようにし、端末装置からインターネットを介して送信されてくる入力信号に対して、サーバが楽曲同定処理を行うようにしてもよい。この場合、サーバは、同定結果を、インターネットを介して端末装置に送信し、端末装置は、サーバからの同定結果を表示部等に表示するようにもできる。

上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータ等に、プログラム記録媒体からインストールされる。

図２３は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

コンピュータにおいて、CPU（Central Processing Unit）９０１，ROM（Read Only Memory）９０２，RAM（Random Access Memory）９０３は、バス９０４により相互に接続されている。

バス９０４には、さらに、入出力インタフェース９０５が接続されている。入出力インタフェース９０５には、キーボード、マウス、マイクロホン等よりなる入力部９０６、ディスプレイ、スピーカ等よりなる出力部９０７、ハードディスクや不揮発性のメモリ等よりなる記憶部９０８、ネットワークインタフェース等よりなる通信部９０９、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリ等のリムーバブルメディア９１１を駆動するドライブ９１０が接続されている。

以上のように構成されるコンピュータでは、CPU９０１が、例えば、記憶部９０８に記憶されているプログラムを、入出力インタフェース９０５およびバス９０４を介して、RAM９０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（CPU９０１）が実行するプログラムは、例えば、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等）、光磁気ディスク、もしくは半導体メモリ等よりなるパッケージメディアであるリムーバブルメディア９１１に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。

そして、プログラムは、リムーバブルメディア９１１をドライブ９１０に装着することにより、入出力インタフェース９０５を介して、記憶部９０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部９０９で受信し、記憶部９０８にインストールすることができる。その他、プログラムは、ROM９０２や記憶部９０８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

１１楽曲検索装置，５１切り出し部，５２時間周波数変換部，５３指標算出部，５４第１の特徴量算出部，５５第２の特徴量算出部，６１時間周波数変換部，６２指標算出部，６３第１の特徴量算出部，６４第２の特徴量算出部，７１マスクパターン生成部，７２類似度算出部，７３比較判定部，８１時間区間選択部，８２ピーク検出部，８３近似処理部，８４トーン度算出部，８５出力部

Claims

入力信号を楽曲のみからなる参照信号と比較することによって、前記入力信号の楽曲を同定する楽曲検索装置において、
時間周波数領域に変換された前記入力信号の各領域の信号成分の強さと、前記信号成分の強さを近似した関数とに基づいて、前記信号成分のトーンらしさの指標を算出する指標算出部と、
前記指標に基づいて求められる前記入力信号の各領域における特徴量と、時間周波数領域に変換された前記参照信号について算出された前記指標に基づいて求められる前記参照信号の各領域における前記特徴量の類似度を算出する類似度算出部と、
前記類似度に基づいて、前記入力信号の楽曲を同定する楽曲同定部と
を備え、
前記指標算出部は、
所定の時間区間の前記入力信号から、前記信号成分の強さが極大となる点を検出する極大点検出部と、
前記極大となる点近傍の前記信号成分の強さをテンプレート関数で近似する近似処理部とを備え、
前記極大となる点近傍の前記信号成分の強さと前記テンプレート関数との誤差に基づいて、前記指標を算出する
楽曲検索装置。
前記指標算出部は、前記テンプレート関数の曲率に応じて前記指標を調整する
請求項１に記載の楽曲検索装置。
前記指標算出部は、前記テンプレート関数が極大となる点の周波数に応じて前記指標を調整する
請求項２に記載の楽曲検索装置。
前記入力信号の各領域における第１の特徴量と、前記参照信号の各領域における前記第１の特徴量とに基づいて、前記入力信号および前記参照信号の各領域に対する重み分布を生成するとともに、前記入力信号の各領域における第１の特徴量と、前記参照信号の各領域における前記第１の特徴量との第１の特徴量同士の類似度を算出する重み分布生成手段をさらに備え、
前記類似度算出部は、前記重み分布による重み付けおよび前記第１の特徴量同士の類似度に基づいて、前記入力信号の各領域における第２の特徴量と、前記参照信号の各領域における前記第２の特徴量の類似度を算出する
請求項１または２に記載の楽曲検索装置。
前記指標を時間方向にフィルタリングすることにより得られる前記指標の時間平均量を、前記第１の特徴量として算出する第１の特徴量算出部と、
前記指標を時間方向にフィルタリングすることにより得られる前記指標の時間変化量を、前記第２の特徴量として算出する第２の特徴量算出部とをさらに備える
請求項４に記載の楽曲検索装置。
入力信号を楽曲のみからなる参照信号と比較することによって、前記入力信号の楽曲を同定する楽曲検索方法において、
時間周波数領域に変換された前記入力信号の各領域の信号成分の強さと、前記信号成分の強さを近似した関数とに基づいて、前記信号成分のトーンらしさの指標を算出する指標算出ステップと、
前記指標に基づいて求められる前記入力信号の各領域における特徴量と、時間周波数領域に変換された前記参照信号について算出された前記指標に基づいて求められる前記参照信号の各領域における前記特徴量の類似度を算出する類似度算出ステップと、
前記類似度に基づいて、前記入力信号の楽曲を同定する楽曲同定ステップと
を含み、
前記指標算出ステップは、
所定の時間区間の前記入力信号から、前記信号成分の強さが極大となる点を検出する極大点検出ステップと、
前記極大となる点近傍の前記信号成分の強さをテンプレート関数で近似する近似処理ステップとを含み、
前記極大となる点近傍の前記信号成分の強さと前記テンプレート関数との誤差に基づいて、前記指標を算出する
楽曲検索方法。
入力信号を楽曲のみからなる参照信号と比較することによって、前記入力信号の楽曲を同定する信号処理をコンピュータに実行させるプログラムにおいて、
時間周波数領域に変換された前記入力信号の各領域の信号成分の強さと、前記信号成分の強さを近似した関数とに基づいて、前記信号成分のトーンらしさの指標を算出する指標算出ステップと、
前記指標に基づいて求められる前記入力信号の各領域における特徴量と、時間周波数領域に変換された前記参照信号について算出された前記指標に基づいて求められる前記参照信号の各領域における前記特徴量の類似度を算出する類似度算出ステップと、
前記類似度に基づいて、前記入力信号の楽曲を同定する楽曲同定ステップと
を含む処理をコンピュータに実行させ、
前記指標算出ステップは、
所定の時間区間の前記入力信号から、前記信号成分の強さが極大となる点を検出する極大点検出ステップと、
前記極大となる点近傍の前記信号成分の強さをテンプレート関数で近似する近似処理ステップとを含み、
前記極大となる点近傍の前記信号成分の強さと前記テンプレート関数との誤差に基づいて、前記指標を算出する
プログラム。
請求項７に記載のプログラムが記録されているコンピュータ読み取り可能な記録媒体。