JP4572218B2

JP4572218B2 - 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体

Info

Publication number: JP4572218B2
Application number: JP2007169258A
Authority: JP
Inventors: 知範泉谷; 邦夫柏野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2007-06-27
Filing date: 2007-06-27
Publication date: 2010-11-04
Anticipated expiration: 2027-06-27
Also published as: JP2009008836A

Description

本発明は、音響信号が入力されたときに、音楽が含まれる時間帯を特定し、その開始時刻と終了時刻を出力する音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体に関する。

音響信号が音楽であるのか、音声であるのかを分類する技術（音楽／音声識別技術）として、音響パワー値の変調特性、低パワーフレームの割合、パワースペクトル分布の統計量等、複数の特微量を計算し、ガウス混合分布モデルを用いて短時間フレーム毎に音声／音楽を識別する方法が提案されている（例えば、非特許文献１参照）。

また、音響信号からの、音声や、背景音などが重畳した音楽の検出手法（音楽区間検出技術）として、スペクトログラム画像の時間軸方向の直線成分（エッジ）の強さを表す量を用いる方法が提案されている（例えば、非特許文献２参照）。

また、音楽区間検出技術として、調波構造をもち、基本周波数が設定値以上であるフレームの割合で音楽の有無を判断する方法が提案されている（例えば、非特許文献３参照）。
E. Scheier and M．Slaney, ‘Construction and Evaluation of a Robust Multifeature Speech/Music Discriminator’, Proc. ICASSP 1997, pp1331-1334. 南憲一，他，「音情報を用いた映像インデキシングとその応用」、電子情報通信学会論文誌D-II Vol.J-81-D-II, No.3,pp529-537, 1998年. T. Zhang and C. -C. J. Kuo, ‘Audio Content Analysis for Online Audiovisual Data Segmentation and Classification’, IEEE Trans. 0n Speech and Audio Processing, Vol.9, No.4, pp.441-457, 2001.

しかしながら、非特許文献１による従来技術は、音声や背景音などが重畳した音楽の検出を対象としておらず、音声や、背景音などが重畳した音楽の検出に適用した場合には、音楽を含む区間であるにもかかわらず、その区間の一部が音楽を含まない部分であるように誤判別したり、音楽を含まない区間を、音楽を含む区間であると誤判別したりするフレームが多くなる、という問題があった。さらに、このような手法を利用して、音楽の開始・終了時刻の検出を行うと、実際は１つである音楽区間の中に複数回の音楽終了、開始時刻が検出されてしまう、また逆に、実際は音楽区間でない部分に複数回の短時間の音楽区間が検出されてしまうという問題があった。

また、非特許文献２による従来技術では、音声、背景音が音楽に重畳した音響信号から、ビブラート、グリッサンド等による周波数の変動がない調波構造（パワースペクトルにおいて、基本周波数の整数倍の周波数にピークを持つ構造）を持つ楽器音を検出することが可能となっている。しかしながら、それ以外の音楽（ビブラート、グリッサンドを含む楽器音や、ヴォーカル、打楽器音など）で構成される音楽を検出することが原理的に難しいという問題があった。

また、非特許文献３による従来技術では、調波構造を持たない部分（打楽器音等）や、基本周波数が閾値に満たない部分を多く含む音楽の検出が原理的に難しく、また、閾値等のパラメータをすべて人手で決めなければならないという問題があった。

本発明は、このような事情を考慮してなされたものであり、その目的は、調波構造を持たない部分を含む音楽や、音楽に比べて重畳した音声や背景音などの音量が大きい場合であっても、音響信号から高精度で音楽区間を検出することができる音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体を提供することにある。

上述した課題を解決するために、本発明は、入力された音響信号の中から、音楽が含まれる音楽区間を検出する音楽区間検出方法であって、各帯域フィルタの中心周波数が対数周波数軸上で等間隔になるよう構成された帯域フィルタバンクに前記音響信号を入力することにより得られるサンプル列に対して短時間フレームを設定し、各短時間フレームに含まれる音響特徴ベクトルを抽出する音響特徴抽出ステップと、前記音響特徴ベクトルに基づいて、前記短時間フレーム毎に音楽が含まれるか否かを示すフレーム音楽情報評価値を算出する音楽フレーム評価値算出ステップと、前記音響信号に対して、前記短時間フレームよりも時間区間が長く、かつ、最終的に出力したい時刻の単位であるセグメントを設定し、各セグメントの音楽情報評価値を、当該セグメントを中心とする当該セグメントよりも大きな時間区間の範囲の全ての短時間フレームの前記フレーム音楽情報評価値に基づいて算出する音楽セグメント評価値算出ステップとを含むことを特徴とする音楽区間検出方法である。

本発明は、上記の発明において、前記セグメント音楽情報評価値に基づいて、音楽の開始時刻及び終了時刻を判定し、該音楽の開始時刻及び終了時刻からなる音楽区間リストを出力する開始・終了時刻判定ステップを更に含むことを特徴とする。

本発明は、上記の発明において、前記音楽フレーム評価値算出ステップは、識別関数として多項式識別関数を用いて、前記短時間フレーム毎に音楽が含まれるか否かを示すフレーム音楽情報評価値を算出することを特徴とする。

本発明は、上記の発明において、前記音楽セグメント評価値算出ステップは、窓関数によって重み付けされたフレーム音楽情報評価値に基づいて、セグメント音楽情報評価値を算出することを特徴とする。

本発明は、上記の発明において、前記音楽フレーム評価値算出ステップは、識別関数のパラメータを、学習ラベル情報及び学習音響信号を用いて学習して獲得する識別用パラメータ学習ステップと、獲得されたパラメータを蓄積する識別用パラメータ蓄積ステップとを更に含むことを特徴とする。

また、上述した課題を解決するために、本発明は、入力された音響信号の中から、音楽が含まれる音楽区間を検出する音楽区間検出装置であって、各帯域フィルタの中心周波数が対数周波数軸上で等間隔になるよう構成された帯域フィルタバンクに前記音響信号を入力することにより得られるサンプル列に対して短時間フレームを設定し、各短時間フレームに含まれる音響特徴ベクトルを抽出する音響特徴抽出手段と、前記音響特徴ベクトルに基づいて、前記短時間フレーム毎に音楽が含まれるか否かを示すフレーム音楽情報評価値を算出する音楽フレーム評価値算出手段と、前記音響信号に対して、前記短時間フレームよりも時間区間が長く、かつ、最終的に出力したい時刻の単位であるセグメントを設定し、各セグメントの音楽情報評価値を、当該セグメントを中心とする当該セグメントよりも大きな時間区間の範囲の全ての短時間フレームの前記フレーム音楽情報評価値に基づいて算出する音楽セグメント評価値算出手段とを具備することを特徴とする音楽区間検出装置である。

また、上述した課題を解決するために、本発明は、入力された音響信号の中から、音楽が含まれる音楽区間を検出する音楽区間検出装置のコンピュータに、各帯域フィルタの中心周波数が対数周波数軸上で等間隔になるよう構成された帯域フィルタバンクに前記音響信号を入力することにより得られるサンプル列に対して短時間フレームを設定し、各短時間フレームに含まれる音響特徴ベクトルを抽出する音響特徴抽出ステップと、前記音響特徴ベクトルに基づいて、前記短時間フレーム毎に音楽が含まれるか否かを示すフレーム音楽情報評価値を算出する音楽フレーム評価値算出ステップと、前記音響信号に対して、前記短時間フレームよりも時間区間が長く、かつ、最終的に出力したい時刻の単位であるセグメントを設定し、各セグメントの音楽情報評価値を、当該セグメントを中心とする当該セグメントよりも大きな時間区間の範囲の全ての短時間フレームの前記フレーム音楽情報評価値に基づいて算出する音楽セグメント評価値算出ステップとを実行させるための音楽区間検出プログラムである。

また、上述した課題を解決するために、本発明は、入力された音響信号の中から、音楽が含まれる音楽区間を検出する音楽区間検出装置のコンピュータに、各帯域フィルタの中心周波数が対数周波数軸上で等間隔になるよう構成された帯域フィルタバンクに前記音響信号を入力することにより得られるサンプル列に対して短時間フレームを設定し、各短時間フレームに含まれる音響特徴ベクトルを抽出する音響特徴抽出ステップと、前記音響特徴ベクトルに基づいて、前記短時間フレーム毎に音楽が含まれるか否かを示すフレーム音楽情報評価値を算出する音楽フレーム評価値算出ステップと、前記音響信号に対して、前記短時間フレームよりも時間区間が長く、かつ、最終的に出力したい時刻の単位であるセグメントを設定し、各セグメントの音楽情報評価値を、当該セグメントを中心とする当該セグメントよりも大きな時間区間の範囲の全ての短時間フレームの前記フレーム音楽情報評価値に基づいて算出する音楽セグメント評価値算出ステップとを実行させるための音楽区間検出プログラムを記録したコンピュータ読み取り可能な記録媒体である。

この発明によれば、音響信号において短時間フレームを設定し、各短時間フレームに含まれる音響特徴ベクトルを抽出し、該音響特徴ベクトルに基づいて、短時間フレーム毎に音楽が含まれるか否かを示すフレーム音楽情報評価値を算出し、該フレーム音楽情報評価値に基づいて、短時間フレームに比べ長時間の長さを有するセグメント毎に音楽が含まれるか否かを示すセグメント音楽情報評価値を算出する。したがって、調波構造を持たない部分を含む音楽や、音楽に比べて重畳した音声や背景音などの音量が大きい場合であっても、音響信号から高精度で音楽区間を検出することができるという利点が得られる。

また、本発明によれば、セグメント音楽情報評価値に基づいて、音楽の開始時刻及び終了時刻を判定し、該音楽の開始時刻及び終了時刻からなる音楽区間リストを出力する。したがって、調波構造を持たない部分を含む音楽や、音楽に比べて重畳した音声や背景音などの音量が大きい場合であっても、音響信号から高精度で音楽区間を検出することができ、特に、音楽の開始・終了を判定する場合に、音楽の開始、終了位置を高精度で検出することができるという利点が得られる。

また、本発明によれば、識別関数として多項式識別関数を用いて、短時間フレーム毎に音楽が含まれるか否かを示すフレーム音楽情報評価値を算出する。したがって、調波構造を持たない部分を含む音楽や、音楽に比べて重畳した音声や背景音などの音量が大きい場合であっても、音響信号から高精度で音楽区間を検出することができるという利点が得られる。

また、本発明によれば、窓関数によって重み付けされたフレーム音楽情報評価値に基づいて、セグメント音楽情報評価値を算出する。したがって、音楽に比べて重畳した音声や背景音などの音量が大きい場合であっても、音響信号から高精度で音楽区間を検出することができるという利点が得られる。

また、本発明によれば、識別関数のパラメータを、学習ラベル情報及び学習音響信号を用いて学習して獲得し、獲得したパラメータを蓄積し、該識別関数のパラメータを参照して、音響特徴ベクトルに基づいて、短時間フレーム毎に音楽が含まれるか否かを示すフレーム音楽情報評価値を算出する。したがって、識別や、特徴計算などに使うパラメータを全て人手で決定する必要がなく、最適なパラメータを容易に得ることができるという利点が得られる。

以下、本発明の一実施形態を、図面を参照して説明する。

Ａ．本発明の原理
まず、本実施形態による音楽区間検出方法について説明する。本実施形態は、音響信号が与えられたときに、音楽が含まれる部分を検出し、その開始時刻と終了時刻とを特定し、リストとして出力するものである。

図１は、本発明によって実現される音楽区間検出処理の概略を示す概念図である。図１（ａ）は、音楽区間を検出したい入力音響信号を示し、図１（ｂ）は、入力音響信号の内容を示している。テレビや、ラジオなどの音響信号は、音楽の上にナレーションなどの音声や、背景音などが重畳している場合がある。

図１（ｂ）において、区間Ａ、Ｂ、Ｃ、Ｄが検出すべき音楽区間を示している。区間Ａ、Ｄは、音楽が単独で流れている部分を示し、区間Ｂは、ナレーションが重畳した音楽の部分を、区間Ｃは、背景音が重畳した音楽の部分をそれぞれ示している。図１（ｃ）に示す本実施形態による音楽区間検出装置１００は、図１（ａ）に示す入力音響信号が入力されると、図１（ｄ）に示す例のような音楽区間リストを出力する。

Ｂ．第１実施形態
次に、本発明の第１実施形態について説明する。
図２は、本第１実施形態による音楽区間検出装置１００の構成を示すブロック図である。図において、音楽区間検出部１は、音響特徴抽出手段２、音楽フレーム評価値算出手段３、音楽セグメント評価値算出手段４、及び開始・終了時刻判定手段５を備えている。

音響特徴抽出手段２は、入力音響信号（デジタル）を受け取り、例えば、1００ｍｓｅｃなどの短時間フレーム毎に複数の音響特徴（フレーム音響特徴ベクトル）を計算し、これを時間方向に並べた音響特徴ベクトル列を音楽フレーム評価値算出手段３に供給する。音楽フレーム評価値算出手段３は、フレーム音響特徴ベクトル列が入力されると、各フレームについて音楽を含むか否かの評価値、すなわち、フレーム音楽情報評価値を計算し、これを音楽セグメント評価値算出手段４に供給する。音楽セグメント評価値算出手段４は、フレーム音楽情報評価値が入力されると、短時間フレームに比べ長時間の長さを有するセグメントそれぞれに対して、音楽を含むか否かについてのセグメント音楽情報評価値を算出し、開始・終了時刻判定手段５に供給する。開始・終了時刻判定手段５は、セグメント音楽情報評価値に基づいて、音楽開始・終了時刻を判定し、リストを出力する。

次に、本第１実施形態の動作について説明する。
図３は、本第１実施形態による音楽区間検出装置１００の動作を説明するためのフローチャートである。まず、音響特徴抽出手段２は、入力音響信号（デジタル）を受け取り、例えば、1００ｍｓｅｃなどの短時間フレーム毎に複数の音響特徴（フレーム音響特徴ベクトル）を算出する（ステップＳａ１）。次に、音楽フレーム評価値算出手段３は、フレーム音響特徴ベクトル列に基づき、各フレームについて音楽を含むか否かの評価値、すなわち、フレーム音楽情報評価値を算出する（ステップＳａ２）。

次に、音楽セグメント評価値算出手段４は、フレーム音楽情報評価値に従って、セグメントそれぞれに対して、音楽を含むか否かについてのセグメント音楽情報評価値を算出する（ステップＳａ３）。そして、開始・終了時刻判定手段５は、セグメント音楽情報評価値に基づいて、音楽開始・終了時刻を判定し、リストを出力する（ステップＳａ４）。

以下、上述した各ステップにおける処理について詳細に説明する。
ここで、図４は、フレーム音響特徴ベクトル列の計算の概要を示す概念図である。まず、図４（ａ）に示す入力音響信号の幅Ｗを有するフレーム内のサンプルを使って、Ｎ個の音響特徴（ｙ^ｊ _ｉ：ｉはフレーム番号、ｊは音響特徴の番号）を計算し、フレーム音響特徴ベクトル（ｙ_ｉ）を取得する（ステップＳＡ１）。次に、フレームをＬサンプル（＝フレームシフト幅）だけ進めて（ステップＳＡ２）、ステップＳＡ１と同様にフレーム音響特徴ベクトルを計算する。

ステップＳＡ１、ＳＡ２を繰り返すことで、図４（ｂ）に示すフレーム音響特徴ベクトル列を取得する。Ｎ個の音響特徴を計算するには、音響信号処理で一般的に用いられる以下のような方法を用いることができる。
１）短時間フーリエ変換などに基づいて算出されるパワースペクトル、
２）メル周波数ケプストラム係数（Mel-frequency cepstral coefficients）、
３）ケプストラム係数。

あるいは、非特許文献１などの既存の音楽／音声識別技術などで用いられる、
４）パワースペクトル値を、４Ｈｚ等の低い中心周波数をもつ帯域通過フィルタに入力して出力された値、
５）前後複数フレームのパワースペクトル値に基づく低パワーフレームの割合、
６）パワースペクトル分布における９５％点の周波数値、
７）パワースペクトル分布の重心の周波数値、
８）１つ前または後のフレームとのパワースペクトル（ベクトルで表現される）とのユークリッド距離、または、成分ごとの差の絶対値の和、
９）フレーム内の音響信号のゼロ交差割合。

あるいは、非特許文献２で利用されている、
１０）スペクトログラム画像のエッジの強さを表す値、
を用いても良い。

あるいは、非特許文献３で利用される、
１１）前後の複数フレームを用いて算出される基本周波数が設定値以上となるフレームの割合、
を用いても良い。

また、これらの音響特徴のいくつかを組み合わせたもの、さらに、それぞれの音響特徴について、前後の複数フレームの音響特徴から算出される分散（標準偏差）や、前後のフレームに基づく微分値または差分値をさらに音響特徴として加えても良い。
また、図４に示す例は、Ｌ＜Ｗの場合を示しているが、例えばＷ＝Ｌとしても構わない。

図５は、フレーム音響特徴ベクトル列の計算にＮ個の帯域フィルタで構成される帯域フィルタバンクを利用した例を示す概念図である。図５（ａ）に示す入力音響信号を帯域フィルタバンク２−１に入力すると、図５（ｂ）に示すように、図５（ａ）と同じサンプリング周波数のサンプル列がＮ本出力される。

各フィルタバンクの出力のサンプル列に対してフレームを設定し、フレーム内のパワーの平均値、もしくはパワーの平均値の対数をフレーム音響特徴として用いる。また、フレーム音響特徴ベクトルｙ_ｉは、そのノルムが１となるように正規化してもよい。図５（ｂ）は、フレームの幅Ｗとフレームシフト幅Ｌが同じ値の場合を示しているが、図４と同様Ｌ＜Ｗの場合でも問題ない。このように帯域フィルタバンク２−１を用いても、図５（ｃ）に示すように、フレーム音響特徴ベクトル列を取得することが可能である。

帯域フィルタバンク２−１の中心周波数は、対数周波数軸上で等間隔になるよう、音階の有する特性を利用した、次式（１）に示すような等比級数による配置を利用するのが効果的である。但し、Ｆ_ｃ（ｋ）はｋ番目の帯域フィルタの中心周波数を、Ｆ_０は最低中心周波数を、Ｒは隣接する中心周波数同士の比を表しており、１を超える値、例えば２^１／１２などが設定される。

次に、図６は、本第１実施形態による、音楽フレーム評価値算出手段３、音楽セグメント評価値算出手段４、及び開始・終了時刻判定手段５において、入出力される情報を示す概念図である。音楽フレーム評価値算出手段３は、図６（ａ）に示すフレーム音響特徴ベクトル列（ｙ_１，ｙ_２，…，ｙ_ｉ，…）が入力されると、各フレームについて音楽を含むか否かの評価値（フレーム音楽情報評価値）を計算し、図６（ｂ）に示す（ｚ_１，ｚ_２，ｚ_３，…，ｚ_ｉ，…）を出力する。フレーム音楽情報評価値ｚ_ｉは、フレーム毎に算出され、音楽を含む度合いに関する評価値を表しており、値が大きければ大きいほど、音楽を含む可能性が高いことを示している。フレーム音楽情報評価値ｚ_ｉは、典型的には、音楽を含む場合に１、含まない場合に０という２値をとるが、連続値でもよい。

音楽フレーム評価値算出手段３におけるフレーム音楽情報評価値の計算は、複数の方法がある。第１の方法は、多項式識別関数を用いるものであり、例えば、一次の識別関数を用いる場合には、以下の通りである。

まず、各フレームについて事前に設定されているベクトルａ＝（ａ^１，ａ^２，…，ａ^Ｎ）とスカラー量ｂを用いて、線形識別関数ｇ_ｉを、次式（２）に従って計算する。

但し、ｙ_ｉ、ａは横ベクトルとし、肩のＴは転置を表すものする。

次に、閾値Ｔを用いて、各フレームについて、次式（３）に従って音楽を含むか否かを表す２値ｚ_ｉを計算する。

第２の方法は、多項式識別関数として２次識別関数を用いるものである。
まず、各フレームについて事前に設定されている行列Ａ、ベクトルＢと、スカラーＣとを用いて定義される識別関数ｈ_ｉを、次式（４）に従って計算する。

次に、閾値Ｔ_２を用いて、各フレームについて音楽を含むか否かを表す２値ｚ_ｉを、次式（５）に従って計算する。

なお、フレーム音楽情報評価値ｚ_ｉとして連続値を利用する場合には、例えば、数式（２）におけるｇ_ｉや、数式（４）におけるｈ_ｉをｚ_ｉとして用いる。

フレームは、一般的には、１００ｍｓｅｃなど短時間であるため、実際に音楽開始・終了時刻として出力したい時間単位よりも小さい場合が多い。そこで、図６（ｃ）に示すように、最終的に音楽開始・終了時刻として出力したい時間単位であるセグメントを導入する。音楽セグメント評価値算出手段４は、図６（ｂ）に示すフレーム音楽情報評価値（ｚ_１，ｚ_２，ｚ_３，…，ｚ_ｉ，…）が入力されると、図６（ｃ）に示すように、セグメントそれぞれに対して、音楽を含むか否かについての評価値（セグメント音楽情報評価値）Ｍ_１，Ｍ_２，…，Ｍ_ｓ，…を算出する。

Ｍ_ｓは、０か１の２値をとり、Ｍ_ｓ＝１は第ｓセグメントに音楽が含まれることを意味し、Ｍ_ｓ＝０は音楽が含まれないことを示す。図６（ｂ）において、セグメントの長さＰは、最終的に音楽開始・終了時刻として出力したい時間単位によって決まる。典型的には、１秒などが使用され、この場合には、音楽開始・終了時刻が１秒単位で出力される。

短時間フレーム毎の評価値であるフレーム音楽情報評価値を用いて音楽の開始・終了を判定すると、短時間の誤識別があった場合、例えば、長い音楽区間の中に少数の音楽を含まないと誤識別されたフレームが存在し、識別結果がまだらであった場合、誤識別のフレームの前で音楽区間が終了し、その後にもう一度音楽が開始すると判定されてしまい、精度が低下する場合がある。

本第１実施形態による音楽セグメント評価値算出手段４では、最終的に出力したい時刻の単位（細かさ）のセグメント（短時間フレームの長さより長い）を導入し、セグメント音楽情報評価値を算出するときに、セグメント周辺の広い範囲に含まれるフレームのフレーム音楽情報評価値を利用することで、スムージングの効果により、まだらな判定結果を抑止することができ、音楽開始・終了時刻の判定の精度低下を防ぐことが可能となる。

次に、図７は、本第１実施形態による、フレーム音楽情報評価値からセグメント音楽情報評価値を計算する方法の概略を示す概念図である。図７（ａ）は、セグメントを表している。図７（ｂ）は、フレームを表しており、ｚ_ｉは、第ｉフレームのフレーム音楽情報評価値を表している。横方向のスケールは、セグメントとフレームとを合わせている。図７（ｃ）は、各セグメントの音楽を含むか否かの情報を、０または１の２値で表すセグメント音楽情報評価値を示している。第ｓセグメントのセグメント音楽情報評価値をＭ_ｓで表している。

セグメント音楽情報評価値Ｍ_ｓの計算方法は、以下の通りである（図７（ａ）、（ｂ））。まず、各セグメントの中心から前後Ｄ秒の範囲に含まれるフレーム音楽情報評価値ｚ_ｉを切り出す。Ｄの値は、例えば、２秒などとする。また、図７（ｂ）に示すように、第ｓセグメントに対するセグメント音楽情報評価値の算出のために切り出されるフレーム音楽情報評価値を（ｚ^ｓ _１，ｚ^ｓ _２，…，ｚ^ｓ _ｎ）とする。但し、切り出されるフレームの数をｎとする。

次に、ｚ^ｓ _ｊ（ｊ＝１，２，…，ｎ）の平均値を算出し、Ｃ_ｓとする。最後に、以下のように閾値Ｈを用いて、次式（６）に従って、音楽セグメント情報評価値Ｍ_ｓを算出する。

開始・終了時刻判定手段５は、セグメント音楽情報評価値Ｍｓに基づいて、音楽開始・終了時刻を判定し、リストを出力する。図６（ｄ）に示すように、開始時刻としては、音楽セグメント情報評価値Ｍ_ｓが０から１に変化した最初のセグメントに対応する時刻を、終了時刻としてはＭ_ｓが１から０に変化する直前のセグメントに対応する時刻をそれぞれリストにして出力する。

次に、図８は、本第１実施形態による、音楽セグメント情報評価値を算出する他の方法を説明するための概念図である。これは、図７に示す音楽セグメント評価値算出手段４の処理において、音楽セグメント情報評価値Ｍｓの計算のために切り出されたフレーム音楽情報評価値（ｚ^ｓ _１，ｚ^ｓ _２、…，ｚ^ｓ _ｎ）を用いて算出する際に、ｚ^ｓ _ｊの平均値を用いるのではなく、窓（ｗ_１，ｗ_２，…，ｗ_ｎ）を用いる方法である。ここでは、Ｍ_ｓは、窓を用いたフレーム音楽情報評価値の重み付き平均ｒ_ｓと、適当に定められた閾値Ｈ_２を用いて、次式（７）のように算出される。

窓（ｗ_１，ｗ_２，…，ｗ_ｎ）は、特に音楽を含むか否かの境界近辺での検出精度を向上させるために、セグメント中央付近のフレーム音楽情報評価値に大きな重みを付与するなどの目的で導入されるものである。窓（ｗ_１，ｗ_２，…，ｗ_ｎ）として、短時間音響解析に用いられる一般的な窓関数を使うことができる。例えば、次式（８）で表わされるハニング窓や、次式（９）で表わされるガウス窓などである。

上述した第１実施形態によれば、最終的に出力したい時刻の単位（細かさ）のセグメント（短時間フレームの長さより長い）を導入し、セグメント周辺の広い範囲に含まれるフレームのフレーム音楽情報評価値に基づいて、セグメント音楽情報評価値を算出することにより、音楽に比べて重畳した音声や背景音などの音量が大きい場合であっても、音響信号から高精度で音楽区間を検出することができる。

Ｃ．第２実施形態
次に、本発明の第２実施形態について説明する。
図９は、本発明の第２実施形態による音楽区間検出装置１００の構成を示すブロック図である。なお、図２に対応する部分には同一の符号を付けて説明を省略する。図９には、図２に示す第１実施形態の構成に加えて、音楽フレーム評価値算出手段３で用いられる識別関数のパラメータを、学習で獲得するパラメータ学習部１０、及び獲得したパラメータを保存する識別用パラメータ蓄積部２０を備えた構成を示している。

従来の音楽区間検出技術では、識別や、特徴計算などに用いるパラメータを、全て人手で決定しなければならず、最適なパラメータを得るのが難しいという問題があった。この問題を解決するために、本第２実施形態では、音楽フレーム評価値算出手段３での処理において、短時間フレーム毎に音楽が含まれているかを識別する識別関数のパラメータを、学習により獲得するためのパラメータ学習部１０を備えている。識別関数のパラメータとは、数式（２）においては、ａ、ｂを、数式（３）においては、Ａ、Ｂ、Ｃを示している。

パラメータ学習部１０は、音響特徴抽出手段１１と識別用パラメータ学習手段１２とで構成されている。音響特徴抽出手段１１は、音楽区間検出部１における音響特徴抽出手段２と同一のものであり、入力される学習音響信号から学習音響特徴ベクトル列を抽出する。識別用パラメータ学習手段１２は、学習音響特徴ベクトル列、及び、事前に人手などで学習用にラベル付けされた、各フレームのフレーム音楽情報評価値である学習ラベル情報から、識別用パラメータを生成し、識別用パラメータ蓄積部２０に保存する。

図１０は、本第２実施形態による、学習ラベル情報及び学習音響特徴ベクトル列の概要を示す概念図である。図１０（ａ）に示す学習ラベル情報ｑ_ｉは、フレーム毎に音楽であるかないかを、０または１の２値で表す。具体的には、図１０（ｂ）に示す学習音響信号を人が聴き、人手でラベリングするなどして事前に用意しておく。図１０（ｃ）に示す学習音響特徴ベクトル列ｕ_ｉは、音楽区間検出部１の音響特徴抽出手段２のｙ_ｉの計算と同じ方法で計算される。

識別用パラメータ学習手段１２は、学習ラベル情報ｑ_ｉ及び学習音響特徴ベクトル列ｕ_ｉ（ｉ＝ｌ，２，…）が入力されると、識別用パラメータを出力する。識別関数が数式（２）で表されるときは、線形判別分析法などを用いて、パラメータａ，ｂを計算することが可能である。また、識別関数が数式（４）で表されるときも、２次の判別分析法を用いてパラメータＡ、Ｂ、Ｃを計算することが可能である。

すなわち、学習音響特徴ベクトル列の各ベクトルｕ_ｉをサンプルとしてみた場合、ｑ_ｉ＝０であるサンプルの平均（ベクトル）、分散共分散行列を、それぞれｍ_０、Σ_０とし、ｑ_ｉ＝１であるサンプルの平均分散共分散行列を、それぞれｍ_１、Σ_１として、２次の判別分析による識別関数Ｊ（ｙ）は、次式（１０）で表すことができる。

但し、ｙはフレーム音響特徴ベクトルを表し、Σ_０ ^−１及びΣ_１ ^−１は、それぞれΣ_０、Σ_１の逆行列を表し、｜Σ_０｜、｜Σ_１｜は、それぞれ、Σ_０、Σ_１の行列式を表している。
上述した数式（６）を変形すると、数式（４）の各パラメータは、次式（１１）で求めることが可能となる。

次に、本第２実施形態の動作について説明する。
図１１及び図１２は、本第２実施形態による音楽区間検出装置１００の動作を説明するためのフローチャートである。まず、パラメータ学習部１０において、音響特徴抽出手段１１は、入力される学習音響信号から学習音響特徴ベクトル列を抽出し（ステップＳｂ１）、識別用パラメータ学習手段１２は、学習音響特徴ベクトル列、及び学習ラベル情報から、識別用パラメータを生成し（ステップＳｂ２）、識別用パラメータ蓄積部２０に保存する（ステップＳｂ３）。

次に、音楽区間検出部１において、音響特徴抽出手段２は、入力音響信号（デジタル）を受け取り、例えば、1００ｍｓｅｃなどの短時間フレーム毎に複数の音響特徴（フレーム音響特徴ベクトル）を算出する（ステップＳｃ１）。次に、音楽フレーム評価値算出手段３は、識別用パラメータ蓄積部２０に蓄積された識別用パラメータを読み込み（ステップＳｃ２）、識別用パラメータを参照しながら、フレーム音響特徴ベクトル列に基づき、各フレームについて音楽を含むか否かを示すフレーム音楽情報評価値を算出する（ステップＳｃ３）。

次に、音楽セグメント評価値算出手段４は、フレーム音楽情報評価値に従って、セグメントそれぞれに対して、音楽を含むか否かについてのセグメント音楽情報評価値を算出する（ステップＳｃ４）。そして、開始・終了時刻判定手段５は、セグメント音楽情報評価値に基づいて、音楽開始・終了時刻を判定し、リストを出力する（ステップＳｃ５）。

上述した第２実施形態によれば、音楽フレーム評価値算出処理において、短時間フレーム毎に音楽が含まれているか否かに関する評価値を出力する識別関数のパラメータを、学習アルゴリズムにより獲得するようにしたため、識別や特徴計算に使うパラメータを全て人手で決定する必要がなくなり、最適なパラメータを容易に取得することができる。この結果、調波構造を持たない部分を含む音楽や、音楽に比べて重畳した音声や背景音などの音量が大きい場合であっても、音響信号から高精度で音楽区間を検出することができる。

なお、上述した第１及び第２実施形態において、音楽区間検出部１、パラメータ学習部１０などによる各ステップを実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、また、音楽区間検出部１、パラメータ学習部１０などにおける処理部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、各種処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものであってもよい。また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、フラッシュメモリ等の書き込み可能な不揮発性メモリ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。

さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（例えばＤＲＡＭ（Dynamic Random Access Memory））のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であっても良い。

本発明によって実現される音楽区間検出処理の概略を示す概念図である。本第１実施形態による音楽区間検出装置の構成を示すブロック図である。本第１実施形態による音楽区間検出装置の動作を説明するためのフローチャートである。フレーム音響特徴ベクトル列の計算の概要を示す概念図である。フレーム音響特徴ベクトル列の計算にＮ個の帯域フィルタで構成される帯域フィルタバンクを利用した例を示す概念図である。本第１実施形態による、音楽フレーム評価値算出手段３、音楽セグメント評価値算出手段４、及び開始・終了時刻判定手段５において、入出力される情報を示す概念図である。本第１実施形態による、フレーム音楽情報評価値からセグメント音楽情報評価値を計算する方法の概略を示す概念図である。本第１実施形態による、音楽セグメント情報評価値を算出する他の方法を説明するための概念図である。本発明の第２実施形態による音楽区間検出装置の構成を示すブロック図である。本第２実施形態による、学習ラベル情報及び学習音響特徴ベクトル列の概要を示す概念図である。本第２実施形態による音楽区間検出装置の動作を説明するためのフローチャートである。本第２実施形態による音楽区間検出装置の動作を説明するためのフローチャートである。

符号の説明

１音楽区間検出部
２音響特徴抽出手段
３音楽フレーム評価値算出手段
４音楽セグメント評価値算出手段
５開始・終了時刻判定手段
１０パラメータ学習部
１１音響特徴抽出手段
１２識別用パラメータ学習手段
２０識別用パラメータ蓄積部
１００音楽区間検出装置

Claims

入力された音響信号の中から、音楽が含まれる音楽区間を検出する音楽区間検出方法であって、
各帯域フィルタの中心周波数が対数周波数軸上で等間隔になるよう構成された帯域フィルタバンクに前記音響信号を入力することにより得られるサンプル列に対して短時間フレームを設定し、各短時間フレームに含まれる音響特徴ベクトルを抽出する音響特徴抽出ステップと、
前記音響特徴ベクトルに基づいて、前記短時間フレーム毎に音楽が含まれるか否かを示すフレーム音楽情報評価値を算出する音楽フレーム評価値算出ステップと、
前記音響信号に対して、前記短時間フレームよりも時間区間が長く、かつ、最終的に出力したい時刻の単位であるセグメントを設定し、各セグメントの音楽情報評価値を、当該セグメントを中心とする当該セグメントよりも大きな時間区間の範囲の全ての短時間フレームの前記フレーム音楽情報評価値に基づいて算出する音楽セグメント評価値算出ステップと
を含むことを特徴とする音楽区間検出方法。
前記セグメント音楽情報評価値に基づいて、音楽の開始時刻及び終了時刻を判定し、該音楽の開始時刻及び終了時刻からなる音楽区間リストを出力する開始・終了時刻判定ステップを更に含むことを特徴とする請求項１記載の音楽区間検出方法。
前記音楽フレーム評価値算出ステップは、識別関数として多項式識別関数を用いて、前記短時間フレーム毎に音楽が含まれるか否かを示すフレーム音楽情報評価値を算出することを特徴とする請求項１記載の音楽区間検出方法。
前記音楽セグメント評価値算出ステップは、窓関数によって重み付けされたフレーム音楽情報評価値に基づいて、セグメント音楽情報評価値を算出することを特徴とする請求項１記載の音楽区間検出方法。
前記音楽フレーム評価値算出ステップは、
識別関数のパラメータを、学習ラベル情報及び学習音響信号を用いて学習して獲得する識別用パラメータ学習ステップと、
獲得されたパラメータを蓄積する識別用パラメータ蓄積ステップと
を更に含むことを特徴とする請求項１記載の音楽区間検出方法。
入力された音響信号の中から、音楽が含まれる音楽区間を検出する音楽区間検出装置であって、
各帯域フィルタの中心周波数が対数周波数軸上で等間隔になるよう構成された帯域フィルタバンクに前記音響信号を入力することにより得られるサンプル列に対して短時間フレームを設定し、各短時間フレームに含まれる音響特徴ベクトルを抽出する音響特徴抽出手段と、
前記音響特徴ベクトルに基づいて、前記短時間フレーム毎に音楽が含まれるか否かを示すフレーム音楽情報評価値を算出する音楽フレーム評価値算出手段と、
前記音響信号に対して、前記短時間フレームよりも時間区間が長く、かつ、最終的に出力したい時刻の単位であるセグメントを設定し、各セグメントの音楽情報評価値を、当該セグメントを中心とする当該セグメントよりも大きな時間区間の範囲の全ての短時間フレームの前記フレーム音楽情報評価値に基づいて算出する音楽セグメント評価値算出手段と
を具備することを特徴とする音楽区間検出装置。
入力された音響信号の中から、音楽が含まれる音楽区間を検出する音楽区間検出装置のコンピュータに、
各帯域フィルタの中心周波数が対数周波数軸上で等間隔になるよう構成された帯域フィルタバンクに前記音響信号を入力することにより得られるサンプル列に対して短時間フレームを設定し、各短時間フレームに含まれる音響特徴ベクトルを抽出する音響特徴抽出ステップと、
前記音響特徴ベクトルに基づいて、前記短時間フレーム毎に音楽が含まれるか否かを示すフレーム音楽情報評価値を算出する音楽フレーム評価値算出ステップと、
前記音響信号に対して、前記短時間フレームよりも時間区間が長く、かつ、最終的に出力したい時刻の単位であるセグメントを設定し、各セグメントの音楽情報評価値を、当該セグメントを中心とする当該セグメントよりも大きな時間区間の範囲の全ての短時間フレームの前記フレーム音楽情報評価値に基づいて算出する音楽セグメント評価値算出ステップと
を実行させるための音楽区間検出プログラム。
入力された音響信号の中から、音楽が含まれる音楽区間を検出する音楽区間検出装置のコンピュータに、
各帯域フィルタの中心周波数が対数周波数軸上で等間隔になるよう構成された帯域フィルタバンクに前記音響信号を入力することにより得られるサンプル列に対して短時間フレームを設定し、各短時間フレームに含まれる音響特徴ベクトルを抽出する音響特徴抽出ステップと、
前記音響特徴ベクトルに基づいて、前記短時間フレーム毎に音楽が含まれるか否かを示すフレーム音楽情報評価値を算出する音楽フレーム評価値算出ステップと、
前記音響信号に対して、前記短時間フレームよりも時間区間が長く、かつ、最終的に出力したい時刻の単位であるセグメントを設定し、各セグメントの音楽情報評価値を、当該セグメントを中心とする当該セグメントよりも大きな時間区間の範囲の全ての短時間フレームの前記フレーム音楽情報評価値に基づいて算出する音楽セグメント評価値算出ステップと
を実行させるための音楽区間検出プログラムを記録したコンピュータ読み取り可能な記録媒体。