JP4572218B2 - 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体 - Google Patents

音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体 Download PDF

Info

Publication number
JP4572218B2
JP4572218B2 JP2007169258A JP2007169258A JP4572218B2 JP 4572218 B2 JP4572218 B2 JP 4572218B2 JP 2007169258 A JP2007169258 A JP 2007169258A JP 2007169258 A JP2007169258 A JP 2007169258A JP 4572218 B2 JP4572218 B2 JP 4572218B2
Authority
JP
Japan
Prior art keywords
music
frame
segment
evaluation value
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007169258A
Other languages
English (en)
Other versions
JP2009008836A (ja
Inventor
知範 泉谷
邦夫 柏野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2007169258A priority Critical patent/JP4572218B2/ja
Publication of JP2009008836A publication Critical patent/JP2009008836A/ja
Application granted granted Critical
Publication of JP4572218B2 publication Critical patent/JP4572218B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音響信号が入力されたときに、音楽が含まれる時間帯を特定し、その開始時刻と終了時刻を出力する音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体に関する。
音響信号が音楽であるのか、音声であるのかを分類する技術(音楽/音声識別技術)として、音響パワー値の変調特性、低パワーフレームの割合、パワースペクトル分布の統計量等、複数の特微量を計算し、ガウス混合分布モデルを用いて短時間フレーム毎に音声/音楽を識別する方法が提案されている(例えば、非特許文献1参照)。
また、音響信号からの、音声や、背景音などが重畳した音楽の検出手法(音楽区間検出技術)として、スペクトログラム画像の時間軸方向の直線成分(エッジ)の強さを表す量を用いる方法が提案されている(例えば、非特許文献2参照)。
また、音楽区間検出技術として、調波構造をもち、基本周波数が設定値以上であるフレームの割合で音楽の有無を判断する方法が提案されている(例えば、非特許文献3参照)。
E. Scheier and M.Slaney, ‘Construction and Evaluation of a Robust Multifeature Speech/Music Discriminator’, Proc. ICASSP 1997, pp1331-1334. 南憲一,他,「音情報を用いた映像インデキシングとその応用」、電子情報通信学会論文誌D-II Vol.J-81-D-II, No.3,pp529-537, 1998年. T. Zhang and C. -C. J. Kuo, ‘Audio Content Analysis for Online Audiovisual Data Segmentation and Classification’, IEEE Trans. 0n Speech and Audio Processing, Vol.9, No.4, pp.441-457, 2001.
しかしながら、非特許文献1による従来技術は、音声や背景音などが重畳した音楽の検出を対象としておらず、音声や、背景音などが重畳した音楽の検出に適用した場合には、音楽を含む区間であるにもかかわらず、その区間の一部が音楽を含まない部分であるように誤判別したり、音楽を含まない区間を、音楽を含む区間であると誤判別したりするフレームが多くなる、という問題があった。さらに、このような手法を利用して、音楽の開始・終了時刻の検出を行うと、実際は1つである音楽区間の中に複数回の音楽終了、開始時刻が検出されてしまう、また逆に、実際は音楽区間でない部分に複数回の短時間の音楽区間が検出されてしまうという問題があった。
また、非特許文献2による従来技術では、音声、背景音が音楽に重畳した音響信号から、ビブラート、グリッサンド等による周波数の変動がない調波構造(パワースペクトルにおいて、基本周波数の整数倍の周波数にピークを持つ構造)を持つ楽器音を検出することが可能となっている。しかしながら、それ以外の音楽(ビブラート、グリッサンドを含む楽器音や、ヴォーカル、打楽器音など)で構成される音楽を検出することが原理的に難しいという問題があった。
また、非特許文献3による従来技術では、調波構造を持たない部分(打楽器音等)や、基本周波数が閾値に満たない部分を多く含む音楽の検出が原理的に難しく、また、閾値等のパラメータをすべて人手で決めなければならないという問題があった。
本発明は、このような事情を考慮してなされたものであり、その目的は、調波構造を持たない部分を含む音楽や、音楽に比べて重畳した音声や背景音などの音量が大きい場合であっても、音響信号から高精度で音楽区間を検出することができる音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体を提供することにある。
上述した課題を解決するために、本発明は、入力された音響信号の中から、音楽が含まれる音楽区間を検出する音楽区間検出方法であって、各帯域フィルタの中心周波数が対数周波数軸上で等間隔になるよう構成された帯域フィルタバンクに前記音響信号を入力することにより得られるサンプル列に対して短時間フレームを設定し、各短時間フレームに含まれる音響特徴ベクトルを抽出する音響特徴抽出ステップと、前記音響特徴ベクトルに基づいて、前記短時間フレーム毎に音楽が含まれるか否かを示すフレーム音楽情報評価値を算出する音楽フレーム評価値算出ステップと、前記音響信号に対して、前記短時間フレームよりも時間区間が長く、かつ、最終的に出力したい時刻の単位であるセグメントを設定し、各セグメントの音楽情報評価値を、当該セグメントを中心とする当該セグメントよりも大きな時間区間の範囲の全ての短時間フレームの前記フレーム音楽情報評価値に基づいて算出する音楽セグメント評価値算出ステップとを含むことを特徴とする音楽区間検出方法である。
本発明は、上記の発明において、前記セグメント音楽情報評価値に基づいて、音楽の開始時刻及び終了時刻を判定し、該音楽の開始時刻及び終了時刻からなる音楽区間リストを出力する開始・終了時刻判定ステップを更に含むことを特徴とする。
本発明は、上記の発明において、前記音楽フレーム評価値算出ステップは、識別関数として多項式識別関数を用いて、前記短時間フレーム毎に音楽が含まれるか否かを示すフレーム音楽情報評価値を算出することを特徴とする。
本発明は、上記の発明において、前記音楽セグメント評価値算出ステップは、窓関数によって重み付けされたフレーム音楽情報評価値に基づいて、セグメント音楽情報評価値を算出することを特徴とする。
本発明は、上記の発明において、前記音楽フレーム評価値算出ステップは、識別関数のパラメータを、学習ラベル情報及び学習音響信号を用いて学習して獲得する識別用パラメータ学習ステップと、獲得されたパラメータを蓄積する識別用パラメータ蓄積ステップとを更に含むことを特徴とする。
また、上述した課題を解決するために、本発明は、入力された音響信号の中から、音楽が含まれる音楽区間を検出する音楽区間検出装置であって、各帯域フィルタの中心周波数が対数周波数軸上で等間隔になるよう構成された帯域フィルタバンクに前記音響信号を入力することにより得られるサンプル列に対して短時間フレームを設定し、各短時間フレームに含まれる音響特徴ベクトルを抽出する音響特徴抽出手段と、前記音響特徴ベクトルに基づいて、前記短時間フレーム毎に音楽が含まれるか否かを示すフレーム音楽情報評価値を算出する音楽フレーム評価値算出手段と、前記音響信号に対して、前記短時間フレームよりも時間区間が長く、かつ、最終的に出力したい時刻の単位であるセグメントを設定し、各セグメントの音楽情報評価値を、当該セグメントを中心とする当該セグメントよりも大きな時間区間の範囲の全ての短時間フレームの前記フレーム音楽情報評価値に基づいて算出する音楽セグメント評価値算出手段とを具備することを特徴とする音楽区間検出装置である。
また、上述した課題を解決するために、本発明は、入力された音響信号の中から、音楽が含まれる音楽区間を検出する音楽区間検出装置のコンピュータに、各帯域フィルタの中心周波数が対数周波数軸上で等間隔になるよう構成された帯域フィルタバンクに前記音響信号を入力することにより得られるサンプル列に対して短時間フレームを設定し、各短時間フレームに含まれる音響特徴ベクトルを抽出する音響特徴抽出ステップと、前記音響特徴ベクトルに基づいて、前記短時間フレーム毎に音楽が含まれるか否かを示すフレーム音楽情報評価値を算出する音楽フレーム評価値算出ステップと、前記音響信号に対して、前記短時間フレームよりも時間区間が長く、かつ、最終的に出力したい時刻の単位であるセグメントを設定し、各セグメントの音楽情報評価値を、当該セグメントを中心とする当該セグメントよりも大きな時間区間の範囲の全ての短時間フレームの前記フレーム音楽情報評価値に基づいて算出する音楽セグメント評価値算出ステップとを実行させるための音楽区間検出プログラムである。
また、上述した課題を解決するために、本発明は、入力された音響信号の中から、音楽が含まれる音楽区間を検出する音楽区間検出装置のコンピュータに、各帯域フィルタの中心周波数が対数周波数軸上で等間隔になるよう構成された帯域フィルタバンクに前記音響信号を入力することにより得られるサンプル列に対して短時間フレームを設定し、各短時間フレームに含まれる音響特徴ベクトルを抽出する音響特徴抽出ステップと、前記音響特徴ベクトルに基づいて、前記短時間フレーム毎に音楽が含まれるか否かを示すフレーム音楽情報評価値を算出する音楽フレーム評価値算出ステップと、前記音響信号に対して、前記短時間フレームよりも時間区間が長く、かつ、最終的に出力したい時刻の単位であるセグメントを設定し、各セグメントの音楽情報評価値を、当該セグメントを中心とする当該セグメントよりも大きな時間区間の範囲の全ての短時間フレームの前記フレーム音楽情報評価値に基づいて算出する音楽セグメント評価値算出ステップとを実行させるための音楽区間検出プログラムを記録したコンピュータ読み取り可能な記録媒体である。
この発明によれば、音響信号において短時間フレームを設定し、各短時間フレームに含まれる音響特徴ベクトルを抽出し、該音響特徴ベクトルに基づいて、短時間フレーム毎に音楽が含まれるか否かを示すフレーム音楽情報評価値を算出し、該フレーム音楽情報評価値に基づいて、短時間フレームに比べ長時間の長さを有するセグメント毎に音楽が含まれるか否かを示すセグメント音楽情報評価値を算出する。したがって、調波構造を持たない部分を含む音楽や、音楽に比べて重畳した音声や背景音などの音量が大きい場合であっても、音響信号から高精度で音楽区間を検出することができるという利点が得られる。
また、本発明によれば、セグメント音楽情報評価値に基づいて、音楽の開始時刻及び終了時刻を判定し、該音楽の開始時刻及び終了時刻からなる音楽区間リストを出力する。したがって、調波構造を持たない部分を含む音楽や、音楽に比べて重畳した音声や背景音などの音量が大きい場合であっても、音響信号から高精度で音楽区間を検出することができ、特に、音楽の開始・終了を判定する場合に、音楽の開始、終了位置を高精度で検出することができるという利点が得られる。
また、本発明によれば、識別関数として多項式識別関数を用いて、短時間フレーム毎に音楽が含まれるか否かを示すフレーム音楽情報評価値を算出する。したがって、調波構造を持たない部分を含む音楽や、音楽に比べて重畳した音声や背景音などの音量が大きい場合であっても、音響信号から高精度で音楽区間を検出することができるという利点が得られる。
また、本発明によれば、窓関数によって重み付けされたフレーム音楽情報評価値に基づいて、セグメント音楽情報評価値を算出する。したがって、音楽に比べて重畳した音声や背景音などの音量が大きい場合であっても、音響信号から高精度で音楽区間を検出することができるという利点が得られる。
また、本発明によれば、識別関数のパラメータを、学習ラベル情報及び学習音響信号を用いて学習して獲得し、獲得したパラメータを蓄積し、該識別関数のパラメータを参照して、音響特徴ベクトルに基づいて、短時間フレーム毎に音楽が含まれるか否かを示すフレーム音楽情報評価値を算出する。したがって、識別や、特徴計算などに使うパラメータを全て人手で決定する必要がなく、最適なパラメータを容易に得ることができるという利点が得られる。
以下、本発明の一実施形態を、図面を参照して説明する。
A.本発明の原理
まず、本実施形態による音楽区間検出方法について説明する。本実施形態は、音響信号が与えられたときに、音楽が含まれる部分を検出し、その開始時刻と終了時刻とを特定し、リストとして出力するものである。
図1は、本発明によって実現される音楽区間検出処理の概略を示す概念図である。図1(a)は、音楽区間を検出したい入力音響信号を示し、図1(b)は、入力音響信号の内容を示している。テレビや、ラジオなどの音響信号は、音楽の上にナレーションなどの音声や、背景音などが重畳している場合がある。
図1(b)において、区間A、B、C、Dが検出すべき音楽区間を示している。区間A、Dは、音楽が単独で流れている部分を示し、区間Bは、ナレーションが重畳した音楽の部分を、区間Cは、背景音が重畳した音楽の部分をそれぞれ示している。図1(c)に示す本実施形態による音楽区間検出装置100は、図1(a)に示す入力音響信号が入力されると、図1(d)に示す例のような音楽区間リストを出力する。
B.第1実施形態
次に、本発明の第1実施形態について説明する。
図2は、本第1実施形態による音楽区間検出装置100の構成を示すブロック図である。図において、音楽区間検出部1は、音響特徴抽出手段2、音楽フレーム評価値算出手段3、音楽セグメント評価値算出手段4、及び開始・終了時刻判定手段5を備えている。
音響特徴抽出手段2は、入力音響信号(デジタル)を受け取り、例えば、100msecなどの短時間フレーム毎に複数の音響特徴(フレーム音響特徴ベクトル)を計算し、これを時間方向に並べた音響特徴ベクトル列を音楽フレーム評価値算出手段3に供給する。音楽フレーム評価値算出手段3は、フレーム音響特徴ベクトル列が入力されると、各フレームについて音楽を含むか否かの評価値、すなわち、フレーム音楽情報評価値を計算し、これを音楽セグメント評価値算出手段4に供給する。音楽セグメント評価値算出手段4は、フレーム音楽情報評価値が入力されると、短時間フレームに比べ長時間の長さを有するセグメントそれぞれに対して、音楽を含むか否かについてのセグメント音楽情報評価値を算出し、開始・終了時刻判定手段5に供給する。開始・終了時刻判定手段5は、セグメント音楽情報評価値に基づいて、音楽開始・終了時刻を判定し、リストを出力する。
次に、本第1実施形態の動作について説明する。
図3は、本第1実施形態による音楽区間検出装置100の動作を説明するためのフローチャートである。まず、音響特徴抽出手段2は、入力音響信号(デジタル)を受け取り、例えば、100msecなどの短時間フレーム毎に複数の音響特徴(フレーム音響特徴ベクトル)を算出する(ステップSa1)。次に、音楽フレーム評価値算出手段3は、フレーム音響特徴ベクトル列に基づき、各フレームについて音楽を含むか否かの評価値、すなわち、フレーム音楽情報評価値を算出する(ステップSa2)。
次に、音楽セグメント評価値算出手段4は、フレーム音楽情報評価値に従って、セグメントそれぞれに対して、音楽を含むか否かについてのセグメント音楽情報評価値を算出する(ステップSa3)。そして、開始・終了時刻判定手段5は、セグメント音楽情報評価値に基づいて、音楽開始・終了時刻を判定し、リストを出力する(ステップSa4)。
以下、上述した各ステップにおける処理について詳細に説明する。
ここで、図4は、フレーム音響特徴ベクトル列の計算の概要を示す概念図である。まず、図4(a)に示す入力音響信号の幅Wを有するフレーム内のサンプルを使って、N個の音響特徴(y :iはフレーム番号、jは音響特徴の番号)を計算し、フレーム音響特徴ベクトル(y)を取得する(ステップSA1)。次に、フレームをLサンプル(=フレームシフト幅)だけ進めて(ステップSA2)、ステップSA1と同様にフレーム音響特徴ベクトルを計算する。
ステップSA1、SA2を繰り返すことで、図4(b)に示すフレーム音響特徴ベクトル列を取得する。N個の音響特徴を計算するには、音響信号処理で一般的に用いられる以下のような方法を用いることができる。
1)短時間フーリエ変換などに基づいて算出されるパワースペクトル、
2)メル周波数ケプストラム係数(Mel-frequency cepstral coefficients)、
3)ケプストラム係数。
あるいは、非特許文献1などの既存の音楽/音声識別技術などで用いられる、
4)パワースペクトル値を、4Hz等の低い中心周波数をもつ帯域通過フィルタに入力して出力された値、
5)前後複数フレームのパワースペクトル値に基づく低パワーフレームの割合、
6)パワースペクトル分布における95%点の周波数値、
7)パワースペクトル分布の重心の周波数値、
8)1つ前または後のフレームとのパワースペクトル(ベクトルで表現される)とのユークリッド距離、または、成分ごとの差の絶対値の和、
9)フレーム内の音響信号のゼロ交差割合。
あるいは、非特許文献2で利用されている、
10)スペクトログラム画像のエッジの強さを表す値、
を用いても良い。
あるいは、非特許文献3で利用される、
11)前後の複数フレームを用いて算出される基本周波数が設定値以上となるフレームの割合、
を用いても良い。
また、これらの音響特徴のいくつかを組み合わせたもの、さらに、それぞれの音響特徴について、前後の複数フレームの音響特徴から算出される分散(標準偏差)や、前後のフレームに基づく微分値または差分値をさらに音響特徴として加えても良い。
また、図4に示す例は、L<Wの場合を示しているが、例えばW=Lとしても構わない。
図5は、フレーム音響特徴ベクトル列の計算にN個の帯域フィルタで構成される帯域フィルタバンクを利用した例を示す概念図である。図5(a)に示す入力音響信号を帯域フィルタバンク2−1に入力すると、図5(b)に示すように、図5(a)と同じサンプリング周波数のサンプル列がN本出力される。
各フィルタバンクの出力のサンプル列に対してフレームを設定し、フレーム内のパワーの平均値、もしくはパワーの平均値の対数をフレーム音響特徴として用いる。また、フレーム音響特徴ベクトルyは、そのノルムが1となるように正規化してもよい。図5(b)は、フレームの幅Wとフレームシフト幅Lが同じ値の場合を示しているが、図4と同様L<Wの場合でも問題ない。このように帯域フィルタバンク2−1を用いても、図5(c)に示すように、フレーム音響特徴ベクトル列を取得することが可能である。
帯域フィルタバンク2−1の中心周波数は、対数周波数軸上で等間隔になるよう、音階の有する特性を利用した、次式(1)に示すような等比級数による配置を利用するのが効果的である。但し、F(k)はk番目の帯域フィルタの中心周波数を、Fは最低中心周波数を、Rは隣接する中心周波数同士の比を表しており、1を超える値、例えば21/12などが設定される。
Figure 0004572218
次に、図6は、本第1実施形態による、音楽フレーム評価値算出手段3、音楽セグメント評価値算出手段4、及び開始・終了時刻判定手段5において、入出力される情報を示す概念図である。音楽フレーム評価値算出手段3は、図6(a)に示すフレーム音響特徴ベクトル列(y,y,…,y,…)が入力されると、各フレームについて音楽を含むか否かの評価値(フレーム音楽情報評価値)を計算し、図6(b)に示す(z,z,z,…,z,…)を出力する。フレーム音楽情報評価値zは、フレーム毎に算出され、音楽を含む度合いに関する評価値を表しており、値が大きければ大きいほど、音楽を含む可能性が高いことを示している。フレーム音楽情報評価値zは、典型的には、音楽を含む場合に1、含まない場合に0という2値をとるが、連続値でもよい。
音楽フレーム評価値算出手段3におけるフレーム音楽情報評価の計算は、複数の方法がある。第1の方法は、多項式識別関数を用いるものであり、例えば、一次の識別関数を用いる場合には、以下の通りである。
まず、各フレームについて事前に設定されているベクトルa=(a,a,…,a)とスカラー量bを用いて、線形識別関数gを、次式(2)に従って計算する。
Figure 0004572218
但し、y、aは横ベクトルとし、肩のTは転置を表すものする。
次に、閾値Tを用いて、各フレームについて、次式(3)に従って音楽を含むか否かを表す2値zを計算する。
Figure 0004572218
第2の方法は、多項式識別関数として2次識別関数を用いるものである。
まず、各フレームについて事前に設定されている行列A、ベクトルBと、スカラーCとを用いて定義される識別関数hを、次式(4)に従って計算する。
Figure 0004572218
次に、閾値Tを用いて、各フレームについて音楽を含むか否かを表す2値zを、次式(5)に従って計算する。
Figure 0004572218
なお、フレーム音楽情報評価値zとして連続値を利用する場合には、例えば、数式(2)におけるgや、数式(4)におけるhをzとして用いる。
フレームは、一般的には、100msecなど短時間であるため、実際に音楽開始・終了時刻として出力したい時間単位よりも小さい場合が多い。そこで、図6(c)に示すように、最終的に音楽開始・終了時刻として出力したい時間単位であるセグメントを導入する。音楽セグメント評価値算出手段4は、図6(b)に示すフレーム音楽情報評価値(z,z,z,…,z,…)が入力されると、図6(c)に示すように、セグメントそれぞれに対して、音楽を含むか否かについての評価値(セグメント音楽情報評価値)M,M,…,M,…を算出する。
は、0か1の2値をとり、M=1は第sセグメントに音楽が含まれることを意味し、M=0は音楽が含まれないことを示す。図6(b)において、セグメントの長さPは、最終的に音楽開始・終了時刻として出力したい時間単位によって決まる。典型的には、1秒などが使用され、この場合には、音楽開始・終了時刻が1秒単位で出力される。
短時間フレーム毎の評価値であるフレーム音楽情報評価値を用いて音楽の開始・終了を判定すると、短時間の誤識別があった場合、例えば、長い音楽区間の中に少数の音楽を含まないと誤識別されたフレームが存在し、識別結果がまだらであった場合、誤識別のフレームの前で音楽区間が終了し、その後にもう一度音楽が開始すると判定されてしまい、精度が低下する場合がある。
本第1実施形態による音楽セグメント評価値算出手段4では、最終的に出力したい時刻の単位(細かさ)のセグメント(短時間フレームの長さより長い)を導入し、セグメント音楽情報評価値を算出するときに、セグメント周辺の広い範囲に含まれるフレームのフレーム音楽情報評価値を利用することで、スムージングの効果により、まだらな判定結果を抑止することができ、音楽開始・終了時刻の判定の精度低下を防ぐことが可能となる。
次に、図7は、本第1実施形態による、フレーム音楽情報評価値からセグメント音楽情報評価値を計算する方法の概略を示す概念図である。図7(a)は、セグメントを表している。図7(b)は、フレームを表しており、zは、第iフレームのフレーム音楽情報評価値を表している。横方向のスケールは、セグメントとフレームとを合わせている。図7(c)は、各セグメントの音楽を含むか否かの情報を、0または1の2値で表すセグメント音楽情報評価値を示している。第sセグメントのセグメント音楽情報評価値をMで表している。
セグメント音楽情報評価値Mの計算方法は、以下の通りである(図7(a)、(b))。まず、各セグメントの中心から前後D秒の範囲に含まれるフレーム音楽情報評価値zを切り出す。Dの値は、例えば、2秒などとする。また、図7(b)に示すように、第sセグメントに対するセグメント音楽情報評価値の算出のために切り出されるフレーム音楽情報評価値を(z ,z ,…,z )とする。但し、切り出されるフレームの数をnとする。
次に、z (j=1,2,…,n)の平均値を算出し、Cとする。最後に、以下のように閾値Hを用いて、次式(6)に従って、音楽セグメント情報評価値Mを算出する。
Figure 0004572218
開始・終了時刻判定手段5は、セグメント音楽情報評価値Msに基づいて、音楽開始・終了時刻を判定し、リストを出力する。図6(d)に示すように、開始時刻としては、音楽セグメント情報評価値Mが0から1に変化した最初のセグメントに対応する時刻を、終了時刻としてはMが1から0に変化する直前のセグメントに対応する時刻をそれぞれリストにして出力する。
次に、図8は、本第1実施形態による、音楽セグメント情報評価値を算出する他の方法を説明するための概念図である。これは、図7に示す音楽セグメント評価値算出手段4の処理において、音楽セグメント情報評価値Msの計算のために切り出されたフレーム音楽情報評価値(z ,z 、…,z )を用いて算出する際に、z の平均値を用いるのではなく、窓(w,w,…,w)を用いる方法である。ここでは、Mは、窓を用いたフレーム音楽情報評価値の重み付き平均rと、適当に定められた閾値Hを用いて、次式(7)のように算出される。
Figure 0004572218
窓(w,w,…,w)は、特に音楽を含むか否かの境界近辺での検出精度を向上させるために、セグメント中央付近のフレーム音楽情報評価値に大きな重みを付与するなどの目的で導入されるものである。窓(w,w,…,w)として、短時間音響解析に用いられる一般的な窓関数を使うことができる。例えば、次式(8)で表わされるハニング窓や、次式(9)で表わされるガウス窓などである。
Figure 0004572218
Figure 0004572218
上述した第1実施形態によれば、最終的に出力したい時刻の単位(細かさ)のセグメント(短時間フレームの長さより長い)を導入し、セグメント周辺の広い範囲に含まれるフレームのフレーム音楽情報評価値に基づいて、セグメント音楽情報評価値を算出することにより、音楽に比べて重畳した音声や背景音などの音量が大きい場合であっても、音響信号から高精度で音楽区間を検出することができる。
C.第2実施形態
次に、本発明の第2実施形態について説明する。
図9は、本発明の第2実施形態による音楽区間検出装置100の構成を示すブロック図である。なお、図2に対応する部分には同一の符号を付けて説明を省略する。図9には、図2に示す第1実施形態の構成に加えて、音楽フレーム評価値算出手段3で用いられる識別関数のパラメータを、学習で獲得するパラメータ学習部10、及び獲得したパラメータを保存する識別用パラメータ蓄積部20を備えた構成を示している。
従来の音楽区間検出技術では、識別や、特徴計算などに用いるパラメータを、全て人手で決定しなければならず、最適なパラメータを得るのが難しいという問題があった。この問題を解決するために、本第2実施形態では、音楽フレーム評価値算出手段3での処理において、短時間フレーム毎に音楽が含まれているかを識別する識別関数のパラメータを、学習により獲得するためのパラメータ学習部10を備えている。識別関数のパラメータとは、数式(2)においては、a、bを、数式(3)においては、A、B、Cを示している。
パラメータ学習部10は、音響特徴抽出手段11と識別用パラメータ学習手段12とで構成されている。音響特徴抽出手段11は、音楽区間検出部1における音響特徴抽出手段2と同一のものであり、入力される学習音響信号から学習音響特徴ベクトル列を抽出する。識別用パラメータ学習手段12は、学習音響特徴ベクトル列、及び、事前に人手などで学習用にラベル付けされた、各フレームのフレーム音楽情報評価値である学習ラベル情報から、識別用パラメータを生成し、識別用パラメータ蓄積部20に保存する。
図10は、本第2実施形態による、学習ラベル情報及び学習音響特徴ベクトル列の概要を示す概念図である。図10(a)に示す学習ラベル情報qは、フレーム毎に音楽であるかないかを、0または1の2値で表す。具体的には、図10(b)に示す学習音響信号を人が聴き、人手でラベリングするなどして事前に用意しておく。図10(c)に示す学習音響特徴ベクトル列uは、音楽区間検出部1の音響特徴抽出手段2のyの計算と同じ方法で計算される。
識別用パラメータ学習手段12は、学習ラベル情報q及び学習音響特徴ベクトル列u(i=l,2,…)が入力されると、識別用パラメータを出力する。識別関数が数式(2)で表されるときは、線形判別分析法などを用いて、パラメータa,bを計算することが可能である。また、識別関数が数式(4)で表されるときも、2次の判別分析法を用いてパラメータA、B、Cを計算することが可能である。
すなわち、学習音響特徴ベクトル列の各ベクトルuをサンプルとしてみた場合、q=0であるサンプルの平均(ベクトル)、分散共分散行列を、それぞれm、Σとし、q=1であるサンプルの平均分散共分散行列を、それぞれm、Σとして、2次の判別分析による識別関数J(y)は、次式(10)で表すことができる。
Figure 0004572218
但し、yはフレーム音響特徴ベクトルを表し、Σ −1及びΣ −1は、それぞれΣ、Σの逆行列を表し、|Σ|、|Σ|は、それぞれ、Σ、Σの行列式を表している。
上述した数式(6)を変形すると、数式(4)の各パラメータは、次式(11)で求めることが可能となる。
Figure 0004572218
次に、本第2実施形態の動作について説明する。
図11及び図12は、本第2実施形態による音楽区間検出装置100の動作を説明するためのフローチャートである。まず、パラメータ学習部10において、音響特徴抽出手段11は、入力される学習音響信号から学習音響特徴ベクトル列を抽出し(ステップSb1)、識別用パラメータ学習手段12は、学習音響特徴ベクトル列、及び学習ラベル情報から、識別用パラメータを生成し(ステップSb2)、識別用パラメータ蓄積部20に保存する(ステップSb3)。
次に、音楽区間検出部1において、音響特徴抽出手段2は、入力音響信号(デジタル)を受け取り、例えば、100msecなどの短時間フレーム毎に複数の音響特徴(フレーム音響特徴ベクトル)を算出する(ステップSc1)。次に、音楽フレーム評価値算出手段3は、識別用パラメータ蓄積部20に蓄積された識別用パラメータを読み込み(ステップSc2)、識別用パラメータを参照しながら、フレーム音響特徴ベクトル列に基づき、各フレームについて音楽を含むか否かを示すフレーム音楽情報評価値を算出する(ステップSc3)。
次に、音楽セグメント評価値算出手段4は、フレーム音楽情報評価値に従って、セグメントそれぞれに対して、音楽を含むか否かについてのセグメント音楽情報評価値を算出する(ステップSc4)。そして、開始・終了時刻判定手段5は、セグメント音楽情報評価値に基づいて、音楽開始・終了時刻を判定し、リストを出力する(ステップSc5)。
上述した第2実施形態によれば、音楽フレーム評価値算出処理において、短時間フレーム毎に音楽が含まれているか否かに関する評価値を出力する識別関数のパラメータを、学習アルゴリズムにより獲得するようにしたため、識別や特徴計算に使うパラメータを全て人手で決定する必要がなくなり、最適なパラメータを容易に取得することができる。この結果、調波構造を持たない部分を含む音楽や、音楽に比べて重畳した音声や背景音などの音量が大きい場合であっても、音響信号から高精度で音楽区間を検出することができる。
なお、上述した第1及び第2実施形態において、音楽区間検出部1、パラメータ学習部10などによる各ステップを実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、また、音楽区間検出部1、パラメータ学習部10などにおける処理部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、各種処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものであってもよい。また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(例えばDRAM(Dynamic Random Access Memory))のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
本発明によって実現される音楽区間検出処理の概略を示す概念図である。 本第1実施形態による音楽区間検出装置の構成を示すブロック図である。 本第1実施形態による音楽区間検出装置の動作を説明するためのフローチャートである。 フレーム音響特徴ベクトル列の計算の概要を示す概念図である。 フレーム音響特徴ベクトル列の計算にN個の帯域フィルタで構成される帯域フィルタバンクを利用した例を示す概念図である。 本第1実施形態による、音楽フレーム評価値算出手段3、音楽セグメント評価値算出手段4、及び開始・終了時刻判定手段5において、入出力される情報を示す概念図である。 本第1実施形態による、フレーム音楽情報評価値からセグメント音楽情報評価値を計算する方法の概略を示す概念図である。 本第1実施形態による、音楽セグメント情報評価値を算出する他の方法を説明するための概念図である。 本発明の第2実施形態による音楽区間検出装置の構成を示すブロック図である。 本第2実施形態による、学習ラベル情報及び学習音響特徴ベクトル列の概要を示す概念図である。 本第2実施形態による音楽区間検出装置の動作を説明するためのフローチャートである。 本第2実施形態による音楽区間検出装置の動作を説明するためのフローチャートである。
符号の説明
1 音楽区間検出部
2 音響特徴抽出手段
3 音楽フレーム評価値算出手段
4 音楽セグメント評価値算出手段
5 開始・終了時刻判定手段
10 パラメータ学習部
11 音響特徴抽出手段
12 識別用パラメータ学習手段
20 識別用パラメータ蓄積部
100 音楽区間検出装置

Claims (8)

  1. 入力された音響信号の中から、音楽が含まれる音楽区間を検出する音楽区間検出方法であって、
    各帯域フィルタの中心周波数が対数周波数軸上で等間隔になるよう構成された帯域フィルタバンクに前記音響信号を入力することにより得られるサンプル列に対して短時間フレームを設定し、各短時間フレームに含まれる音響特徴ベクトルを抽出する音響特徴抽出ステップと、
    前記音響特徴ベクトルに基づいて、前記短時間フレーム毎に音楽が含まれるか否かを示すフレーム音楽情報評価値を算出する音楽フレーム評価値算出ステップと、
    前記音響信号に対して、前記短時間フレームよりも時間区間が長く、かつ、最終的に出力したい時刻の単位であるセグメントを設定し、各セグメントの音楽情報評価値を、当該セグメントを中心とする当該セグメントよりも大きな時間区間の範囲の全ての短時間フレームの前記フレーム音楽情報評価値に基づいて算出する音楽セグメント評価値算出ステップと
    を含むことを特徴とする音楽区間検出方法。
  2. 前記セグメント音楽情報評価値に基づいて、音楽の開始時刻及び終了時刻を判定し、該音楽の開始時刻及び終了時刻からなる音楽区間リストを出力する開始・終了時刻判定ステップを更に含むことを特徴とする請求項1記載の音楽区間検出方法。
  3. 前記音楽フレーム評価値算出ステップは、識別関数として多項式識別関数を用いて、前記短時間フレーム毎に音楽が含まれるか否かを示すフレーム音楽情報評価値を算出することを特徴とする請求項1記載の音楽区間検出方法。
  4. 前記音楽セグメント評価値算出ステップは、窓関数によって重み付けされたフレーム音楽情報評価値に基づいて、セグメント音楽情報評価値を算出することを特徴とする請求項1記載の音楽区間検出方法。
  5. 前記音楽フレーム評価値算出ステップは、
    識別関数のパラメータを、学習ラベル情報及び学習音響信号を用いて学習して獲得する識別用パラメータ学習ステップと、
    獲得されたパラメータを蓄積する識別用パラメータ蓄積ステップと
    を更に含むことを特徴とする請求項1記載の音楽区間検出方法。
  6. 入力された音響信号の中から、音楽が含まれる音楽区間を検出する音楽区間検出装置であって、
    各帯域フィルタの中心周波数が対数周波数軸上で等間隔になるよう構成された帯域フィルタバンクに前記音響信号を入力することにより得られるサンプル列に対して短時間フレームを設定し、各短時間フレームに含まれる音響特徴ベクトルを抽出する音響特徴抽出手段と、
    前記音響特徴ベクトルに基づいて、前記短時間フレーム毎に音楽が含まれるか否かを示すフレーム音楽情報評価値を算出する音楽フレーム評価値算出手段と、
    前記音響信号に対して、前記短時間フレームよりも時間区間が長く、かつ、最終的に出力したい時刻の単位であるセグメントを設定し、各セグメントの音楽情報評価値を、当該セグメントを中心とする当該セグメントよりも大きな時間区間の範囲の全ての短時間フレームの前記フレーム音楽情報評価値に基づいて算出する音楽セグメント評価値算出手段と
    を具備することを特徴とする音楽区間検出装置。
  7. 入力された音響信号の中から、音楽が含まれる音楽区間を検出する音楽区間検出装置のコンピュータに、
    各帯域フィルタの中心周波数が対数周波数軸上で等間隔になるよう構成された帯域フィルタバンクに前記音響信号を入力することにより得られるサンプル列に対して短時間フレームを設定し、各短時間フレームに含まれる音響特徴ベクトルを抽出する音響特徴抽出ステップと、
    前記音響特徴ベクトルに基づいて、前記短時間フレーム毎に音楽が含まれるか否かを示すフレーム音楽情報評価値を算出する音楽フレーム評価値算出ステップと、
    前記音響信号に対して、前記短時間フレームよりも時間区間が長く、かつ、最終的に出力したい時刻の単位であるセグメントを設定し、各セグメントの音楽情報評価値を、当該セグメントを中心とする当該セグメントよりも大きな時間区間の範囲の全ての短時間フレームの前記フレーム音楽情報評価値に基づいて算出する音楽セグメント評価値算出ステップと
    を実行させるための音楽区間検出プログラム。
  8. 入力された音響信号の中から、音楽が含まれる音楽区間を検出する音楽区間検出装置のコンピュータに、
    各帯域フィルタの中心周波数が対数周波数軸上で等間隔になるよう構成された帯域フィルタバンクに前記音響信号を入力することにより得られるサンプル列に対して短時間フレームを設定し、各短時間フレームに含まれる音響特徴ベクトルを抽出する音響特徴抽出ステップと、
    前記音響特徴ベクトルに基づいて、前記短時間フレーム毎に音楽が含まれるか否かを示すフレーム音楽情報評価値を算出する音楽フレーム評価値算出ステップと、
    前記音響信号に対して、前記短時間フレームよりも時間区間が長く、かつ、最終的に出力したい時刻の単位であるセグメントを設定し、各セグメントの音楽情報評価値を、当該セグメントを中心とする当該セグメントよりも大きな時間区間の範囲の全ての短時間フレームの前記フレーム音楽情報評価値に基づいて算出する音楽セグメント評価値算出ステップと
    を実行させるための音楽区間検出プログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2007169258A 2007-06-27 2007-06-27 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体 Active JP4572218B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007169258A JP4572218B2 (ja) 2007-06-27 2007-06-27 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007169258A JP4572218B2 (ja) 2007-06-27 2007-06-27 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体

Publications (2)

Publication Number Publication Date
JP2009008836A JP2009008836A (ja) 2009-01-15
JP4572218B2 true JP4572218B2 (ja) 2010-11-04

Family

ID=40323989

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007169258A Active JP4572218B2 (ja) 2007-06-27 2007-06-27 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体

Country Status (1)

Country Link
JP (1) JP4572218B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101780932B1 (ko) * 2016-02-25 2017-09-27 주식회사 셀바스에이아이 음성 인식 성능을 향상시키기 위한 컴퓨터 프로그램 및 장치

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5641326B2 (ja) * 2010-12-21 2014-12-17 ソニー株式会社 コンテンツ再生装置および方法、並びにプログラム
JP2014016423A (ja) * 2012-07-06 2014-01-30 Nippon Telegr & Teleph Corp <Ntt> 音楽検出通知装置、方法、及びプログラム
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
WO2020013946A1 (en) * 2018-07-13 2020-01-16 Google Llc End-to-end streaming keyword spotting

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000066691A (ja) * 1998-08-21 2000-03-03 Kdd Corp オーディオ情報分類装置
JP2004271736A (ja) * 2003-03-06 2004-09-30 Sony Corp 情報検出装置及び方法、並びにプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000066691A (ja) * 1998-08-21 2000-03-03 Kdd Corp オーディオ情報分類装置
JP2004271736A (ja) * 2003-03-06 2004-09-30 Sony Corp 情報検出装置及び方法、並びにプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101780932B1 (ko) * 2016-02-25 2017-09-27 주식회사 셀바스에이아이 음성 인식 성능을 향상시키기 위한 컴퓨터 프로그램 및 장치

Also Published As

Publication number Publication date
JP2009008836A (ja) 2009-01-15

Similar Documents

Publication Publication Date Title
JP4572218B2 (ja) 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体
Ittichaichareon et al. Speech recognition using MFCC
US8036884B2 (en) Identification of the presence of speech in digital audio data
KR101269296B1 (ko) 모노포닉 오디오 신호로부터 오디오 소스를 분리하는 뉴럴네트워크 분류기
KR101101384B1 (ko) 파라미터화된 시간 특징 분석
Singh et al. Multimedia analysis for disguised voice and classification efficiency
Singh et al. Vector quantization approach for speaker recognition using MFCC and inverted MFCC
Das et al. Exploring different attributes of source information for speaker verification with limited test data
CN102486920A (zh) 音频事件检测方法和装置
Zewoudie et al. The use of long-term features for GMM-and i-vector-based speaker diarization systems
Dubuisson et al. On the use of the correlation between acoustic descriptors for the normal/pathological voices discrimination
Rahmeni et al. Voice spoofing detection based on acoustic and glottal flow features using conventional machine learning techniques
Azarloo et al. Automatic musical instrument recognition using K-NN and MLP neural networks
Rahman et al. Dynamic time warping assisted svm classifier for bangla speech recognition
US20140200889A1 (en) System and Method for Speech Recognition Using Pitch-Synchronous Spectral Parameters
Yarra et al. A mode-shape classification technique for robust speech rate estimation and syllable nuclei detection
Singh et al. Combining evidences from Hilbert envelope and residual phase for detecting replay attacks
Francis et al. A scale invariant technique for detection of voice disorders using Modified Mellin Transform
JP6599408B2 (ja) 音響信号処理装置、方法及びプログラム
Lipeika Optimization of formant feature based speech recognition
Laleye et al. Automatic boundary detection based on entropy measures for text-independent syllable segmentation
JPH01255000A (ja) 音声認識システムに使用されるテンプレートに雑音を選択的に付加するための装置及び方法
JP2019028301A (ja) 音響信号処理装置、方法及びプログラム
JP2019029861A (ja) 音響信号処理装置、方法及びプログラム
KR101073934B1 (ko) 음성/음악 판별장치 및 방법

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100112

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100311

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100803

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100816

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130820

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4572218

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130820

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350