JP2008310138A - シーン分類装置 - Google Patents

シーン分類装置 Download PDF

Info

Publication number
JP2008310138A
JP2008310138A JP2007158862A JP2007158862A JP2008310138A JP 2008310138 A JP2008310138 A JP 2008310138A JP 2007158862 A JP2007158862 A JP 2007158862A JP 2007158862 A JP2007158862 A JP 2007158862A JP 2008310138 A JP2008310138 A JP 2008310138A
Authority
JP
Japan
Prior art keywords
peak
frequency
time
continuous
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007158862A
Other languages
English (en)
Other versions
JP4985134B2 (ja
Inventor
Chikashi Sugiura
千加志 杉浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2007158862A priority Critical patent/JP4985134B2/ja
Publication of JP2008310138A publication Critical patent/JP2008310138A/ja
Application granted granted Critical
Publication of JP4985134B2 publication Critical patent/JP4985134B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Auxiliary Devices For Music (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】区間検出の精度を向上させたシーン分類装置を提供すること。
【解決手段】スペクトログラムにおける時間ピークを検出する時間ピーク検出部5と、時間ピークに示される特徴量を抽出する周波数方向特徴量抽出部6とを備え、時間ピークに関わる特徴量をも、区間検出の指標として用いる。さらに、相互特徴量抽出部7を備え、周波数ピークと時間ピークとの相互作用により定義される新たな特徴量をも、指標として用いてシーンを分類する。
【選択図】 図1

Description

この発明は、主に音楽シーンを伴うマルチメディアコンテンツのシーン(場面)を、音響信号に基づいて分類する技術に関する。
録画した放送番組を視聴するにあたり、短時間で見たいシーンだけを見るという形態が求められている。例えば音楽番組の見どころシーンとしてアーティストが歌唱しているシーンを検出し、そのシーンだけを視聴するといった形態である。このような機能を実現するためにマルチメディアコンテンツの場面を分類する技術が提供されている。
特許文献1には、2チャンネル音響信号の[Lchパワー+Rchパワー]に対する[Lchパワー−Rchパワー]の比をステレオ感を表す特徴量とし、この特徴量が大きいシーンを音楽区間として検出する技術が開示される。この技術によれば音楽区間を検出するための演算量を比較的少なくできる。
非特許文献1の技術では、隣り合う分析フレーム間のスペクトルピークどうしをその周波数値と対数パワー値の2次元空間上での正規化距離とが近ければ接続するという方法で、スペクトルピークの連続性を見出す。この連続するスペクトルピークをSinusoidal Segmentとして定義し、これに付随する特徴量を、予め統計的に学習した辞書を用いて分類することで音声区間や音楽区間を検出するようにしている。
特開2006−301134号広報 「Sinusoidal Segment の時間的特徴を用いた音声・楽器音・歌声が混在した音響信号中の音カテゴリ検出」 (早大)谷口徹 ほか 日本音響学会 2005年9月
特許文献1の技術では、複数チャネルで収録された音響シーンがステレオ成分を有する場合には、笑い声や拍手などの音楽区間に属さないシーンでも音楽区間として検出されるという課題がある。また、ボーカルメインの曲(アカペラやラップ調など)に対しては音楽区間のステレオ成分が小さく、区間検出の精度が低下してしまう。
また非特許文献1では、Sinusoidal Segmentが時間方向に連続するスペクトルピーク系列であるという性質のため、ラップ調、あるいはテンポが早い曲のようにスペクトルピークの時間方向の持続性が顕著ではない音楽に対しては区間検出の精度が低下することが考えられる。これにより音楽検出エラーが生じてしまうという課題がある。
この発明は上記事情によりなされたもので、その目的は、区間検出の精度を向上させたシーン分類装置を提供することにある。
上記目的を達成するためにこの発明の一態様によれば、音響信号を含むマルチメディアコンテンツを時間的に連続する複数の区間に分割して前記区間ごとに前記音響信号のスペクトルを算出するスペクトル算出部と、前記スペクトルにおける周波数方向の極大点である周波数ピークを検出する周波数ピーク検出部と、前記周波数ピークの特徴を示す第1特徴量を抽出する時間方向特徴量抽出部と、前記スペクトルを時間的に連続して配列したスペクトログラムにおける時間方向の極大点である時間ピークを検出する時間ピーク検出部と、前記時間ピークの特徴を示す第2特徴量を抽出する周波数方向特徴量抽出部と、前記第1特徴量および前記第2特徴量により示される前記区間の音響的な特徴に基づいて、前記複数の区間を第1の音楽区間と第2の音楽区間とに分類する音響分類部とを具備することを特徴とするシーン分類装置が提供される。
このような手段を講じることにより、区間を分類するにあたり周波数ピークだけでなく、スペクトログラムに示される特徴量、すなわち時間ピークをも利用することが可能になる。時間ピークを用いることにより、周波数ピークによっては捉えきれない音響的特徴を定量的に評価することが可能になる。従って区間検出の精度をさらに高めることが可能になる。
この発明によれば、区間検出の精度を向上させたシーン分類装置を提供することができる。
以下、図面を参照してこの発明の実施の形態につき説明する。ここではマルチメディアコンテンツに含まれる各シーンを音響信号に基づいて分類し、音楽シーンを検出する装置につき説明する。
マルチメディアコンテンツは映像信号と音響信号との双方を含むものと、音響信号からなるものとに大別される。前者の例には、テレビジョン放映されるストリームやこれを録画したもの、またはホームビデオなどの動画録画装置によって録画されたものなどがある。後者の例は、ラジオ放映されるストリームやこれを録音したもの、またはICレコーダなどの録音装置によって録音されたものなどである。
図1は本発明に係わるシーン分類装置の実施の形態を示す機能ブロック図である。図1において、マルチメディアコンテンツはコンテンツ入力部1に入力され、音響信号が抽出される。
すなわちコンテンツ入力部1は、少なくとも音響信号を伴うマルチメディアコンテンツを装置に入力するためのインタフェースである。例えば、メディアの媒体がDVD(Digital Versatile Disk)であればDVD読み取り装置を有し、メディアがHDなどに記録されているものであればデータ伝送用のバスを有する。要するにコンテンツ入力部1は、入力されるマルチメディアコンテンツの形態に応じた適切な構成を成す。
コンテンツ入力部1は、様々な形態で提供されるコンテンツから音響信号を抽出する。特に音響信号がアナログであればディジタル変換して、ディジタルデータを出力する。その際、コンテンツ形態によらずサンプリング周波数を一定にしておくと後段の処理において音響信号のフォーマットなどを意識せずに済むので都合が良い。コンテンツ入力部1により抽出された音響信号はスペクトル算出部2に与えられる。
スペクトル算出部2は、音響信号を或る任意の時間長のフレームごとに区切り、各フレーム(区間またはセグメント)ごとにスペクトルを算出する。すなわちスペクトル算出部2は、入力された音響信号からFFT(高速フーリエ変換)、あるいはLPC分析などの手法によりスペクトルを算出する。これにより音響信号の周波数情報を解析することが可能となる。なお、聴覚的にそれほど敏感ではない4kHz程度以上の高域情報をカットすると後段における処理負荷を軽減できる。逆に、聴覚的な特性を考慮するならば、線形スペクトルをメルスケールスペクトルに変換しても良い。特に音楽区間を検出するには、音階に対応するCent対数周波数スケールに変換すると良い。スペクトル算出部2により算出されたスペクトルは、周波数ピーク検出部3と、時間ピーク検出部5とに与えられる。
周波数ピーク検出部3は算出されたスペクトルの周波数方向でのピークを各区間(セグメント)ごとに検出する。すなわち周波数ピーク検出部3は、音響信号の或る時間における周波数方向のピークを周波数ピークとして検出する。周波数ピークとは音響パワー対周波数のグラフにプロットされたスペクトルに現れる、周波数方向の極大点を意味する。
なお前処理として、移動平均フィルタやメディアンフィルタなどの平滑化フィルタによってスペクトルの微細成分を除去しても良い。スペクトルの微細成分を除去することで局所的な周波数ピークではなく、大域的な周波数ピークを検出できるようになる。このようにすることで、より人間の聴覚特性を考慮した特徴量の抽出が可能となる。
周波数ピーク検出部3における検出データは時間方向特徴量抽出部4に与えられる。時間方向特徴量抽出部4は、主として時間方向に連続する複数の周波数ピークを連結する。そして、この時間連続ピーク列の数、長さ、連続性、方向、各ピーク値統計量、各周波数値統計量、などの平均や分散などの統計量を特徴量として抽出する。この特徴量を時間連続特徴量と称する。
すなわち時間方向特徴量抽出部4は、サンプリング時点ごとの周波数ピークの数をカウントし、その平均や分散などの統計量をまず抽出する。次に、周波数ピークが主に時間方向に連続していれば、これらを連結し、この時間連続ピーク列の個数、ならびに時間連続ピーク列の時間長、連続性、方向、ピーク値統計量、周波数値統計量、などの平均や分散などの統計量を、時間連続特徴量として抽出する。時間連続特徴量は音響分類部8に与えられ、マルチメディアコンテンツから音声区間や音楽区間などを検出するために用いられる。検出されたシーンは出力部9から出力される。
時間連続ピーク列の個数とは、区間(セグメント)における時間連続ピーク列の数である。時間連続ピーク列の時間長とは、時間連続ピーク列の時間方向の長さである。連続性とは時間連続ピーク列中に欠落の無い度合いを示す。方向とは時間連続ピーク列が時間方向にどの程度傾いているかを示す量である。各ピーク値統計量とは時間連続ピーク列中の各周波数ピークのパワーの平均や分散などを示し、各周波数値統計量とは時間連続ピーク列中の各周波数ピークの周波数値の平均や分散などを示す。
周波数ピークの時間連続性に関する特徴量抽出は、聴覚的な刺激が時間方向に持続するような音響パタンの検出においては有効であると考えられる。例えばギターやシンセサイザーなどによる音響は周波数ピーク構造を顕著に有するので連続性が高く、ピーク値平均は大きくなる。また、バラードのようにテンポが遅い曲では時間長は長くなり、ビブラート(周波数の高低の揺れ)がある場合には、周波数値分散は大きくなる。さらに、「あー」や「うわー」などのように母音を長く伸ばして発声するような音声では、方向が傾き、周波数値分散は大きくなる。逆に、拍手や背景音などように周波数的には濃淡の少ない定常ノイズのような音響信号の場合には、周波数ピーク値の数は小さくなる。このように時間連続特徴量は、音楽や音声などといった音響信号の特徴を捉えるためには威力を発揮するが、打楽器のアクセントや破裂音などの音響信号を捉えるのには向いていない。しかも時間連続特徴量は、周波数ピークが時間方向に連続するという前提に立つものであるので、音楽ジャンルによっては特徴を抽出することが非常に困難なケースがある。
ところで図1のシーン分類装置は、時間ピーク検出部5と、周波数方向特徴量抽出部6と、相互特徴量抽出部7とを備える。このうち時間ピーク検出部5は、スペクトル算出部2において算出されたスペクトルを時間的に連続させて配列し、スペクトログラムを生成する。そして、このスペクトログラムの或る周波数における時間方向でのピークを検出する。すなわち、時間ピーク検出部5は、或る周波数における時間方向のピークを時間ピークとして検出する。時間ピークとは、音響パワー対時間のグラフにプロットされたスペクトログラムに現れる、時間方向の極大点を意味する。
なお前処理として、移動平均フィルタやメディアンフィルタなどの平滑化フィルタによって時間方向パワー列の微細成分を除去しても良い。時間方向パワー列の微細成分を除去することで、局所的な時間ピークではなく、大域的な時間ピークを検出できるようになる。このようにすることで、より人間の聴覚特性を考慮した特徴量の抽出が可能となる。時間ピーク検出部5における検出データは周波数方向特徴量抽出部6に与えられる。
周波数方向特徴量抽出部6はスペクトログラムの、主として周波数方向に連続するピークを連結する。そして、この周波数連続ピーク列の数、長さ、連続性、方向、各ピーク値統計量、各時間値統計量、などの平均や分散などの統計量を特徴量として抽出する。この特徴量を、周波数連続特徴量と称する。
すなわち周波数方向特徴量抽出部6は、周波数ごとの時間ピークの数をカウントし、この平均や分散などの統計量をまず抽出する。次に、時間ピークが主に周波数方向に連続していればこれらを連結し、この周波数連続ピーク列の個数、ならびに周波数連続ピーク列の帯域長、連続性、方向、ピーク値統計量、時間値統計量、などの平均や分散などの統計量を、周波数連続特徴量として抽出する。
周波数連続ピーク列の個数とは、区間(セグメント)における周波数連続ピーク列の数を示す。周波数連続ピーク列の帯域長とは、周波数連続ピーク列の周波数方向の長さ、つまり帯域の長さを示す。連続性とは周波数連続ピーク列中に欠落の無い度合いを示す。方向とは周波数連続ピーク列が周波数方向にどの程度傾いているかを示す量である。各ピーク値統計量とは周波数連続ピーク列中の各時間ピークのパワーの平均や分散などを示し、各時間値統計量とは周波数連続ピーク列中の各時間ピークの時間値の平均や分散などを示す。
時間ピークの周波数連続性に関する特徴量抽出は、物理的にはパワーの上昇、つまり急峻な音量の増大ならびに音量の変化を捉えるために有効である。例えばラップ調などのように弾けるような歌唱や演奏の場合には、周波数連続ピーク列の数が増大し、またドラムなどの打楽器が演奏されている場合には、帯域長が長くなる。さらに、子音/s/の発声などのように広い周波数帯域において一次的にパワーが増大するような音響信号の場合、帯域長が極めて長くなり、連続性が高くなる。このように、周波数方向特徴量抽出部6で抽出される周波数連続特徴量は、時間連続特徴量では捉え切れなかった音楽や音声などの特徴を捉えるための特徴量として有効である。この周波数連続特徴量は時間連続特徴量(時間方向特徴量抽出部4から)とともに、相互特徴量検出部7と音響分類部8とに与えられる。
相互特徴量検出部7は、時間連続特徴量と周波数連続特徴量との相互の影響の度合いにより定義される相互特徴量を抽出する。すなわち相互特徴量抽出部7は、時間方向に連続する時間連続特徴量と、周波数方向に連続する周波数連続特徴量とから、これらが相互に影響を及ぼす度合いを示す相互特徴量を抽出する。つまり相互特徴量は、時間連続特徴量と周波数連続特徴量との両者が存在しなければ成立しない量である。この相互特徴量は時間連続特徴量と周波数連続特徴量とともに音響分類部8に与えられる。
音響分類部8は、時間連続特徴量と、周波数連続特徴量と、相互特徴量とのうち少なくとも1つを用いて、各フレームを分類する。すなわち音響分類部8は、時間連続特徴量と、周波数連続特徴量と、相互特徴量とから各区間(セグメント)を音声区間または音楽区間、およびそれ以外に分類する。
フレームを分類する簡単な方法に、各特徴量Xに対して分類パタンごとに設けられた重みWを付して次式(1),(2)を用いて線形和を算出し、その値Pが分類パタンごとの閾値を上回れば、対象のフレームが規定の分類パタンに属するとする手法がある。
Figure 2008310138
例えばテンポの遅い音楽であれば時間連続ピーク列の長さが長くなるので、分類パタン:“テンポの遅い曲”における“時間連続ピーク列の長さ”の重みを大きくするというように、重みを設定することができる。
このほか、ニューラルネットなどを用いて予め用意した学習用データを用いて重みを最適化しても良いし、GMM(ガウス混合モデル)、VQ(ベクトル量子化)、SVM(サポートベクターマシン)などの統計的なモデルを用いてフレームを分類しても良い。統計的な分類モデルを用いることで、特徴量単独では分類に寄与しないか、または分類パタンごとにどのような関連があるかが明確ではない特徴量を、無駄にせず有効に活用することが可能となる。
さらに音響分類部8において、フレームの分類にとどまらず、シーンを判定しても良い。例えば音楽区間に分類される区間(セグメント)が頻繁に出現する区間では、その区間を音楽シーンとしてインデキシングするようにする。
このようにすれば、ユーザはマルチメディアコンテンツの区切られた部分を意味を持つシーンとして認識できるようになるので、マルチメディアコンテンツを短時間視聴したり、編集が容易になったりするなどのメリットを得られる。以上のようにして分類された結果は出力部9に与えられ、ユーザからの要求に基づく適切な形態で出力される。
出力部9は音響分類部8からの出力を適切な形態で出力する。例えば、音響分類部8から出力される区間(セグメント)単位の分類の結果をそのままディスプレイなどの映像出力装置に出力しても良いし、テキストデータとして出力しても良いし、電子データとして特定者に送信しても良いし、記述言語に変換して表示や送信しても良い。音響分類部8の出力がインデキシングされた情報であれば、その結果を時刻情報とインデキシングした要約情報と共に上記の種々の方法で出力しても良い。さらに、例えば音楽シーンなどが指定されている場合にはこれに該当するシーンのみをAV(Audio Visual)出力して再生しても良い。このようにすることでユーザは、ユーザが見たいシーンのみを視聴したりすることができるようになる。
図2は、周波数ピーク検出部3および時間ピーク検出部5における作用を説明するための図である。図2(a)は、複数のフレームにわたるスペクトルを時間的に連続させて配列したスペクトログラムであり、これが一つの区間(セグメント)に対応する。ただしこれは説明を簡易にするためで、必ずしも周波数と時間との2次元データ構造に限るものではない。
図2(a)のグラフを周波数(水平の点線)で切り取れば、時間に対する対数パワーのグラフ(図2(b))を得る。このグラフの極大点(図中※)が時間ピークであり、時間ピーク検出部5により検出される量である。また図2(a)のグラフを時間(垂直の点線)で切り取れば、周波数に対する対数パワーのグラフ(図2(c))を得る。このグラフの極大点(図中×)が周波数ピークであり、周波数ピーク検出部3により検出される量である。
既存の技術では周波数ピークのみを利用していた。この実施形態では時間ピークも併せて用いるようにし、さらに、両者を組み合わせることで新たに定義可能な相互特徴量をも、区間(セグメント)の分類に用いるようにする。次に、相互特徴量につき説明する。
図3は、相互特徴量抽出部7における処理を説明するための図である。相互特徴量抽出部7は、時間連続特徴量と、周波数連続特徴量とから、これらが相互に影響を及ぼす相互特徴量を抽出する。相互特徴量は、図3に示されるように時間連続ピーク列(横線)と周波数連続ピーク列(縦線)とが交わる部分において定義されるもので、その数(図中の“○”と“□”の総数)、あるいは交わり方などといった量である。
図中の“□”で示す箇所のように、時間連続ピーク列の端に周波数連続ピーク列が位置するといった交わり方は、パワーの急峻な増大を伴う楽器と周波数ピーク構造を伴う楽器とが同じタイミングで鳴ったことを示す。これは、例えばドラムとギターとが同時に鳴った可能性が高いと判断できることを意味し、このような区間(セグメント)は音楽区間である可能性が非常に高い。このことを利用して音楽シーンを抽出することができる。
このように、相互特徴量抽出部7において時間連続特徴量と周波数連続特徴量とが相互に影響を及ぼす指標である相互特徴量を抽出することで、2種類の特徴量を単独に抽出するだけでは得られない情報をも抽出することができるようになる。
図4は、区間分類に基づいてシーンを判定することが可能であることを示す図である。図4に示すように、音楽区間と分類された区間(セグメント)が高い割合で時間的に連続する場合には、音響分類部8においてこれらの区間を音楽シーンとしてインデキシングすることができる。すなわち音響分類部8は、規定時間内に、規定数以上の数にわたり音楽区間を含むシーンをマルチメディアコンテンツにおける音楽シーンとして検出する。次に、図1のシーン分類装置のポイントを異なる観点から説明する。
図5は、時間方向特徴量抽出部4における処理を説明するための図である。周波数ピークの特徴量には、周波数ピークの数、この周波数ピークのパワー値、この周波数ピークの周波数値、時間連続ピーク列の数、この時間連続ピーク列の長さ、この時間連続ピーク列の連続性、この時間連続ピーク列の方向、各ピーク値の統計量、および、各周波数値の統計量の、平均または分散を含む統計量などがある。式(3),(4)を参照して以下に説明する。
Figure 2008310138
式(3),(4)におけるFPK(t,n)=(FPKf(t,n), FPKp(t,n))は、ある時間tのn番目のピークを示すベクトルであり、FPKf(t,n)はある時間tのn番目のピークの時間値、そしてFPKp(t,n)はある時間tのn番目のピークのパワー値を示している。また、NFPK(t,n)はFPK(t,n)を次元ごとに正規化したベクトルである。そして、正規化することにより周波数とパワーとの次元の違いを吸収することができる。
時間方向特徴量抽出部4は、周波数ピークを時間方向に連結するにあたり第1および第2のベクトルを算出する。第1のベクトルは、或る時間tにおけるi番目の周波数ピークであるNFPK(t,i)を終点とし、時間t−1におけるj番目の周波数ピークであるNFPK(t-1,j)を始点とするベクトルである。つまり第1のベクトルは、この終点と始点との間に張られる。第2のベクトルは、時間t+1におけるk番目の周波数ピークNFPK(t+1,k)を終点とし、上記のNFPK(t,i)を始点とするベクトルである。つまり第2のベクトルは、この終点と始点との間に張られる。
そして時間方向特徴量抽出部4は、第1のベクトルと第2のベクトルとの類似の度合いに応じて、両ベクトルを連結する。類似の度合いは、例えば第1のベクトルと第2のベクトルのなす角の小ささ、または、第1のベクトルと第2のベクトルとの内積の大きさにより表現することができる。時間方向特徴量抽出部4はこれらの量を閾値判定することで両ベクトルの類似度を判定する。
図5において、×印は時間ごとに検出された周波数ピークである。例えば、図5のP10とP11から得られたれるベクトルV11を第1のベクトルとし、P11とP12から得られたベクトルV12を第2のベクトルとすると、これら2つのベクトルのなす角は小さいので両者は連結される。逆に、P20とP21から得られたベクトルV21を第1のベクトルとし、P21とP22から得られたベクトルV22を第2のベクトルとすると、これらのベクトルのなす角は大きいので両者は連結されない。
図6は周波数ピークの連結処理において、既存の技術とこの実施形態の手法とを比較して示す図である。図6(a)は既存の技術を示し、隣り合う時間フレームにおいて最も近い周波数ピークを連結するという方法をとる。この方法では一見して分かるように不連続な連結が生じてしまい、結果的に時間方向特徴量抽出部4で抽出される時間連続特徴量の精度が低下する。
これに対し、この実施形態の時間方向特徴量抽出部4ではベクトルの概念を導入し、ピーク間の方向をも考慮してピークどうしを連結する。これにより図6(b)に示すように、不連続な、主観的に一致しない連結を避けることができ、時間連続特徴量の精度を向上させることが可能となる。このようにピーク間の連結において方向を考慮することで、連結すべきではないベクトルの連結を避けることができるようになる。なお第1のベクトルとして既に連結済みのベクトルを用いても良い。このようにすれば処理を簡略化することができる。
図7は、周波数方向特徴量抽出部6における処理を説明するための図である。時間ピークの特徴量には、時間ピークの数、この時間ピークのパワー値、この時間ピークの周波数値、周波数連続ピーク列の数、この周波数連続ピーク列の長さ、この周波数連続ピーク列の連続性、この周波数連続ピーク列の方向、各ピーク値の統計量、および、各時間値の統計量の少なくともいずれか1つの平均または分散を含む統計量がある。式(5),(6)を参照して以下に説明する。
Figure 2008310138
式(5),(6)におけるTPK(f,n)=(TPKt(f,n), TPKp(f,n))は、ある周波数fのn番目のピークを示すベクトルであり、TPKt(f,n)はある周波数fのn番目のピークの時間値、そして、TPKp(f,n)はある周波数fのn番目のピークのパワー値を示している。また、NTPK(f,n)はTPK(f,n)を次元ごとに正規化したベクトルである。そして、正規化により時間とパワーとの次元の違いを吸収することができる。
周波数方向特徴量抽出部6は、時間ピークを周波数方向に連結するにあたり第3および第4のベクトルを算出する。第3のベクトルは、或る周波数fにおけるi番目の時間ピークであるNTPK(f,i)を終点とし、周波数f−1におけるj番目の時間ピークであるNTPK(f-1,j)を始点とするベクトルである。つまり第3のベクトルは、この終点と始点との間に張られる。第4のベクトルは、周波数f+1におけるk番目の時間ピークNTPK(f+1,k)を終点とし、上記のNTPK(f,i)を始点とするベクトルである。つまり第4のベクトルは、この終点と始点との間に張られる。
そして周波数方向特徴量抽出部6は、第3のベクトルと第4のベクトルとの類似の度合いに応じて、両ベクトルを連結する。類似の度合いは、例えば第3のベクトルと第4のベクトルのなす角の小ささ、または、第3のベクトルと第4のベクトルとの内積の大きさにより表現することができる。周波数方向特徴量抽出部6はこれらの量を閾値判定することで両ベクトルの類似度を判定する。
図7において、※印は周波数ごとに検出された時間ピークである。例えば、図7のP30とP31とでなされるベクトルV31を第3のベクトルとし、P31とP32とでなされるベクトルV32を第4のベクトルとすると、これら2つのベクトルのなす角は小さいので両者は連結される。逆に、P40とP41とでなされるベクトルV41を第3のベクトルとし、P41とP42とでなされるベクトルV42を第4のベクトルとすると、これら2つのベクトルのなす角は大きいので両者は連結されない。
このように時間ピークの連結においても方向を考慮することで、時間方向特徴量抽出部4と同様に、連結すべきではないベクトルの連結を避けることができるようになり、その結果、抽出される周波数連続特徴量の精度を向上させることが可能となる。第3のベクトルについても既に連結済みのベクトルを用いても良く、こうすれば処理を簡略化することができる。
以上説明したようにこの実施形態では、スペクトログラムにおける時間ピークを検出する時間ピーク検出部5と、時間ピークに示される特徴量を抽出する周波数方向特徴量抽出部6とを備え、時間ピークに関わる特徴量をも、区間検出の指標として用いるようにしている。さらに、相互特徴量抽出部7を備え、周波数ピークと時間ピークとの相互作用により定義される新たな特徴量をも、指標として用いてシーンを分類するようにしている。
すなわちこの実施形態では、スペクトログラムにおいて周辺のスペクトログラムよりもパワーの大きい特徴的な状態が時間方向に連続することを示す特徴量(周波数ピーク)だけでなく、上記の状態が周波数方向に連続することを示す特徴量(時間ピーク)をも抽出し、両者をシーン分類に用いるようにしている。これにより、既存の技術では困難であったラップ調やテンポが早い曲などのように、スペクトルピークなどの時間連続性が現れにくい音楽ジャンルをも、高い精度で検出できるようになる。また、音楽に限らず、音声などの任意の音響区間を検出することもできるし、さらには検出区間の音楽の種類や音声の性別判定など、各種分類における精度の向上をも期待することができる。
これらのことから、区間検出の精度を向上させたシーン分類装置を提供することが可能となる。またこのことを利用して、マルチメディアコンテンツ再生機を含む機器への応用により、音楽シーンやトークシーン、さらには音楽の種類や話している人の性別など、さまざまなシーンの分類を高い精度で実現することができるようになる。これによりユーザは、視聴したいシーンだけを短時間視聴したり、編集したいシーンを素早く簡便な操作で見つけ出すことができたりすることが可能になる。
なお、この発明は上記実施の形態に限定されるものではない。すなわちこの発明はDVDレコーダなどのように据え置き型の機器に限ることなく、いわゆるワンセグと称する、移動通信端末を用いる画像視聴機器にも適用することができる。またこの発明によれば特徴量の抽出の精度を向上させることができるので、様々な分類モデルを用いることにより、音楽だけに限らず機械的騒音、男性の声、女性の声、動物の声などといった種々のシーン分類に応用することができる。
さらに、この発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。
本発明に係わるシーン分類装置の実施の形態を示す機能ブロック図。 周波数ピーク検出部3および時間ピーク検出部5における作用を説明するための図。 相互特徴量抽出部7における処理を説明するための図。 区間分類に基づいてシーンを判定可能であることを示す図。 時間方向特徴量抽出部4における処理を説明するための図。 周波数ピークの連結処理において、既存の技術とこの実施形態の手法とを比較して示す図。 周波数方向特徴量抽出部6における処理を説明するための図。
符号の説明
1…コンテンツ入力部、2…スペクトル算出部、3…周波数ピーク検出部、4…時間方向特徴量抽出部、5…時間ピーク検出部、6…周波数方向特徴量抽出部、7…相互特徴量抽出部、8…音響分類部、9…出力部

Claims (9)

  1. 音響信号を含むマルチメディアコンテンツを時間的に連続する複数の区間に分割して前記区間ごとに前記音響信号のスペクトルを算出するスペクトル算出部と、
    前記スペクトルにおける周波数方向の極大点である周波数ピークを検出する周波数ピーク検出部と、
    前記周波数ピークの特徴を示す第1特徴量を抽出する時間方向特徴量抽出部と、
    前記スペクトルを時間的に連続して配列したスペクトログラムにおける時間方向の極大点である時間ピークを検出する時間ピーク検出部と、
    前記時間ピークの特徴を示す第2特徴量を抽出する周波数方向特徴量抽出部と、
    前記第1特徴量および前記第2特徴量により示される前記区間の音響的な特徴に基づいて、前記複数の区間を第1の音楽区間と第2の音楽区間とに分類する音響分類部とを具備することを特徴とするシーン分類装置。
  2. 前記音響分類部は、規定時間内に規定数以上の数にわたり前記第1の音楽区間を含むシーンを前記マルチメディアコンテンツにおける音楽シーンとして検出することを特徴とする請求項1に記載のシーン分類装置。
  3. 前記時間方向特徴量抽出部は、前記周波数ピークを時間方向に連結して得られる時間連続ピーク列の特徴を前記第1特徴量に含めて当該第1特徴量を抽出することを特徴とする請求項1に記載のシーン分類装置。
  4. 前記第1特徴量は、
    前記周波数ピークの数、この周波数ピークのパワー値、この周波数ピークの周波数値、前記時間連続ピーク列の数、この時間連続ピーク列の長さ、この時間連続ピーク列の連続性、この時間連続ピーク列の方向、各ピーク値の統計量、および、各周波数値の統計量の少なくともいずれか1つの平均または分散を含む統計量であることを特徴とする請求項3に記載のシーン分類装置。
  5. 前記時間方向特徴量抽出部は、
    時間方向に隣接する第1および第2周波数ピークの間に張られる第1ベクトルと、前記第1周波数ピークとこの第1周波数ピークに時間方向に隣接する第3周波数ピークとの間に張られる第2ベクトルとの類似度が規定の閾値以上であれば、前記第1および第2周波数ピークを連結することを特徴とする請求項3に記載のシーン分類装置。
  6. 前記周波数方向特徴量抽出部は、前記時間ピークを周波数方向に連結して得られる周波数連続ピーク列の特徴を前記第2特徴量に含めて当該第2特徴量を抽出することを特徴とする請求項1に記載のシーン分類装置。
  7. 前記第2特徴量は、
    前記時間ピークの数、この時間ピークのパワー値、この時間ピークの周波数値、前記周波数連続ピーク列の数、この周波数連続ピーク列の長さ、この周波数連続ピーク列の連続性、この周波数連続ピーク列の方向、各ピーク値の統計量、および、各時間値の統計量の少なくともいずれか1つの平均または分散を含む統計量であることを特徴とする請求項6に記載のシーン分類装置。
  8. 前記周波数方向特徴量抽出部は、
    周波数方向に隣接する第1および第2時間ピークの間に張られる第3ベクトルと、前記第1時間ピークとこの第1時間ピークに周波数方向に隣接する第3時間ピークとの間に張られる第4ベクトルとの類似度が規定の閾値以上であれば、前記第1および第2時間ピークを連結することを特徴とする請求項6に記載のシーン分類装置。
  9. さらに、前記第1特徴量と前記第2特徴量との相互作用の度合いを示す第3特徴量を抽出する第3特徴量抽出部を具備し、
    前記音響分類部は、
    前記第1特徴量、前記第2特徴量、および、前記第3特徴量により示される前記区間の音響的な特徴に基づいて前記複数の区間を第1の音楽区間と第2の音楽区間とに分類することを特徴とする請求項1に記載のシーン分類装置。
JP2007158862A 2007-06-15 2007-06-15 シーン分類装置 Expired - Fee Related JP4985134B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007158862A JP4985134B2 (ja) 2007-06-15 2007-06-15 シーン分類装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007158862A JP4985134B2 (ja) 2007-06-15 2007-06-15 シーン分類装置

Publications (2)

Publication Number Publication Date
JP2008310138A true JP2008310138A (ja) 2008-12-25
JP4985134B2 JP4985134B2 (ja) 2012-07-25

Family

ID=40237777

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007158862A Expired - Fee Related JP4985134B2 (ja) 2007-06-15 2007-06-15 シーン分類装置

Country Status (1)

Country Link
JP (1) JP4985134B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011095510A (ja) * 2009-10-29 2011-05-12 Jvc Kenwood Holdings Inc 音響信号分析装置、音響信号分析方法、及び音響信号分析プログラム
JP2013511045A (ja) * 2009-11-12 2013-03-28 ポール リード スミス ギターズ、リミテッド パートナーシップ デジタル信号処理のための方法、コンピュータ可読ストレージ媒体および信号処理システム
JP2015129868A (ja) * 2014-01-08 2015-07-16 Psソリューションズ株式会社 音響信号検出システム、音響信号検出方法、音響信号検出サーバー、音響信号検出装置、及び音響信号検出プログラム
US9390066B2 (en) 2009-11-12 2016-07-12 Digital Harmonic Llc Precision measurement of waveforms using deconvolution and windowing
US9600445B2 (en) 2009-11-12 2017-03-21 Digital Harmonic Llc Precision measurement of waveforms
JP2021021815A (ja) * 2019-07-26 2021-02-18 一般財団法人電力中央研究所 生物種の音声把握システム

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10307580A (ja) * 1997-05-06 1998-11-17 Nippon Telegr & Teleph Corp <Ntt> 音楽検索方法および装置
JP2000315094A (ja) * 1999-04-30 2000-11-14 Nippon Telegr & Teleph Corp <Ntt> 広帯域音響検出方法および装置およびこのプログラム記録媒体
JP2002116784A (ja) * 2000-10-06 2002-04-19 Sony Corp 情報信号処理装置、情報信号処理方法、情報信号記録再生装置及び情報信号記録媒体
JP2003058147A (ja) * 2001-08-10 2003-02-28 Sony Corp 音楽コンテンツ自動分類装置及び自動分類方法
JP2004125944A (ja) * 2002-09-30 2004-04-22 Sony Corp 情報識別装置及び方法、並びにプログラム及び記録媒体
JP2005257708A (ja) * 2004-03-09 2005-09-22 Advanced Telecommunication Research Institute International 音響信号の事象検出装置及び方法
JP2007018388A (ja) * 2005-07-08 2007-01-25 Univ Of Tokyo モーション作成装置およびモーション作成方法並びにこれらに用いるプログラム
JP2007052394A (ja) * 2005-07-19 2007-03-01 Kawai Musical Instr Mfg Co Ltd テンポ検出装置、コード名検出装置及びプログラム
JP2007072023A (ja) * 2005-09-06 2007-03-22 Hitachi Ltd 情報処理装置及び情報処理方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10307580A (ja) * 1997-05-06 1998-11-17 Nippon Telegr & Teleph Corp <Ntt> 音楽検索方法および装置
JP2000315094A (ja) * 1999-04-30 2000-11-14 Nippon Telegr & Teleph Corp <Ntt> 広帯域音響検出方法および装置およびこのプログラム記録媒体
JP2002116784A (ja) * 2000-10-06 2002-04-19 Sony Corp 情報信号処理装置、情報信号処理方法、情報信号記録再生装置及び情報信号記録媒体
JP2003058147A (ja) * 2001-08-10 2003-02-28 Sony Corp 音楽コンテンツ自動分類装置及び自動分類方法
JP2004125944A (ja) * 2002-09-30 2004-04-22 Sony Corp 情報識別装置及び方法、並びにプログラム及び記録媒体
JP2005257708A (ja) * 2004-03-09 2005-09-22 Advanced Telecommunication Research Institute International 音響信号の事象検出装置及び方法
JP2007018388A (ja) * 2005-07-08 2007-01-25 Univ Of Tokyo モーション作成装置およびモーション作成方法並びにこれらに用いるプログラム
JP2007052394A (ja) * 2005-07-19 2007-03-01 Kawai Musical Instr Mfg Co Ltd テンポ検出装置、コード名検出装置及びプログラム
JP2007072023A (ja) * 2005-09-06 2007-03-22 Hitachi Ltd 情報処理装置及び情報処理方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011095510A (ja) * 2009-10-29 2011-05-12 Jvc Kenwood Holdings Inc 音響信号分析装置、音響信号分析方法、及び音響信号分析プログラム
JP2013511045A (ja) * 2009-11-12 2013-03-28 ポール リード スミス ギターズ、リミテッド パートナーシップ デジタル信号処理のための方法、コンピュータ可読ストレージ媒体および信号処理システム
US9279839B2 (en) 2009-11-12 2016-03-08 Digital Harmonic Llc Domain identification and separation for precision measurement of waveforms
US9390066B2 (en) 2009-11-12 2016-07-12 Digital Harmonic Llc Precision measurement of waveforms using deconvolution and windowing
US9600445B2 (en) 2009-11-12 2017-03-21 Digital Harmonic Llc Precision measurement of waveforms
JP2015129868A (ja) * 2014-01-08 2015-07-16 Psソリューションズ株式会社 音響信号検出システム、音響信号検出方法、音響信号検出サーバー、音響信号検出装置、及び音響信号検出プログラム
JP2021021815A (ja) * 2019-07-26 2021-02-18 一般財団法人電力中央研究所 生物種の音声把握システム
JP7312046B2 (ja) 2019-07-26 2023-07-20 一般財団法人電力中央研究所 生物種の音声把握システム

Also Published As

Publication number Publication date
JP4985134B2 (ja) 2012-07-25

Similar Documents

Publication Publication Date Title
Eronen et al. Audio-based context recognition
Tzanetakis et al. Marsyas: A framework for audio analysis
US20120143363A1 (en) Audio event detection method and apparatus
JP4985134B2 (ja) シーン分類装置
KR20060021299A (ko) 매개변수화된 시간 특징 분석
US9892758B2 (en) Audio information processing
JP2005322401A (ja) メディア・セグメント・ライブラリを生成する方法、装置およびプログラム、および、カスタム・ストリーム生成方法およびカスタム・メディア・ストリーム発信システム
JP2005532582A (ja) 音響信号に音響クラスを割り当てる方法及び装置
WO2015114216A2 (en) Audio signal analysis
Sharma et al. On the Importance of Audio-Source Separation for Singer Identification in Polyphonic Music.
CN113691909B (zh) 具有音频处理推荐的数字音频工作站
WO2023040520A1 (zh) 视频配乐方法、装置、计算机设备和存储介质
JP2012108451A (ja) 音声処理装置および方法、並びにプログラム
Kim et al. Comparison of MPEG-7 audio spectrum projection features and MFCC applied to speaker recognition, sound classification and audio segmentation
JP2023527473A (ja) オーディオ再生方法、装置、コンピュータ可読記憶媒体及び電子機器
Venkatesh et al. Artificially synthesising data for audio classification and segmentation to improve speech and music detection in radio broadcast
JP2001147697A (ja) 音響データ分析方法及びその装置
KR20150061669A (ko) 음성/무음성 구간 검출 방법 및 장치
Valero et al. Narrow-band autocorrelation function features for the automatic recognition of acoustic environments
Patil et al. Combining evidences from mel cepstral features and cepstral mean subtracted features for singer identification
Jeyalakshmi et al. HMM and K-NN based automatic musical instrument recognition
CN111243618B (zh) 用于确定音频中的特定人声片段的方法、装置和电子设备
KR101382356B1 (ko) 오디오파일의 위변조 검출장치
Zhang et al. Deep scattering spectra with deep neural networks for acoustic scene classification tasks
Simou et al. Towards blind quality assessment of concert audio recordings using deep neural networks

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100607

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20101028

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111109

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120301

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120403

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120416

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150511

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150511

Year of fee payment: 3

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

LAPS Cancellation because of no payment of annual fees