JP2008310138A

JP2008310138A - シーン分類装置

Info

Publication number: JP2008310138A
Application number: JP2007158862A
Authority: JP
Inventors: Chikashi Sugiura; 千加志杉浦
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2007-06-15
Filing date: 2007-06-15
Publication date: 2008-12-25
Anticipated expiration: 2027-06-15
Also published as: JP4985134B2

Abstract

【課題】区間検出の精度を向上させたシーン分類装置を提供すること。
【解決手段】スペクトログラムにおける時間ピークを検出する時間ピーク検出部５と、時間ピークに示される特徴量を抽出する周波数方向特徴量抽出部６とを備え、時間ピークに関わる特徴量をも、区間検出の指標として用いる。さらに、相互特徴量抽出部７を備え、周波数ピークと時間ピークとの相互作用により定義される新たな特徴量をも、指標として用いてシーンを分類する。
【選択図】図１

Description

この発明は、主に音楽シーンを伴うマルチメディアコンテンツのシーン（場面）を、音響信号に基づいて分類する技術に関する。

録画した放送番組を視聴するにあたり、短時間で見たいシーンだけを見るという形態が求められている。例えば音楽番組の見どころシーンとしてアーティストが歌唱しているシーンを検出し、そのシーンだけを視聴するといった形態である。このような機能を実現するためにマルチメディアコンテンツの場面を分類する技術が提供されている。

特許文献１には、２チャンネル音響信号の［Ｌｃｈパワー＋Ｒｃｈパワー］に対する［Ｌｃｈパワー−Ｒｃｈパワー］の比をステレオ感を表す特徴量とし、この特徴量が大きいシーンを音楽区間として検出する技術が開示される。この技術によれば音楽区間を検出するための演算量を比較的少なくできる。

非特許文献１の技術では、隣り合う分析フレーム間のスペクトルピークどうしをその周波数値と対数パワー値の２次元空間上での正規化距離とが近ければ接続するという方法で、スペクトルピークの連続性を見出す。この連続するスペクトルピークをSinusoidal Segmentとして定義し、これに付随する特徴量を、予め統計的に学習した辞書を用いて分類することで音声区間や音楽区間を検出するようにしている。
特開２００６−３０１１３４号広報「Sinusoidal Segment の時間的特徴を用いた音声・楽器音・歌声が混在した音響信号中の音カテゴリ検出」（早大）谷口徹ほか日本音響学会２００５年９月

特許文献１の技術では、複数チャネルで収録された音響シーンがステレオ成分を有する場合には、笑い声や拍手などの音楽区間に属さないシーンでも音楽区間として検出されるという課題がある。また、ボーカルメインの曲（アカペラやラップ調など）に対しては音楽区間のステレオ成分が小さく、区間検出の精度が低下してしまう。

また非特許文献１では、Sinusoidal Segmentが時間方向に連続するスペクトルピーク系列であるという性質のため、ラップ調、あるいはテンポが早い曲のようにスペクトルピークの時間方向の持続性が顕著ではない音楽に対しては区間検出の精度が低下することが考えられる。これにより音楽検出エラーが生じてしまうという課題がある。
この発明は上記事情によりなされたもので、その目的は、区間検出の精度を向上させたシーン分類装置を提供することにある。

上記目的を達成するためにこの発明の一態様によれば、音響信号を含むマルチメディアコンテンツを時間的に連続する複数の区間に分割して前記区間ごとに前記音響信号のスペクトルを算出するスペクトル算出部と、前記スペクトルにおける周波数方向の極大点である周波数ピークを検出する周波数ピーク検出部と、前記周波数ピークの特徴を示す第１特徴量を抽出する時間方向特徴量抽出部と、前記スペクトルを時間的に連続して配列したスペクトログラムにおける時間方向の極大点である時間ピークを検出する時間ピーク検出部と、前記時間ピークの特徴を示す第２特徴量を抽出する周波数方向特徴量抽出部と、前記第１特徴量および前記第２特徴量により示される前記区間の音響的な特徴に基づいて、前記複数の区間を第１の音楽区間と第２の音楽区間とに分類する音響分類部とを具備することを特徴とするシーン分類装置が提供される。

このような手段を講じることにより、区間を分類するにあたり周波数ピークだけでなく、スペクトログラムに示される特徴量、すなわち時間ピークをも利用することが可能になる。時間ピークを用いることにより、周波数ピークによっては捉えきれない音響的特徴を定量的に評価することが可能になる。従って区間検出の精度をさらに高めることが可能になる。

この発明によれば、区間検出の精度を向上させたシーン分類装置を提供することができる。

以下、図面を参照してこの発明の実施の形態につき説明する。ここではマルチメディアコンテンツに含まれる各シーンを音響信号に基づいて分類し、音楽シーンを検出する装置につき説明する。
マルチメディアコンテンツは映像信号と音響信号との双方を含むものと、音響信号からなるものとに大別される。前者の例には、テレビジョン放映されるストリームやこれを録画したもの、またはホームビデオなどの動画録画装置によって録画されたものなどがある。後者の例は、ラジオ放映されるストリームやこれを録音したもの、またはＩＣレコーダなどの録音装置によって録音されたものなどである。

図１は本発明に係わるシーン分類装置の実施の形態を示す機能ブロック図である。図１において、マルチメディアコンテンツはコンテンツ入力部１に入力され、音響信号が抽出される。
すなわちコンテンツ入力部１は、少なくとも音響信号を伴うマルチメディアコンテンツを装置に入力するためのインタフェースである。例えば、メディアの媒体がＤＶＤ（Digital Versatile Disk）であればＤＶＤ読み取り装置を有し、メディアがＨＤなどに記録されているものであればデータ伝送用のバスを有する。要するにコンテンツ入力部１は、入力されるマルチメディアコンテンツの形態に応じた適切な構成を成す。

コンテンツ入力部１は、様々な形態で提供されるコンテンツから音響信号を抽出する。特に音響信号がアナログであればディジタル変換して、ディジタルデータを出力する。その際、コンテンツ形態によらずサンプリング周波数を一定にしておくと後段の処理において音響信号のフォーマットなどを意識せずに済むので都合が良い。コンテンツ入力部１により抽出された音響信号はスペクトル算出部２に与えられる。

スペクトル算出部２は、音響信号を或る任意の時間長のフレームごとに区切り、各フレーム（区間またはセグメント）ごとにスペクトルを算出する。すなわちスペクトル算出部２は、入力された音響信号からＦＦＴ（高速フーリエ変換）、あるいはＬＰＣ分析などの手法によりスペクトルを算出する。これにより音響信号の周波数情報を解析することが可能となる。なお、聴覚的にそれほど敏感ではない４ｋＨｚ程度以上の高域情報をカットすると後段における処理負荷を軽減できる。逆に、聴覚的な特性を考慮するならば、線形スペクトルをメルスケールスペクトルに変換しても良い。特に音楽区間を検出するには、音階に対応するCent対数周波数スケールに変換すると良い。スペクトル算出部２により算出されたスペクトルは、周波数ピーク検出部３と、時間ピーク検出部５とに与えられる。

周波数ピーク検出部３は算出されたスペクトルの周波数方向でのピークを各区間（セグメント）ごとに検出する。すなわち周波数ピーク検出部３は、音響信号の或る時間における周波数方向のピークを周波数ピークとして検出する。周波数ピークとは音響パワー対周波数のグラフにプロットされたスペクトルに現れる、周波数方向の極大点を意味する。

なお前処理として、移動平均フィルタやメディアンフィルタなどの平滑化フィルタによってスペクトルの微細成分を除去しても良い。スペクトルの微細成分を除去することで局所的な周波数ピークではなく、大域的な周波数ピークを検出できるようになる。このようにすることで、より人間の聴覚特性を考慮した特徴量の抽出が可能となる。

周波数ピーク検出部３における検出データは時間方向特徴量抽出部４に与えられる。時間方向特徴量抽出部４は、主として時間方向に連続する複数の周波数ピークを連結する。そして、この時間連続ピーク列の数、長さ、連続性、方向、各ピーク値統計量、各周波数値統計量、などの平均や分散などの統計量を特徴量として抽出する。この特徴量を時間連続特徴量と称する。

すなわち時間方向特徴量抽出部４は、サンプリング時点ごとの周波数ピークの数をカウントし、その平均や分散などの統計量をまず抽出する。次に、周波数ピークが主に時間方向に連続していれば、これらを連結し、この時間連続ピーク列の個数、ならびに時間連続ピーク列の時間長、連続性、方向、ピーク値統計量、周波数値統計量、などの平均や分散などの統計量を、時間連続特徴量として抽出する。時間連続特徴量は音響分類部８に与えられ、マルチメディアコンテンツから音声区間や音楽区間などを検出するために用いられる。検出されたシーンは出力部９から出力される。

時間連続ピーク列の個数とは、区間（セグメント）における時間連続ピーク列の数である。時間連続ピーク列の時間長とは、時間連続ピーク列の時間方向の長さである。連続性とは時間連続ピーク列中に欠落の無い度合いを示す。方向とは時間連続ピーク列が時間方向にどの程度傾いているかを示す量である。各ピーク値統計量とは時間連続ピーク列中の各周波数ピークのパワーの平均や分散などを示し、各周波数値統計量とは時間連続ピーク列中の各周波数ピークの周波数値の平均や分散などを示す。

周波数ピークの時間連続性に関する特徴量抽出は、聴覚的な刺激が時間方向に持続するような音響パタンの検出においては有効であると考えられる。例えばギターやシンセサイザーなどによる音響は周波数ピーク構造を顕著に有するので連続性が高く、ピーク値平均は大きくなる。また、バラードのようにテンポが遅い曲では時間長は長くなり、ビブラート（周波数の高低の揺れ）がある場合には、周波数値分散は大きくなる。さらに、「あー」や「うわー」などのように母音を長く伸ばして発声するような音声では、方向が傾き、周波数値分散は大きくなる。逆に、拍手や背景音などように周波数的には濃淡の少ない定常ノイズのような音響信号の場合には、周波数ピーク値の数は小さくなる。このように時間連続特徴量は、音楽や音声などといった音響信号の特徴を捉えるためには威力を発揮するが、打楽器のアクセントや破裂音などの音響信号を捉えるのには向いていない。しかも時間連続特徴量は、周波数ピークが時間方向に連続するという前提に立つものであるので、音楽ジャンルによっては特徴を抽出することが非常に困難なケースがある。

ところで図１のシーン分類装置は、時間ピーク検出部５と、周波数方向特徴量抽出部６と、相互特徴量抽出部７とを備える。このうち時間ピーク検出部５は、スペクトル算出部２において算出されたスペクトルを時間的に連続させて配列し、スペクトログラムを生成する。そして、このスペクトログラムの或る周波数における時間方向でのピークを検出する。すなわち、時間ピーク検出部５は、或る周波数における時間方向のピークを時間ピークとして検出する。時間ピークとは、音響パワー対時間のグラフにプロットされたスペクトログラムに現れる、時間方向の極大点を意味する。
なお前処理として、移動平均フィルタやメディアンフィルタなどの平滑化フィルタによって時間方向パワー列の微細成分を除去しても良い。時間方向パワー列の微細成分を除去することで、局所的な時間ピークではなく、大域的な時間ピークを検出できるようになる。このようにすることで、より人間の聴覚特性を考慮した特徴量の抽出が可能となる。時間ピーク検出部５における検出データは周波数方向特徴量抽出部６に与えられる。

周波数方向特徴量抽出部６はスペクトログラムの、主として周波数方向に連続するピークを連結する。そして、この周波数連続ピーク列の数、長さ、連続性、方向、各ピーク値統計量、各時間値統計量、などの平均や分散などの統計量を特徴量として抽出する。この特徴量を、周波数連続特徴量と称する。

すなわち周波数方向特徴量抽出部６は、周波数ごとの時間ピークの数をカウントし、この平均や分散などの統計量をまず抽出する。次に、時間ピークが主に周波数方向に連続していればこれらを連結し、この周波数連続ピーク列の個数、ならびに周波数連続ピーク列の帯域長、連続性、方向、ピーク値統計量、時間値統計量、などの平均や分散などの統計量を、周波数連続特徴量として抽出する。

周波数連続ピーク列の個数とは、区間（セグメント）における周波数連続ピーク列の数を示す。周波数連続ピーク列の帯域長とは、周波数連続ピーク列の周波数方向の長さ、つまり帯域の長さを示す。連続性とは周波数連続ピーク列中に欠落の無い度合いを示す。方向とは周波数連続ピーク列が周波数方向にどの程度傾いているかを示す量である。各ピーク値統計量とは周波数連続ピーク列中の各時間ピークのパワーの平均や分散などを示し、各時間値統計量とは周波数連続ピーク列中の各時間ピークの時間値の平均や分散などを示す。

時間ピークの周波数連続性に関する特徴量抽出は、物理的にはパワーの上昇、つまり急峻な音量の増大ならびに音量の変化を捉えるために有効である。例えばラップ調などのように弾けるような歌唱や演奏の場合には、周波数連続ピーク列の数が増大し、またドラムなどの打楽器が演奏されている場合には、帯域長が長くなる。さらに、子音/s/の発声などのように広い周波数帯域において一次的にパワーが増大するような音響信号の場合、帯域長が極めて長くなり、連続性が高くなる。このように、周波数方向特徴量抽出部６で抽出される周波数連続特徴量は、時間連続特徴量では捉え切れなかった音楽や音声などの特徴を捉えるための特徴量として有効である。この周波数連続特徴量は時間連続特徴量（時間方向特徴量抽出部４から）とともに、相互特徴量検出部７と音響分類部８とに与えられる。

相互特徴量検出部７は、時間連続特徴量と周波数連続特徴量との相互の影響の度合いにより定義される相互特徴量を抽出する。すなわち相互特徴量抽出部７は、時間方向に連続する時間連続特徴量と、周波数方向に連続する周波数連続特徴量とから、これらが相互に影響を及ぼす度合いを示す相互特徴量を抽出する。つまり相互特徴量は、時間連続特徴量と周波数連続特徴量との両者が存在しなければ成立しない量である。この相互特徴量は時間連続特徴量と周波数連続特徴量とともに音響分類部８に与えられる。

音響分類部８は、時間連続特徴量と、周波数連続特徴量と、相互特徴量とのうち少なくとも１つを用いて、各フレームを分類する。すなわち音響分類部８は、時間連続特徴量と、周波数連続特徴量と、相互特徴量とから各区間（セグメント）を音声区間または音楽区間、およびそれ以外に分類する。

フレームを分類する簡単な方法に、各特徴量Ｘに対して分類パタンごとに設けられた重みＷを付して次式（１），（２）を用いて線形和を算出し、その値Ｐが分類パタンごとの閾値を上回れば、対象のフレームが規定の分類パタンに属するとする手法がある。

例えばテンポの遅い音楽であれば時間連続ピーク列の長さが長くなるので、分類パタン：“テンポの遅い曲”における“時間連続ピーク列の長さ”の重みを大きくするというように、重みを設定することができる。

このほか、ニューラルネットなどを用いて予め用意した学習用データを用いて重みを最適化しても良いし、ＧＭＭ（ガウス混合モデル）、ＶＱ（ベクトル量子化）、ＳＶＭ（サポートベクターマシン）などの統計的なモデルを用いてフレームを分類しても良い。統計的な分類モデルを用いることで、特徴量単独では分類に寄与しないか、または分類パタンごとにどのような関連があるかが明確ではない特徴量を、無駄にせず有効に活用することが可能となる。

さらに音響分類部８において、フレームの分類にとどまらず、シーンを判定しても良い。例えば音楽区間に分類される区間（セグメント）が頻繁に出現する区間では、その区間を音楽シーンとしてインデキシングするようにする。

このようにすれば、ユーザはマルチメディアコンテンツの区切られた部分を意味を持つシーンとして認識できるようになるので、マルチメディアコンテンツを短時間視聴したり、編集が容易になったりするなどのメリットを得られる。以上のようにして分類された結果は出力部９に与えられ、ユーザからの要求に基づく適切な形態で出力される。

出力部９は音響分類部８からの出力を適切な形態で出力する。例えば、音響分類部８から出力される区間（セグメント）単位の分類の結果をそのままディスプレイなどの映像出力装置に出力しても良いし、テキストデータとして出力しても良いし、電子データとして特定者に送信しても良いし、記述言語に変換して表示や送信しても良い。音響分類部８の出力がインデキシングされた情報であれば、その結果を時刻情報とインデキシングした要約情報と共に上記の種々の方法で出力しても良い。さらに、例えば音楽シーンなどが指定されている場合にはこれに該当するシーンのみをＡＶ（Audio Visual）出力して再生しても良い。このようにすることでユーザは、ユーザが見たいシーンのみを視聴したりすることができるようになる。

図２は、周波数ピーク検出部３および時間ピーク検出部５における作用を説明するための図である。図２（ａ）は、複数のフレームにわたるスペクトルを時間的に連続させて配列したスペクトログラムであり、これが一つの区間（セグメント）に対応する。ただしこれは説明を簡易にするためで、必ずしも周波数と時間との２次元データ構造に限るものではない。

図２（ａ）のグラフを周波数（水平の点線）で切り取れば、時間に対する対数パワーのグラフ（図２（ｂ））を得る。このグラフの極大点（図中※）が時間ピークであり、時間ピーク検出部５により検出される量である。また図２（ａ）のグラフを時間（垂直の点線）で切り取れば、周波数に対する対数パワーのグラフ（図２（ｃ））を得る。このグラフの極大点（図中×）が周波数ピークであり、周波数ピーク検出部３により検出される量である。

既存の技術では周波数ピークのみを利用していた。この実施形態では時間ピークも併せて用いるようにし、さらに、両者を組み合わせることで新たに定義可能な相互特徴量をも、区間（セグメント）の分類に用いるようにする。次に、相互特徴量につき説明する。
図３は、相互特徴量抽出部７における処理を説明するための図である。相互特徴量抽出部７は、時間連続特徴量と、周波数連続特徴量とから、これらが相互に影響を及ぼす相互特徴量を抽出する。相互特徴量は、図３に示されるように時間連続ピーク列（横線）と周波数連続ピーク列（縦線）とが交わる部分において定義されるもので、その数（図中の“○”と“□”の総数）、あるいは交わり方などといった量である。

図中の“□”で示す箇所のように、時間連続ピーク列の端に周波数連続ピーク列が位置するといった交わり方は、パワーの急峻な増大を伴う楽器と周波数ピーク構造を伴う楽器とが同じタイミングで鳴ったことを示す。これは、例えばドラムとギターとが同時に鳴った可能性が高いと判断できることを意味し、このような区間（セグメント）は音楽区間である可能性が非常に高い。このことを利用して音楽シーンを抽出することができる。

このように、相互特徴量抽出部７において時間連続特徴量と周波数連続特徴量とが相互に影響を及ぼす指標である相互特徴量を抽出することで、２種類の特徴量を単独に抽出するだけでは得られない情報をも抽出することができるようになる。

図４は、区間分類に基づいてシーンを判定することが可能であることを示す図である。図４に示すように、音楽区間と分類された区間（セグメント）が高い割合で時間的に連続する場合には、音響分類部８においてこれらの区間を音楽シーンとしてインデキシングすることができる。すなわち音響分類部８は、規定時間内に、規定数以上の数にわたり音楽区間を含むシーンをマルチメディアコンテンツにおける音楽シーンとして検出する。次に、図１のシーン分類装置のポイントを異なる観点から説明する。

図５は、時間方向特徴量抽出部４における処理を説明するための図である。周波数ピークの特徴量には、周波数ピークの数、この周波数ピークのパワー値、この周波数ピークの周波数値、時間連続ピーク列の数、この時間連続ピーク列の長さ、この時間連続ピーク列の連続性、この時間連続ピーク列の方向、各ピーク値の統計量、および、各周波数値の統計量の、平均または分散を含む統計量などがある。式（３），（４）を参照して以下に説明する。

式（３），（４）におけるFPK（t,n）=（FPKf（t,n）, FPKp（t,n））は、ある時間ｔのｎ番目のピークを示すベクトルであり、FPKf（t,n）はある時間ｔのｎ番目のピークの時間値、そしてFPKp（t,n）はある時間ｔのｎ番目のピークのパワー値を示している。また、NFPK（t,n）はFPK（t,n）を次元ごとに正規化したベクトルである。そして、正規化することにより周波数とパワーとの次元の違いを吸収することができる。

時間方向特徴量抽出部４は、周波数ピークを時間方向に連結するにあたり第１および第２のベクトルを算出する。第１のベクトルは、或る時間ｔにおけるｉ番目の周波数ピークであるNFPK（t,i）を終点とし、時間ｔ−１におけるｊ番目の周波数ピークであるNFPK（t-1,j）を始点とするベクトルである。つまり第１のベクトルは、この終点と始点との間に張られる。第２のベクトルは、時間ｔ＋１におけるｋ番目の周波数ピークNFPK（t+1,k）を終点とし、上記のNFPK（t,i）を始点とするベクトルである。つまり第２のベクトルは、この終点と始点との間に張られる。

そして時間方向特徴量抽出部４は、第１のベクトルと第２のベクトルとの類似の度合いに応じて、両ベクトルを連結する。類似の度合いは、例えば第１のベクトルと第２のベクトルのなす角の小ささ、または、第１のベクトルと第２のベクトルとの内積の大きさにより表現することができる。時間方向特徴量抽出部４はこれらの量を閾値判定することで両ベクトルの類似度を判定する。

図５において、×印は時間ごとに検出された周波数ピークである。例えば、図５のＰ１０とＰ１１から得られたれるベクトルＶ１１を第１のベクトルとし、Ｐ１１とＰ１２から得られたベクトルＶ１２を第２のベクトルとすると、これら２つのベクトルのなす角は小さいので両者は連結される。逆に、Ｐ２０とＰ２１から得られたベクトルＶ２１を第１のベクトルとし、Ｐ２１とＰ２２から得られたベクトルＶ２２を第２のベクトルとすると、これらのベクトルのなす角は大きいので両者は連結されない。

図６は周波数ピークの連結処理において、既存の技術とこの実施形態の手法とを比較して示す図である。図６（ａ）は既存の技術を示し、隣り合う時間フレームにおいて最も近い周波数ピークを連結するという方法をとる。この方法では一見して分かるように不連続な連結が生じてしまい、結果的に時間方向特徴量抽出部４で抽出される時間連続特徴量の精度が低下する。

これに対し、この実施形態の時間方向特徴量抽出部４ではベクトルの概念を導入し、ピーク間の方向をも考慮してピークどうしを連結する。これにより図６（ｂ）に示すように、不連続な、主観的に一致しない連結を避けることができ、時間連続特徴量の精度を向上させることが可能となる。このようにピーク間の連結において方向を考慮することで、連結すべきではないベクトルの連結を避けることができるようになる。なお第１のベクトルとして既に連結済みのベクトルを用いても良い。このようにすれば処理を簡略化することができる。

図７は、周波数方向特徴量抽出部６における処理を説明するための図である。時間ピークの特徴量には、時間ピークの数、この時間ピークのパワー値、この時間ピークの周波数値、周波数連続ピーク列の数、この周波数連続ピーク列の長さ、この周波数連続ピーク列の連続性、この周波数連続ピーク列の方向、各ピーク値の統計量、および、各時間値の統計量の少なくともいずれか１つの平均または分散を含む統計量がある。式（５），（６）を参照して以下に説明する。

式（５），（６）におけるTPK（f,n）=（TPKt（f,n）, TPKp（f,n））は、ある周波数fのｎ番目のピークを示すベクトルであり、TPKt（f,n）はある周波数ｆのｎ番目のピークの時間値、そして、TPKp（f,n）はある周波数ｆのｎ番目のピークのパワー値を示している。また、NTPK（f,n）はTPK（f,n）を次元ごとに正規化したベクトルである。そして、正規化により時間とパワーとの次元の違いを吸収することができる。

周波数方向特徴量抽出部６は、時間ピークを周波数方向に連結するにあたり第３および第４のベクトルを算出する。第３のベクトルは、或る周波数ｆにおけるｉ番目の時間ピークであるNTPK（f,i）を終点とし、周波数ｆ−１におけるｊ番目の時間ピークであるNTPK（f-1,j）を始点とするベクトルである。つまり第３のベクトルは、この終点と始点との間に張られる。第４のベクトルは、周波数ｆ＋１におけるｋ番目の時間ピークNTPK（f+1,k）を終点とし、上記のNTPK（f,i）を始点とするベクトルである。つまり第４のベクトルは、この終点と始点との間に張られる。

そして周波数方向特徴量抽出部６は、第３のベクトルと第４のベクトルとの類似の度合いに応じて、両ベクトルを連結する。類似の度合いは、例えば第３のベクトルと第４のベクトルのなす角の小ささ、または、第３のベクトルと第４のベクトルとの内積の大きさにより表現することができる。周波数方向特徴量抽出部６はこれらの量を閾値判定することで両ベクトルの類似度を判定する。

図７において、※印は周波数ごとに検出された時間ピークである。例えば、図７のＰ３０とＰ３１とでなされるベクトルＶ３１を第３のベクトルとし、Ｐ３１とＰ３２とでなされるベクトルＶ３２を第４のベクトルとすると、これら２つのベクトルのなす角は小さいので両者は連結される。逆に、Ｐ４０とＰ４１とでなされるベクトルＶ４１を第３のベクトルとし、Ｐ４１とＰ４２とでなされるベクトルＶ４２を第４のベクトルとすると、これら２つのベクトルのなす角は大きいので両者は連結されない。

このように時間ピークの連結においても方向を考慮することで、時間方向特徴量抽出部４と同様に、連結すべきではないベクトルの連結を避けることができるようになり、その結果、抽出される周波数連続特徴量の精度を向上させることが可能となる。第３のベクトルについても既に連結済みのベクトルを用いても良く、こうすれば処理を簡略化することができる。

以上説明したようにこの実施形態では、スペクトログラムにおける時間ピークを検出する時間ピーク検出部５と、時間ピークに示される特徴量を抽出する周波数方向特徴量抽出部６とを備え、時間ピークに関わる特徴量をも、区間検出の指標として用いるようにしている。さらに、相互特徴量抽出部７を備え、周波数ピークと時間ピークとの相互作用により定義される新たな特徴量をも、指標として用いてシーンを分類するようにしている。

すなわちこの実施形態では、スペクトログラムにおいて周辺のスペクトログラムよりもパワーの大きい特徴的な状態が時間方向に連続することを示す特徴量（周波数ピーク）だけでなく、上記の状態が周波数方向に連続することを示す特徴量（時間ピーク）をも抽出し、両者をシーン分類に用いるようにしている。これにより、既存の技術では困難であったラップ調やテンポが早い曲などのように、スペクトルピークなどの時間連続性が現れにくい音楽ジャンルをも、高い精度で検出できるようになる。また、音楽に限らず、音声などの任意の音響区間を検出することもできるし、さらには検出区間の音楽の種類や音声の性別判定など、各種分類における精度の向上をも期待することができる。

これらのことから、区間検出の精度を向上させたシーン分類装置を提供することが可能となる。またこのことを利用して、マルチメディアコンテンツ再生機を含む機器への応用により、音楽シーンやトークシーン、さらには音楽の種類や話している人の性別など、さまざまなシーンの分類を高い精度で実現することができるようになる。これによりユーザは、視聴したいシーンだけを短時間視聴したり、編集したいシーンを素早く簡便な操作で見つけ出すことができたりすることが可能になる。

なお、この発明は上記実施の形態に限定されるものではない。すなわちこの発明はＤＶＤレコーダなどのように据え置き型の機器に限ることなく、いわゆるワンセグと称する、移動通信端末を用いる画像視聴機器にも適用することができる。またこの発明によれば特徴量の抽出の精度を向上させることができるので、様々な分類モデルを用いることにより、音楽だけに限らず機械的騒音、男性の声、女性の声、動物の声などといった種々のシーン分類に応用することができる。

さらに、この発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。

本発明に係わるシーン分類装置の実施の形態を示す機能ブロック図。周波数ピーク検出部３および時間ピーク検出部５における作用を説明するための図。相互特徴量抽出部７における処理を説明するための図。区間分類に基づいてシーンを判定可能であることを示す図。時間方向特徴量抽出部４における処理を説明するための図。周波数ピークの連結処理において、既存の技術とこの実施形態の手法とを比較して示す図。周波数方向特徴量抽出部６における処理を説明するための図。

符号の説明

１…コンテンツ入力部、２…スペクトル算出部、３…周波数ピーク検出部、４…時間方向特徴量抽出部、５…時間ピーク検出部、６…周波数方向特徴量抽出部、７…相互特徴量抽出部、８…音響分類部、９…出力部

Claims

音響信号を含むマルチメディアコンテンツを時間的に連続する複数の区間に分割して前記区間ごとに前記音響信号のスペクトルを算出するスペクトル算出部と、
前記スペクトルにおける周波数方向の極大点である周波数ピークを検出する周波数ピーク検出部と、
前記周波数ピークの特徴を示す第１特徴量を抽出する時間方向特徴量抽出部と、
前記スペクトルを時間的に連続して配列したスペクトログラムにおける時間方向の極大点である時間ピークを検出する時間ピーク検出部と、
前記時間ピークの特徴を示す第２特徴量を抽出する周波数方向特徴量抽出部と、
前記第１特徴量および前記第２特徴量により示される前記区間の音響的な特徴に基づいて、前記複数の区間を第１の音楽区間と第２の音楽区間とに分類する音響分類部とを具備することを特徴とするシーン分類装置。
前記音響分類部は、規定時間内に規定数以上の数にわたり前記第１の音楽区間を含むシーンを前記マルチメディアコンテンツにおける音楽シーンとして検出することを特徴とする請求項１に記載のシーン分類装置。
前記時間方向特徴量抽出部は、前記周波数ピークを時間方向に連結して得られる時間連続ピーク列の特徴を前記第１特徴量に含めて当該第１特徴量を抽出することを特徴とする請求項１に記載のシーン分類装置。
前記第１特徴量は、
前記周波数ピークの数、この周波数ピークのパワー値、この周波数ピークの周波数値、前記時間連続ピーク列の数、この時間連続ピーク列の長さ、この時間連続ピーク列の連続性、この時間連続ピーク列の方向、各ピーク値の統計量、および、各周波数値の統計量の少なくともいずれか１つの平均または分散を含む統計量であることを特徴とする請求項３に記載のシーン分類装置。
前記時間方向特徴量抽出部は、
時間方向に隣接する第１および第２周波数ピークの間に張られる第１ベクトルと、前記第１周波数ピークとこの第１周波数ピークに時間方向に隣接する第３周波数ピークとの間に張られる第２ベクトルとの類似度が規定の閾値以上であれば、前記第１および第２周波数ピークを連結することを特徴とする請求項３に記載のシーン分類装置。
前記周波数方向特徴量抽出部は、前記時間ピークを周波数方向に連結して得られる周波数連続ピーク列の特徴を前記第２特徴量に含めて当該第２特徴量を抽出することを特徴とする請求項１に記載のシーン分類装置。
前記第２特徴量は、
前記時間ピークの数、この時間ピークのパワー値、この時間ピークの周波数値、前記周波数連続ピーク列の数、この周波数連続ピーク列の長さ、この周波数連続ピーク列の連続性、この周波数連続ピーク列の方向、各ピーク値の統計量、および、各時間値の統計量の少なくともいずれか１つの平均または分散を含む統計量であることを特徴とする請求項６に記載のシーン分類装置。
前記周波数方向特徴量抽出部は、
周波数方向に隣接する第１および第２時間ピークの間に張られる第３ベクトルと、前記第１時間ピークとこの第１時間ピークに周波数方向に隣接する第３時間ピークとの間に張られる第４ベクトルとの類似度が規定の閾値以上であれば、前記第１および第２時間ピークを連結することを特徴とする請求項６に記載のシーン分類装置。
さらに、前記第１特徴量と前記第２特徴量との相互作用の度合いを示す第３特徴量を抽出する第３特徴量抽出部を具備し、
前記音響分類部は、
前記第１特徴量、前記第２特徴量、および、前記第３特徴量により示される前記区間の音響的な特徴に基づいて前記複数の区間を第１の音楽区間と第２の音楽区間とに分類することを特徴とする請求項１に記載のシーン分類装置。