JP5658285B2

JP5658285B2 - 興味区間抽出装置、興味区間抽出方法

Info

Publication number: JP5658285B2
Application number: JP2012551746A
Authority: JP
Inventors: 小沼　知浩; 知浩小沼; 亮一川西; 上野山　努; 上野山　　努
Original assignee: Panasonic Intellectual Property Corp of America
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2011-01-05
Filing date: 2011-10-28
Publication date: 2015-01-21
Anticipated expiration: 2031-10-28
Also published as: US8942540B2; CN102782750A; CN102782750B; WO2012093430A1; US20120321282A1; JPWO2012093430A1

Description

本発明は、ＡＶコンテンツからユーザの興味の対象となる興味区間を抽出する技術であって、殊に、オーディオ信号を用いる技術に関する。

デジタルカメラ等の動画撮影機器において、ユーザが撮影したＡＶコンテンツから不要な区間を取り除いて興味がある区間（以下、興味区間と称す。）だけを抽出することができる機能が求められている。

これに対して、従来から、ユーザがＡＶコンテンツの内容を視聴しながら、興味区間の開始時刻が来ると、コントローラを操作（例えば、コントローラの入力釦を押下する操作）して興味区間の開始時刻を決め、その後、興味区間の終了時刻が来ると、再度、コントローラを操作して興味区間の終了時刻を決めることにより、興味区間を抽出することができる動画撮影機器がある。

ところが、この動画撮影機器では、適切な興味区間を抽出しようとすると、ＡＶコンテンツの内容を視聴しながらタイミング良くコントローラを操作する必要があり、ＡＶコンテンツの内容を視聴ながらコントローラを操作する作業にある程度の熟練が必要であった。そして、興味区間の開始時刻と終了時刻を適切に決めることができない場合には、再度、ＡＶコンテンツの内容を視聴しながらコントローラを操作する作業を繰り返すこととなり、興味区間の抽出に手間がかかることが多かった。

そこで、従来、ユーザが指定した時刻に対して、ユーザが予めコンテンツの内容に応じて設定したオフセット時間を加えた時刻をイン点およびアウト点とする機能を備えた動画編集装置が提案されている（特許文献１参照）。この動画編集装置であれば、例えば、イン点の時刻をユーザが指定した時刻よりもオフセット時間だけ繰り上げるように設定しておけば、ユーザがイン点を指定するタイミングが遅れてしまっても、所望のイン点を指定することができ、適切な興味区間を抽出することができる。

また、従来から、予め興味区間の開始時刻（イン点）における音響特徴条件と終了時刻（アウト点）における音響特徴条件とを設定しておき、これらの音響特徴条件からイン点とアウト点とを決定することにより興味区間を抽出する方法が提案されている（特許文献２参照）。

特開２００１−０５７６６０号公報特開平３−０８０７８２号公報

しかしながら、特許文献１に記載された方法では、適切なオフセット時間がＡＶコンテンツの内容に応じて異なる長さに設定する必要があることが一般的であり、例えば、複数種類のＡＶコンテンツそれぞれから興味区間を抽出してダイジェストを作成したい場合には、各ＡＶコンテンツ毎にオフセット時間を設定してから興味区間を抽出する必要がある。この複数種類のＡＶコンテンツそれぞれから興味区間を抽出したい場合、各ＡＶコンテンツ毎に別々のオフセット時間を設定する作業がユーザにとって非常に手間がかかるものであった。

また、特許文献２に記載された方法では、ＡＶコンテンツの内容に応じてイン点とアウト点における音響特徴条件を設定する必要があるので、複数種類のＡＶコンテンツから興味区間を抽出したい場合には、ＡＶコンテンツそれぞれについてイン点およびアウト点における音響特徴条件を設定する必要がある。従って、複数種類のＡＶコンテンツそれぞれについて音響特徴条件を設定して興味区間を抽出する場合、この設定作業がユーザにとって大きな負担となることがあった。

本発明は、上記事由に鑑みてなされたものであり、ＡＶコンテンツから興味区間を抽出する際のユーザの作業負担の低減を図ることを目的とする。

本発明に係る興味区間抽出装置は、動画ファイルに含まれるオーディオ信号に基づいて、指定時刻を含むユーザの興味区間を抽出する興味区間抽出装置であって、基準となる複数種類のサウンド素片それぞれの特徴を表現するアンカーモデルを予め蓄積しているアンカーモデル蓄積手段と、指定時刻を取得する指定時刻取得手段と、オーディオ信号の単位区間毎に、オーディオ信号の特徴量を表現する特徴量ベクトルに対する尤度をアンカーモデルを用いて求め、各尤度を成分とする尤度ベクトルを生成する尤度ベクトル生成手段と、尤度ベクトルに基づいて興味区間の候補となる候補区間を算出し、指定時刻を含む候補区間の全部または一部を興味区間として抽出する興味区間抽出手段とを備える。

本構成によれば、ＡＶコンテンツから興味区間を抽出する際に、指定時刻を指定するだけで適切な興味区間が抽出されるので、興味区間を抽出する際のユーザの作業負担の低減を図ることができる。

また、本発明に係る興味区間抽出装置は、単位区間を第１単位区間として、当該第１単位区間のＮ倍（Ｎは２以上の自然数）の長さの第２単位区間のオーディオ信号から生成されたＮ個の尤度ベクトルから頻度ベクトルを生成する頻度ベクトル生成手段を備え、候補区間は、頻度ベクトルに基づいて算出されるものであってもよい。

また、本発明に係る興味区間抽出装置は、頻度ベクトルの各成分を複数の成分群に分類する成分分類手段と、複数の成分群それぞれに基づいて複数の特徴区間を算出する特徴区間算出手段とを備え、候補区間は、複数の特徴区間により定まるものであってもよい。

本構成によれば、ＡＶコンテンツ全体における各サウンド素片の出現頻度を表す、オーディオ信号の全区間から生成される尤度ベクトルの重心ベクトルの各成分に基づいて複数の成分群に分類し、複数の成分群それぞれに基づいて算出された特徴区間により候補区間を定めることにより、音環境の性質の違いで成分を分類すれば、音環境が同質の成分に基づいて算出された特徴区間から候補区間を決めることができるので、音環境の性質を特徴区間に反映させることができるようになる。

また、本発明に係る興味区間抽出装置は、成分分類手段が、オーディオ信号の全区間の尤度ベクトルから重心ベクトルを生成し当該重心ベクトルの各成分の大きさに基づいて、頻度ベクトルの各成分を第１成分群と第２成分群とに分類し、特徴区間算出手段が、重心ベクトルにおける第１成分群に属する各成分に基づいて第１特徴区間を算出し、重心ベクトルにおける第２成分群に属する各成分に基づいて第２特徴区間を算出し、候補区間が、第１特徴区間および第２特徴区間により定まるものであってもよい。

本構成によれば、特徴区間算出手段が、重心ベクトルのうち所定量以上の大きさの成分に対応するアンカーモデルに対応する重心ベクトルの成分を第１成分群とし、重心ベクトルのうち所定量未満の大きさの成分に対応するアンカーモデルに対応する重心ベクトルの成分を第２成分群とし、第１成分群に基づいて第１特徴区間を算出し、第２成分群に基づいて第２特徴区間を算出する構成とすることにより、第１成分群に属する各成分に基づいて安定的な性質の音環境の継続期間である第１特徴区間と、第２成分群に属する各成分に基づいて突発的な性質の音環境の継続期間である第２特徴区間とを算出することができるので、安定的な性質の音環境と突発的な性質の音環境とを含む興味区間を抽出することができる。

また、本発明に係る興味区間抽出装置は、興味区間が、第１特徴区間に含まれ且つ第２特徴区間を包含する区間であってもよい。

本構成によれば、興味区間が、第１特徴区間に含まれ且つ第２特徴区間を包含する区間であることにより、突発的な音環境を含む興味区間を正確に抽出することができるので、安定的な音環境と突発的な音環境とを含む興味区間を正確に抽出することができる。

また、本発明に係る興味区間抽出装置は、ユーザが予め設定した興味区間の長さを取得する興味区間長取得手段と、指定時刻から第２単位区間ずつ時刻をずらしながら第２特徴区間に含まれる特徴時刻を検索して抽出する特徴時刻抽出手段を備え、興味区間抽出手段は、指定時刻から特徴時刻抽出手段が抽出した特徴時刻に向かって第２単位区間ずつ時刻をずらしながら、対象時刻が第１特徴区間に属し且つ当該対象時刻と指定時刻との間の長さが予め設定された興味区間の長さよりも短いか否かを判断し、対象時刻が第１特徴区間に属し且つ当該対象時刻と指定時刻との間の長さが予め設定された興味区間の長さよりも短いと判断すると対象時刻を含む第２単位区間を興味区間とするものであってもよい。

本構成によれば、第１特徴区間の長さがユーザが予め設定した興味区間の長さよりも短い場合に、興味区間抽出手段の処理負荷を軽減することができる。

また、本発明に係る興味区間抽出装置は、動画ファイルが、１つのコンテンツを表す動画に対応するものであってもよい。

本構成によれば、動画ファイルが、１つのコンテンツを表す動画に対応するものであることにより、１つのコンテンツ全体から第１特徴区間および第２特徴区間を抽出することができるので、コンテンツに対するユーザの興味区間をより正確に抽出することができる。

また、本発明に係る興味区間抽出装置は、興味区間抽出手段が、複数の指定時刻に対応する複数の興味区間を示す興味区間データを指定時刻の順に整列して外部記憶装置に記憶するものであってもよい。

本構成によれば、興味区間の動画が指定時刻の順に現れるダイジェスト動画を作成する場合、外部記憶装置から興味区間データを取得するときの興味区間データと時刻情報との対応付け処理を行う必要がなくなるので、ダイジェスト動画作成処理の負担を軽減することができる。

また、本発明に係る興味区間抽出装置は、指定時刻取得手段が、動画ファイルに含まれ且つユーザの指定した区間に対応する画像データそれぞれの特徴量の時間変化に基づいて、当該ユーザの指定した区間の中から自動的に指定時刻を取得するものであってもよい。

本構成によれば、ユーザが指定時刻としたい時刻を含む区間を大まかに指定するだけで、指定時刻取得手段が、当該ユーザの指定した区間の仲から自動的に指定時刻を取得するので、ユーザの指定時刻を指定する際の負担を軽減することができる。

また、本発明は、動画ファイルに含まれるオーディオ信号に基づいて、指定時刻を含むユーザの興味区間を抽出する興味区間抽出方法であって、基準となる複数種類のサウンド素片それぞれの特徴を表現するアンカーモデルを予め蓄積しているアンカーモデル蓄積ステップと、指定時刻を取得する指定時刻取得ステップと、オーディオ信号の単位区間毎に、オーディオ信号の特徴量を表現する特徴量ベクトルに対する尤度をアンカーモデルを用いて求め、各尤度を成分とする尤度ベクトルを生成する尤度ベクトル生成ステップと、尤度ベクトルに基づいて興味区間の候補となる候補区間を算出し、指定時刻を含む候補区間の全部または一部を興味区間として抽出する興味区間抽出ステップとを含む興味区間抽出方法であってもよい。

本構成によれば、ユーザが指定時刻を指定するだけで容易に興味区間を抽出することができる。

また、本発明は、コンピュータにより動画ファイルに含まれるオーディオ信号に基づいて、指定時刻を含むユーザの興味区間を抽出する興味区間抽出処理を実現させるためのプログラムであって、興味区間抽出処理は、基準となる複数種類のサウンド素片それぞれの特徴を表現するアンカーモデルを予め蓄積しているアンカーモデル蓄積ステップと、指定時刻を取得する指定時刻取得ステップと、オーディオ信号の単位区間毎に、オーディオ信号の特徴量を表現する特徴量ベクトルに対する尤度をアンカーモデルを用いて求め、各尤度を成分とする尤度ベクトルを生成する尤度ベクトル生成ステップと、尤度ベクトルに基づいて興味区間の候補となる候補区間を算出し、指定時刻を含む候補区間の全部または一部を興味区間として抽出する興味区間抽出ステップとを含む興味区間抽出プログラムであってもよい。

また、本発明は、動画ファイルに含まれるオーディオ信号に基づいて、指定時刻を含むユーザの興味区間を抽出する興味区間抽出用集積回路であって、基準となる複数種類のサウンド素片それぞれの特徴を表現するアンカーモデルを予め蓄積しているアンカーモデル蓄積部と、指定時刻を取得する指定時刻取得部と、オーディオ信号の単位区間毎に、オーディオ信号の特徴量を表現する特徴量ベクトルに対する尤度をアンカーモデルを用いて求め、各尤度を成分とする尤度ベクトルを生成する尤度ベクトル生成部と、尤度ベクトルに基づいて興味区間の候補となる候補区間を算出し、指定時刻を含む候補区間の全部または一部を興味区間として抽出する興味区間抽出部とを備える興味区間抽出用集積回路であってもよい。

本構成によれば、搭載する装置の小型化を図ることができる。

実施の形態に係る興味区間抽出装置を搭載した映像編集装置の概要を説明する図である。実施の形態に係る特徴量ベクトルの算出方法の説明図である。実施の形態に係る特徴量ベクトルの例を示す図である。実施の形態に係るアンカーモデルの例を示す図である。実施の形態に係る尤度ベクトルの例を示す図である。実施の形態に係る興味区間抽出装置を搭載した映像編集装置の構成図である。実施の形態に係る興味区間抽出装置の機能ブロック図である。実施の形態に係る成分分類部の動作説明図である。実施の形態に係る第１単位区間と第２単位区間との関係を示した図である。実施の形態に係る低頻度ベクトルと高頻度ベクトルを示した図である。実施の形態に係る基準ベクトル・閾値生成部が基準ベクトルを生成するときの動作説明図である。実施の形態に係る基準ベクトル・閾値生成部が閾値を算出するときの動作説明図である。実施の形態に係る特徴点抽出部の動作説明図である。実施の形態に係る特徴区間に含まれる高頻度ベクトルを説明するための図である。実施の形態に係る興味区間抽出部の動作説明図である。実施の形態に係る興味区間、第１特徴区間および第２特徴区間の関係を説明するための図である。実施の形態に係る興味区間、第１特徴区間および第２特徴区間の関係を説明するための図である。実施の形態に係るアンカーモデル作成装置の機能ブロック図である。

＜実施の形態＞
＜１＞概要
本実施の形態に係る興味区間抽出装置は、動画ファイルに含まれるオーディオ信号の第１単位区間（１０ｍｓｅｃ）毎に複数種類のアンカーモデルＡｒそれぞれを用いてオーディオ信号の特徴量を表現する特徴量ベクトルに対する尤度を成分とする尤度ベクトルを生成し、尤度ベクトルの各成分を２つの成分群に分類し、各成分群に属する成分に基づいて第１特徴区間（候補区間）および第２特徴区間の終了時刻を算出する。

例えば、図１に示すように、動画ファイルが、運動会のシーンを撮影したものとする。そして、ユーザが、この動画ファイルの中から徒競走のスタート時刻前後の所定の長さの時間内のシーンだけを切り出す編集をしたいとする。この場合、ユーザは徒競争のシーンの中におけるスタート時刻付近の時刻を指定すると、まず、徒競争のシーン全体に相当する第１特徴区間の中から指定時刻を含む一部の区間を興味区間として抽出する。

また、本実施の形態に係る興味区間抽出装置では、興味区間として抽出しようとする区間内に徒競争のスタートを告げる発砲シーン（図１の第２特徴区間）を含んだ形で興味区間を抽出することができる。なお、本実施の形態では、第１単位区間の１００倍の第２単位区間（１ｓｅｃ）を最小単位として興味区間を抽出する。また、本実施の形態では、発砲シーン等の突発的な音環境の継続時間を適宜設定して、第２特徴区間の終了時刻（特徴点Ｔｋ）だけを求め当該終了時刻から当該継続時間だけ遡った時刻を第２特徴区間の開始時刻とみなして処理を行う。
＜２＞データ
本実施の形態に係る興味区間抽出装置で使用するデータについて説明する。
＜２−１＞動画ファイル
動画ファイルは、オーディオ信号と複数の画像データとから構成されている。そして、オーディオ信号は、図２（ａ）に示すような波形を有する。なお、オーディオ信号は、振幅値の時系列である
＜２−２＞特徴量ベクトル
以下、オーディオ信号から特徴量ベクトルＭを生成するまでの概要を述べる。

まず、図２（ａ）に示すように、音声抽出装置１０２が抽出したオーディオ信号の第１単位区間（時刻Ｔ_ｎから時刻Ｔ_ｎ＋１の間の区間，１０ｍｓｅｃ）毎にパワースペクトラムＳ（ω）を算出する（図２（ｂ）参照）。

その後、パワースペクトラムＳ（ω）の横軸を実周波数ωからメル周波数ω_ｍｅｌに変換する（図２（ｃ）参照）。

そして、横軸がメル周波数ω_ｍｅｌに変換されたパワースペクトラムＳ（ω_ｍｅｌ）から、第１単位区間内における２６個のメル周波数ケプストラム係数ＭＦＣＣ（Ｍｅｌ−ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔｓ）からなるベクトル（以下、特徴量ベクトルと称す。）を算出する。

この特徴量ベクトルＭは、図３に示すように第１単位区間毎（１０ｍｓｅｃ毎）に算出される。従って、時刻０ｓｅｃから時刻１ｓｅｃまでの間のオーディオ信号から１００個の特徴量ベクトルＭが生成されることになる。
＜２−３＞アンカーモデル
本実施の形態に係るアンカーモデルは、尤度を算出する際に基準となる１０２４種類のサウンド素片それぞれの特徴を表現するものであり、サウンド素片ごとに作成されている。そして、各アンカーモデルを規定するパラメータから構成される。

本実施の形態では、ＧＭＭ（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ）を採用して、アンカーモデルＡｒを作成する。

各アンカーモデルＡｒは、図４に示すように、第１単位区間における１０２４種類のサウンド素片それぞれに対応する特徴量出現確率関数ｂ_Ａｒ（Ｍ）により構成される。ここで、特徴量出現確率関数ｂ_Ａｒは、アンカーモデルＡｒごとに存在する確率関数であり、この特徴量出現確率関数ｂ_Ａｒ（Ｍ）を用いることによって、ＭＦＣＣ２６次のベクトル（特徴量ベクトル）Ｍを引数として尤度が算出される。なお、どのアンカーモデルがどのサウンド素片に対応するかは区別していない。
＜２−４＞尤度ベクトル
尤度ベクトルＦは、複数のサウンド素片それぞれに対応するアンカーモデルＡｒ（ｒ＝１，２，・・・，１０２４）を用いて、オーディオ信号の特徴量を表現する特徴量ベクトルＭに対して算出された尤度Ｌｒを成分とする。従って、尤度ベクトルは、１０２４次元のベクトルで表現される。この特徴量ベクトルＭは、前述＜２−３＞のように、音声抽出装置１０２が抽出したオーディオ信号の第１単位区間毎に生成されるものである。

図５に１０２４種類のサウンド素片それぞれのアンカーモデルＡｒを用いて算出された尤度ベクトルＦｎ，Ｆｍ（ｎ＜ｍ）を示す。ここにおいて、図５の縦軸が尤度であり、横軸がアンカーモデルＡｒの種類を示している。尤度ベクトルＦｎ，Ｆｍは、時刻０からｎ番目の第１単位区間（即ち、時刻（１０×ｎ）ｍｓｅｃから時刻（１０×（ｎ＋１））ｍｓｅｃの間の区間）に対応する尤度ベクトルおよびｍ番目の第１単位区間（即ち、時刻（１０×ｍ）ｍｓｅｃから時刻（１０×（ｍ＋１））ｍｓｅｃの間の区間）における尤度ベクトルＦｍを示している（図２（ａ）参照）。この尤度ベクトルＦは、図５に示すように、対象とするオーディオ信号の時間変化に応じて変化することになる。
＜３＞構成
本実施の形態に係る興味区間抽出装置１０４を搭載した映像編集装置１００を図６に示す。
＜３−１＞全体構成
映像編集装置１００は、図６に示すように、入力装置１０１と、コンテンツ記憶装置１０３と、音声抽出装置１０２と、興味区間抽出装置１０４と、興味区間記憶装置１０５と、出力装置１０６と、アンカーモデル作成装置１０８と、音声データ記憶装置１３０と、インターフェース装置１０９とを備える。

入力装置１０１は、ディスクドライブ装置等で構成され、記録媒体１１０が装着されると、記録媒体１１０から動画ファイルを読み込んで、コンテンツ記憶装置１０３に格納する。

コンテンツ記憶装置１０３は、ハードディスク装置等で構成され、入力装置１０１が記録媒体１１０から取得した動画ファイルを格納している。

音声抽出装置１０２は、コンテンツ記憶装置１０３から動画ファイルを取得し、取得した動画ファイルからオーディオ信号を抽出して興味区間抽出装置１０４に入力する。ここにおいて、音声抽出装置１０２は、符号化されているオーティオ信号に対して復号処理を行うことで、図２（ａ）に示すようなオーディオ信号を生成する。

出力装置１０６は、表示装置１２０に映像を表示する。ここにおいて、出力装置１０６は、興味区間記憶装置１０５から興味区間データを取得し、取得した興味区間データに基づいてコンテンツ記憶装置１０３から動画ファイルの一部を構成する複数の画像データを選出する。つまり、興味区間データから定まる時刻を示す時刻データに対応付けがなされた複数の画像データを選出する。また、出力装置１０６は、各興味区間に対応する指定時刻が早い順に動画をつなぎあわせたダイジェスト動画を外部の表示装置１２０に表示させる。

音声データ記憶装置１３０は、ハードディスク装置等で構成され、アンカーモデル作成装置１０８が複数種類のサウンド素片それぞれの特徴を表現するアンカーモデルＡｒを作成する際に用いる音声データを記憶している。この音声データは、興味区間を抽出する対象となる動画ファイルとは別に、予め複数の動画ファイルから抽出して復号処理を行って得られたオーディオ信号から構成されている。

インターフェース装置１０９は、キーボード等の操作部（図示せず）を備え、ユーザからの入力操作を受け付けて、入力された情報を興味区間抽出装置１０４やアンカーモデル作成装置１０８に通知する機能を有する。ユーザは、このインターフェース装置１０９を介して指定時刻や興味区間の長さに関する情報を興味区間抽出装置１０４に入力することになる。
＜３−２＞興味区間抽出装置
興味区間抽出装置１０４は、メモリ（図示せず）とプロセッサ（図示せず）とから構成され、プロセッサがメモリに読み込まれたプログラムを実行することにより、図７に示す各構成を実現している。以下、各構成について詳述する。
＜３−２−１＞特徴量ベクトル生成部
特徴量ベクトル生成部２０１は、入力されるオーディオ信号から特徴量ベクトルを生成する。この特徴量ベクトル生成部２０１は、まず、音声抽出装置１０２から入力されるオーディオ信号に対して第１単位区間毎に音響分析を行い、パワースペクトラムＳ（ω）を算出する。特徴量ベクトル生成部２０１は、算出したパワースペクトラムＳ（ω）から特徴量ベクトルＭ（Ｍ（１），Ｍ（２），・・・，Ｍ（２６））を生成する。特徴量ベクトル生成部２０１は、１００個の特徴量ベクトルＭを生成することになる（図３参照）。
＜３−２−２＞尤度ベクトル生成部
尤度ベクトル生成部２０２は、各サウンド素片のアンカーモデルＡｒを用いて特徴量ベクトルＭに対する尤度Ｌｒを算出し、算出した尤度Ｌｒを各成分とする尤度ベクトルＦを生成する。尤度ベクトル生成部２０２は、アンカーモデルＡｒを構成する各パラメータをアンカーモデル蓄積部１０７から取得する。
＜３−２−３＞尤度ベクトルバッファ
尤度ベクトルバッファ２０３は、メモリの一部の領域により構成され、尤度ベクトル生成部２０２で生成された尤度ベクトルＦを記憶する。
＜３−２−４＞成分分類部
成分分類部２０５は、［数１］の関係式に従って、尤度ベクトルバッファ２０３からオーディオ信号の全区間から生成された全ての尤度ベクトルＦを読み出し、これらの尤度ベクトルＦの総和の各成分を全区間に含まれる第１単位区間の数で割ったもの（重心ベクトルＧ）を算出する。

ここにおいて、第１単位区間が１０ｍｓｅｃであるから、全区間の長さが１時間（３６００ｓｅｃ）に設定されていれば、Ｔ＝３６００００となる。また、各尤度ベクトルＦは、１０２４種類のアンカーモデルＡｒを用いて算出されるので、Ｒ＝１０２４となる。

ところで、この重心ベクトルＧの各成分は、オーディオ信号の全区間に含まれる各第１単位区間における各アンカーモデルＡｒの尤度Ｌｒの平均値（正規化累積尤度とも言う。）である。つまり、オーディオ信号の全区間における各アンカーモデルＡｒが示すサウンド素片の出現頻度を表していることになる。従って、重心ベクトルＧの成分が大きいほど当該成分に対応するアンカーモデルＡｒが示すサウンド素片の出現頻度が高いことになる。なお、本実施の形態では、サウンド素片の出現頻度を正規化累積尤度で表現する例について説明しているが、この出現頻度の表現としてはこれに限られるものではない。

そして、成分分類部２０５は、算出した重心ベクトルＧの各成分を昇順に並べる。このとき、アンカーモデルＡｒの種類の総数の１／４に相当する順位よりも高い順位の成分、即ち、順位が２５６位以上の成分を出現頻度の高いアンカーモデルＡｒ（高頻度群）、その他の成分を出現頻度の低いアンカーモデルＡｒ（低頻度群）として分類する。この成分分類部２０５の処理の様子を図８に示す。図８のヒストグラム（ａ）および（ｂ）では、縦軸に重心ベクトルＧの各成分の大きさ、横軸に重心ベクトルＧの各成分Ｇｒおよび各成分Ｇｒそれぞれに対応するアンカーモデルＡｒを示す。
＜３−２−５＞頻度ベクトル生成部
頻度ベクトル生成部２０６は、頻度ベクトルＮＦを生成するときに用いる区間を第２単位区間ずつ（１ｓｅｃずつ）ずらしながら頻度ベクトルＮＦを生成していく。この第２単位区間は、図９に示すように、複数個の第１単位区間の集合に相当する。この頻度ベクトルＮＦの各成分は、第２単位区間に含まれる尤度ベクトルＦの各成分の正規化累積尤度に相当する。この頻度ベクトルＮＦの一例を図１０上段に示す。

この頻度ベクトル生成部２０６は、後述の興味区間抽出部２０９から後述の頻度ベクトル作成終了指示が通知されると頻度ベクトルＮＦの生成を終了し、一方、頻度ベクトル作成開始指示が通知されると頻度ベクトルＮＦの生成を開始する。

そして、頻度ベクトル生成部２０６は、成分分類部２０５により分類された結果に基づいて、出現頻度の高いアンカーモデルＡｒ（高頻度群）に属する成分と出現頻度の低いアンカーモデルＡｒ（低頻度群）に属する成分とを頻度ベクトルＮＦから抽出し、高頻度群に対応する成分からなる高頻度ベクトルＮＦｈと低頻度群に対応する成分からなる低頻度ベクトルＮＦｌとを生成する。ここにおいて、頻度ベクトル生成部２０６は、成分分類部２０５から入力される各アンカーモデルＡｒの属性情報（即ち、各アンカーモデルＡｒが低頻度群と高頻度群のいずれに属するかを示す情報）とを用いて高頻度ベクトルＮＦｈと低頻度ベクトルＮＦｌとを生成する。
＜３−２−６＞頻度ベクトルバッファ
頻度ベクトルバッファ２０７は、メモリの一部の領域により構成され、頻度ベクトル生成部２０６が生成した低頻度ベクトルＮＦｌと高頻度ベクトルＮＦｈを記憶する。

頻度ベクトルバッファ２０７に記憶されている低頻度ベクトルＮＦｌと高頻度ベクトルＮＦｈの各成分を折れ線グラフで示したものを図１０下段に示す。
＜３−２−７＞基準ベクトル・閾値生成部
基準ベクトル・閾値生成部２０４は、頻度ベクトルバッファ２０３から指定時刻に対応する高頻度ベクトルＮＦｈを含む複数の第２単位区間に含まれる高頻度ベクトルＮＦｈを取得して基準ベクトルＮＦｈ０を算出する。図１１の例では、基準ベクトルＮＦｈ０が、指定時刻に対応する第２単位区間の前後４個の第２単位区間（合計で９個の第２単位区間）内に含まれる９個の高頻度ベクトルＮＦｈの総和を、第２単位区間の数（９個）で割って得られる。

そして、基準ベクトル・閾値生成部２０４は、更に、基準ベクトルＮＦｈ０を生成する際に用いた複数の高頻度ベクトルＮＦｈと基準ベクトルＮＦｈ０との間のユークリッド距離を算出し、基準ベクトルＮＦｈ０との間の距離が最も遠い高頻度ベクトルＮＦｈと基準ベクトルＮＦｈ０との間のユークリッド距離を第１特徴区間に属するか否かの判断に用いる閾値Ｒｔｈとして設定する。この様子を高頻度ベクトル空間の概念を用いて説明したものを図１２に示す。

その後、基準ベクトル・閾値生成部２０４は、生成した基準ベクトルＮＦ０および閾値Ｒｔｈを興味区間抽出部２０９に入力する。
＜３−２−８＞指定時刻取得部
指定時刻取得部２１０は、インターフェース装置１０９から指定時刻に関する情報を取得し、基準ベクトル・閾値生成部２０４、特徴点抽出部２０８および興味区間抽出部２０９に入力する。
＜３−２−９＞特徴点抽出部
特徴点抽出部２０８は、指定時刻Ｔ０から１ｓｅｃ刻みで時刻を遡りながら低頻度ベクトルＮＦｌ（Ｔ），ＮＦｌ（Ｔ−１）の差分Δ（ＮＦｌ（Ｔ）−ＮＦｌ（Ｔ−１））のノルムを算出していく。

そして、特徴点抽出部２０８は、差分Δ（ＮＦｌ（Ｔ）−ＮＦｌ（Ｔ−１））のノルムが閾値Ｔｈを超える時刻のうち最も指定時刻Ｔ０に近い時刻を算出して当該時刻を特徴点（特徴時刻）とする。つまり、特徴点抽出部２０８は、指定時刻Ｔ０から第２単位区間ずつ時刻を過去にずらしながら第２特徴区間の終了時刻である特徴点Ｔｋを検索し、当該特徴点Ｔｋを抽出することになる。

低頻度ベクトルＮＦｌ（Ｔ）の差分Δ（ＮＦｌ（Ｔ）−ＮＦｌ（Ｔ−１））のノルムの例を図１３に示す。図１３では、時刻Ｔｋで｜Δ（ＮＦｌ（Ｔ）−ＮＦｌ（Ｔ−１））｜が閾値Ｔｈを超えるので、時刻Ｔｋを特徴点とする。

このようにして、特徴点抽出部２０８は、指定時刻取得部２１０から入力される指定時刻の情報と頻度ベクトルバッファ２０７に記憶されている低頻度ベクトルを用いて第２特徴区間の終了時刻である特徴点Ｔｋを抽出する（図１参照）。この指定時刻の情報は、動画ファイルの開始時刻からの経過時間で示される。
＜３−２−１０＞興味区間抽出部
興味区間抽出部２０９では、指定時刻取得部２１０から入力される指定時刻に関する情報と、高頻度ベクトルＮＦｈとに基づいて第１特徴区間（候補区間）を抽出する。

興味区間抽出部２０９は、まず、指定時刻（図１４（ａ）の時刻Ｔ０）を含む第２単位区間を特定する。そして、興味区間抽出部２０９は、基準ベクトル・閾値生成部２０４から入力される基準ベクトルＮＦｈｃと他の時刻の高頻度ベクトルＮＦｈとのユークリッド距離を算出していく。ここにおいて、高頻度ベクトルＮＦｈと基準ベクトルＮＦｈｃとの間のユークリッド距離が基準ベクトル・閾値生成部２０４から入力される閾値Ｒｔｈを超える２つの時刻ＴＬ１，ＴＬ２の間の区間が、第１特徴区間に相当することになる（図１４（ａ））。高頻度ベクトルＮＦｈ空間における閾値と、ユークリッド距離との関係を図１３（ｂ）に示す。第１特徴区間内の高頻度ベクトルＮＦｈは、図１４（ｂ）に示す高頻度ベクトル空間における基準ベクトルＮＦｈｃを中心とした半径Ｒｔｈの球の内側に存在することになる。

ここにおいて、興味区間抽出部２０９は、図１５に示すように、指定時刻Ｔ０から時刻を遡りながら（つまり、指定時刻Ｔ０から特徴点抽出部２０８が抽出した特徴点Ｔｋに向かって第２単位区間ずつ時刻をずらしながら）、対象時刻における高頻度ベクトルＮＦｈと基準ベクトルＮＦｈｃとの間のユークリッド距離を算出し、算出したユークリッド距離が閾値Ｒｔｈを超えるか否か（つまり、対象時刻を含む第２単位区間が第１特徴区間に含まれるか否か）を判定していく。

ここにおいて、興味区間抽出部２０９は、算出したユークリッド距離が閾値（Ｒｔｈ）を超えると、頻度ベクトル生成部２０６に対して頻度ベクトル作成終了指示を通知する。

また、興味区間抽出部２０９は、同時に当該対象時刻と指定時刻Ｔ０との間の長さが予め設定された興味区間の長さｌｅよりも短いか否かも判断する。そして、ユークリッド距離が閾値Ｒｔｈを超えず（第１特徴区間に含まれる）且つ対象時刻と指定時刻Ｔ０との間の長さが予め設定された興味区間の長さｌｅよりも短い（つまり、興味区間の条件を具備している）と判断すると対象時刻を含む第２単位区間が興味区間となる。

そして、興味区間抽出部２０９は、対象時刻が特徴点Ｔｋに一致すると、対象時刻と指定時刻Ｔ０との間の長さが、予め設定された興味区間の長さｌｅよりも短いか否かを判断し、短いと判断すると今度は、時刻Ｔ０から第２単位区間ずつ時刻を進みながら対象時刻における高頻度ベクトルＮＦｈと基準ベクトルＮＦｈｃとの間のユークリッド距離を順に算出し、前述と同様の判断を行っていく。

このとき、興味区間抽出部２０９は、頻度ベクトル生成部２０６に対して頻度ベクトル作成開始指示を通知する。

そして、興味区間抽出部２０９は、算出したユークリッド距離が所定の閾値Ｒｔｈを超えるか或いは興味区間として特定した区間の全長が予め設定された興味区間の長さｌｅを超えたところで、処理を終了し、頻度ベクトル生成部２０６に対して頻度ベクトル作成終了指示を通知する。このとき、第１特徴区間の中から特徴点Ｔｋを含む長さｌｅの区間を興味区間として抽出される（図１６参照）。

この興味区間の長さｌｅは、予め簡易編集アプリケーションによるユーザ評価によって決めておく（例えば、ユーザ評価により６０ｓｅｃと決めておく。）。そして、特徴点Ｔｋが、指定時刻Ｔ０から６０ｓｅｃ以上離れている場合には、図１７（ａ）に示すように特徴点Ｔｋを含まない６０ｓｅｃの長さの期間を興味区間として抽出する。これは、例えば、指定時刻Ｔ０が１０００ｓｅｃであり、特徴点Ｔｋが９００ｓｅｃであり、興味区間の長さｌｅが５０ｓｅｃの場合である。この場合、特徴点Ｔｋから指定時刻Ｔ０までの時間１００ｓｅｃよりも興味区間の長さｌｅが短い。

一方、指定時刻Ｔ０と時刻ＴＬ１との間の長さが、指定区間ｌｅ以下である場合には、図１７（ｂ）に示すように時刻ＴＬ１から指定区間ｌｅだけ後の時刻までの区間を興味区間として抽出する。これは、例えば、指定時刻が１０００ｓｅｃであり、時刻ＴＬ１が９５０ｓｅｃであり、興味区間の長さｌｅが６０ｓｅｃの場合である。この場合、時刻ＴＬ１から指定時刻Ｔ０までの時間５０ｓｅｃよりも興味区間の長さｌｅが長い。
＜３−２−１０＞アンカーモデル蓄積部
アンカーモデル蓄積部１０７は、メモリの一部により構成され、アンカーモデル作成装置１０８が作成したアンカーモデルＡｒを蓄積している。このアンカーモデル蓄積部１０７は、興味区間抽出処理を行う前に予めアンカーモデルＡｒを蓄積している。
＜３−３＞アンカーモデル作成装置
本実施の形態に係るアンカーモデル作成装置１０８の機能ブロックを図１８に示す。アンカーモデル作成装置１０８は、音声データ蓄積装置１３０に蓄積されている音声データからアンカーモデルＡｒを作成してアンカーモデル蓄積部１０７に蓄積する。

アンカーモデル作成装置１０８は、メモリ（図示せず）とプロセッサ（図示せず）とから構成され、プロセッサがメモリに読み込まれたプログラムを実行することにより、図１８に示す各構成を実現している。即ち、アンカーモデル作成装置１０８は、図１８に示すように、特徴量ベクトル生成部３０１と、特徴量ベクトル分類部３０２と、アンカーモデル生成部３０３とを実現している。
＜３−３−１＞特徴量ベクトル生成部
特徴量ベクトル生成部３０１は、前述＜３−２−１＞で説明した特徴量ベクトル生成部２０１と同様に、音声データ蓄積部１３０から取得した音声データを第１単位区間に分割し、第１単位区間毎に音響分析を行ってパワースペクトラムＳ（ω）を算出し、算出したパワースペクトラムＳ（ω）から特徴量ベクトルＭを生成する。
＜３−３−２＞特徴量ベクトル分類部
特徴量ベクトル分類部３０２は、インターフェース装置１０９から入力されるアンカーモデルＡｒの個数Ｋに基づいて、Ｋ−ｍｅａｎｓ法により複数の特徴量ベクトルＭをＫ個のクラスタに分離し、各クラスタを表す代表的な特徴量ベクトル(以下、クラスタ特徴量ベクトルと称す。)を算出する。この各クラスタが各アンカーモデルＡｒに対応することになる。なお、本実施の形態では、Ｋ＝１０２４に設定されている。
＜３−３−３＞アンカーモデル生成部
アンカーモデル生成部３０３は、各クラスタのクラスタ特徴量ベクトルに基づいて、各アンカーモデルＡｒに対応する特徴量出現確率関数ｂ_Ａｒ（Ｍ）を算出する。
＜４＞動作
＜４−１＞映像編集装置の動作
以下、本実施の形態に係る興味区間抽出装置１０４を搭載した映像編集装置１００の動作について説明する。

まず、入力装置１０１が、ユーザにより興味区間を抽出して表示させる旨の指示があった動画ファイルを記録媒体１１０から取得し、コンテンツ記憶部１０２に格納する。

次に、音声抽出装置１０２が、コンテンツ記憶部１０２に格納されている動画ファイルからオーディオ信号を抽出する。

そして、興味区間抽出装置１０４が、音声抽出装置１０２が抽出したオーディオ信号に基づいて、後述の興味区間抽出処理を行う。この興味区間抽出処理の中で、興味区間抽出装置１０５に抽出した興味区間データを格納する。

最後に、出力装置１０６が、動画ファイルから興味区間抽出処理で抽出された興味区間データに対応する複数の画像データを選出し、表示装置１２０に表示させる。
＜４−２＞興味区間抽出処理
興味区間抽出処理について、図８に基づいて更に詳細に説明する。

まず、音声抽出装置１０２が、コンテンツ記録装置１０３からユーザが指定した動画ファイルに含まれるオーディオ信号を抽出して（矢印Ｐ１）、特徴量ベクトル生成部２０１に入力する（矢印Ｐ２）。

次に、特徴量ベクトル生成部２０１では、入力されたオーディオ信号から特徴量ベクトルを生成して尤度ベクトル生成部２０２に入力する（矢印Ｐ３）。

続いて、尤度ベクトル生成部２０２が、入力される特徴量ベクトルとアンカーモデル蓄積部１０７から取得した（矢印Ｐ４）アンカーモデルＡｒとから第１単位区間毎に尤度ベクトルＦを生成して尤度ベクトルバッファ２０３に格納する（矢印Ｐ５）。

そして、成分分類部２０５が、尤度ベクトルバッファ２０３に格納されている全ての尤度ベクトルＦを取得し（矢印Ｐ６）これらの重心ベクトルＧを算出するとともに、当該重心ベクトルＧの各成分について、所定の閾値よりも大きい成分に対応するアンカーおデルＡｒを高頻度群、所定の閾値よりも小さい成分に対応するアンカーモデルＡｒを低頻度群として分類し、その結果を示す属性情報を頻度ベクトル生成部２０６に入力する（矢印Ｐ７）。

更に、頻度ベクトル生成部２０６が、尤度ベクトルバッファ２０３に格納されている複数の尤度ベクトルＦを取得して（矢印Ｐ８）、頻度ベクトルＦを生成する。そして、頻度ベクトル生成部２０６が、頻度ベクトルＮＦそれぞれについて、成分分類部２０５から入力される属性情報に基づいて高頻度ベクトルＮＦｈおよび低頻度ベクトルＮＦｌを算出して頻度ベクトルバッファ２０７に格納する（矢印Ｐ１０）。この処理は、興味区間抽出部２０９から頻度ベクトル生成終了指示が通知されると終了し、一方、頻度ベクトル生成開始指示が通知されると再開する（矢印Ｐ９）。

そして、特徴点抽出部２０８が、頻度ベクトルバッファ２０７から低頻度ベクトルＮＦｌを取得して（矢印Ｐ１１）、取得した低頻度ベクトルＮＦｌと指定時刻取得部２１０から入力される（矢印Ｐ１２）指定時刻の情報とを用いて第２特徴区間を示す特徴点を抽出する。このとき、特徴点抽出部２０８は、指定時刻Ｔ０から第２単位区間ずつ時刻をずらしながら第２特徴区間の終了時刻である特徴点Ｔｋを検索し、当該特徴点Ｔｋを抽出する。

図１で説明すると、特徴点抽出部２０８は、徒競争のシーンを象徴する音楽等が流れている区間（第１特徴区間）の中の指定時刻Ｔ０から時間を第２単位区間ずつ遡りながら、鉄砲音が鳴動した区間（第２特徴区間）の終了時刻Ｔｋを抽出することになる。

続いて、特徴点抽出部２０８は、抽出した特徴点の情報を興味区間抽出部２０９に入力する（矢印Ｐ１３）。

一方、基準ベクトル・閾値生成部２０４は、頻度ベクトルバッファ２０７から指定時刻に対応する高頻度ベクトルＮＦｈを含む複数の高頻度ベクトルＮＦｈを取得するとともに（矢印Ｐ１７）指定時刻取得部２１０から指定時刻の情報を取得し（矢印Ｐ１９）、基準ベクトルＮＦｈ０の生成および閾値Ｒｔｈの算出を行う。そして、基準ベクトル・閾値生成部２０４は、生成した基準ベクトルＮＦｈ０および閾値Ｒｔｈを興味区間抽出部２０９に入力する（矢印Ｐ１８）。

また、興味区間抽出部２０９は、頻度ベクトルバッファ２０７から取得した（矢印Ｐ１４）と、基準ベクトル・閾値生成部２０４から入力される（矢印Ｐ１８）基準ベクトルＮＦｈｃおよび閾値Ｒｔｈと、指定時刻取得部２１０から入力される（矢印Ｐ１５）指定時刻の情報とを用いて、対象時刻が第１特徴区間に属するか否かを判断する。このとき、興味区間抽出部２０９は、指定時刻Ｔ０から特徴点抽出部２０８が抽出した特徴点Ｔｋに向かって第２単位区間ずつ時刻をずらしながら、対象時刻が第１特徴区間に属し且つ対象時刻と指定時刻Ｔ０との間の長さが予め設定された興味区間の長さｌｅよりも短いか否かを判断し、対象時刻が第１特徴区間に属し且つ対象時刻と指定時刻Ｔ０との間の長さが予め設定された興味区間の長さｌｅよりも短いと判断すると対象時刻を含む第２単位区間を興味区間とする。

図１で説明すると、興味区間抽出部２０９は、対象時刻が運動会のシーンの中の徒競争のシーンを象徴する音楽等が流れている区間に含まれるか否かを判断することになる。

最後に、興味区間抽出部２０９は、算出した第１特徴区間と、特徴点の情報とを用いて第１特徴区間に含まれ且つ第２特徴区間を包含する興味区間を抽出し、抽出した興味区間を示す興味区間データを興味区間記憶装置１０５に格納する（矢印Ｐ１６）。図１で説明すると、徒競争のシーンを象徴する音楽等が流れている区間（第１特徴区間）に含まれ、且つ、鉄砲音が鳴動している区間（第２特徴区間）を包含する区間を興味区間として抽出して、当該興味区間を示すデータを興味区間記憶装置１０５に格納することになる。このとき、興味区間抽出部２０９は、抽出した興味区間データを興味区間記憶装置１０５に格納する際、各興味区間データを指定時刻の順に格納していく（例えば、指定時刻の早い順にアドレス番号の若い格納領域に格納していく）。これにより、出力装置１０６は、興味区間記憶装置１０５から複数の興味区間データを取得する際、当該興味区間データと当該興味区間データに対応する指定時刻の前後関係を決定する処理を行う必要がなくなるので、出力装置１０６での処理負荷が軽減されることになる。
＜変形例＞
以上、本発明に係る興味区間抽出装置１０４について実施形態１および２に基づいて説明したが、本発明は前述の実施形態１および２で示した興味区間抽出装置１０４に限られないことはもちろんである。

（１）前述の実施の形態では、動画ファイルに含まれるオーディオ信号の第１単位区間（１０ｍｓｅｃ）毎に複数種類のアンカーモデルＡｒそれぞれを用いてオーディオ信号の特徴量を表現する特徴量ベクトルに対する尤度を成分とする尤度ベクトルを生成し、尤度ベクトルの各成分を２つの成分群に分類し、各成分群に属する成分に基づいて第１特徴区間（候補区間）および第２特徴区間の終了時刻を算出する例について説明したが、これに限定されるものではない。

例えば、興味区間抽出装置１０４が、動画ファイルに含まれるオーディオ信号から生成された特徴量ベクトルと複数種類のサウンド素片のアンカーモデルを表現するベクトルそれぞれとの類似度を成分とする類似度ベクトルの変化量に基づいて興味区間を抽出するものであってもよい。

（２）前述の実施の形態では、音声データ蓄積装置１３０が複数のＡＶコンテンツに対応する音声データを蓄積するとして説明したが、このＡＶコンテンツの数や種類には特に制限はない。

（３）前述の実施の形態では、指定時刻Ｔ０から時間を遡りながら特徴点Ｔｋを抽出する例について説明したが、これに限定されるものではない。例えば、指定時刻Ｔ０から時間を進ませながら特徴点Ｔｋを抽出するものであってもよい。この特徴点Ｔｋは、第２特徴区間の開始時刻に相当することになる。この場合、第１特徴区間のうち指定時刻Ｔ０よりも後の区間を興味区間として抽出することになる。

（４）前述の実施の形態では、第２特徴区間の終了時刻である特徴点Ｔｋだけを抽出する例について説明したが、これに限定されるものではない。例えば、第２特徴区間の開始時刻および終了時刻の両方を抽出するようにしてもよい。

本変形例によれば、突発的な音環境の継続時間の長さが大きく変化しても、第２特徴区間を含む興味区間をより確実に抽出することかできる。

（５）前述の実施の形態では、指定時刻取得部２１０が、ユーザがインターフェース装置１０９を用いて入力した指定時刻Ｔ０を取得する例について説明したが、これに限定されるものではない。例えば、指定時刻取得部２１０が、動画ファイルに含まれる複数の画複データそれぞれの特徴量の時間変化に基づいて、自動的に指定時刻Ｔ０を取得するものであってもよい。

ここにおいて、指定時刻取得部２１０は、動画ファイルに含まれる複数の画像データそれぞれについて一般的なクラスタリング手法により複数のシフト特徴量を算出し、各画像データ間における所定のシフト特徴量の差分から指定時刻Ｔ０を算出するようにすればよい。例えば、複数の画像データそれぞれの背景画像を表すシフト特徴量に着目し、時間軸上で隣接する２つの画像データ間の当該シフト特徴量の差分が大きく変化するところを自動的に指定時刻Ｔ０とすることが考えられる。

さらに、前述の実施の形態では、指定時刻が、ユーザが指定した１つの時刻で与えられる例について説明したが、これに限定されるものではなく、例えば、ユーザが指定した２つの時刻で定まる区間で与えられるようにしてもよい。この区間を定める２つの時刻としては、例えば、ユーザが大まかに指定した興味区間の開始時刻および終了時刻等が挙げられる。

この場合、与えられた２つの時刻の情報を基準ベクトル・閾値生成部２０４に渡し、基準ベクトルおよび閾値をこの２つの時刻の間の第２単位区間に基づいて生成するようにすればよい。なお、２つの時刻が与えられた場合でも、これらの２つの時刻の情報を基準ベクトル・閾値生成部２０４に渡すのではなく、２つの時刻のいわゆる中点時刻を指定時刻Ｔ０として特徴点抽出部２０８に渡すようにしてもよい。

さらに、指定時刻取得部２１０は、ユーザ入力により指定時刻を取得する他、自動で指定時刻を取得するようにしてもよい。この場合、例えば、頻度ベクトル生成部２０６で生成された低頻度ベクトルを利用し、当該低頻度ベクトルを示すデータの先頭から、低頻度ベクトルの前時刻と現時刻との間のユークリッド距離を計算し、予め設定した閾値を越える時刻を自動的に指定時刻Ｔ０として判定するように構成してもよい。

（６）前述の実施の形態１では、音声データ蓄積装置１３０に予め蓄積されている音声データから自動的に複数種類のサウンド素片それぞれのアンカーモデルＡｒを作成する（いわゆる教師無しでアンカーモデルを作成する）例について説明したが、これに限定されるものではない。例えば、サウンド素片の種類が少数（例えば、数十種類）に限定されている場合には、音声データ蓄積装置１３０に蓄積されている音声データについて、ユーザが各サウンド素片それぞれに対応する音声データを選択し、それぞれに種別ラベルを付与し、種別ラベルが同一な音声データから対応するサウンド素片のアンカーモデルを作成する（いわゆる教師ありでアンカーモデルＡｒを作成する）ものであってもよい。

（７）実施形態１で示した興味区間抽出処理を興味区間抽出装置のプロセッサおよびそのプロセッサに接続された各種回路に実行させるためのプログラムコードからなるプログラムを、記録媒体に記録すること又は各種通信路等を介して流通させ頒布することもできる。このような記録媒体には、ＩＣカード、ハードディスク、光ディスク、フレキシブルディスク、ＲＯＭなどがある。流通、頒布された制御プログラムはプロセッサに読み出されうるメモリなどに格納されることにより利用に供され、そのプロセッサがその制御プログラムを実行することにより各実施形態で示したような機能が実現されるようになる。なお、制御プログラムの一部を画像管理装置とは別個のプログラム実行可能な装置（プロセッサ）に各種ネットワークを介して送信して、その別個のプログラム実行可能な装置においてその制御プログラムの一部を実行させることとしてもよい。

（８）実施の形態で示した興味区間抽出装置を構成する構成要素の一部又は全部は、１又は複数の集積回路（ＩＣ、ＬＳＩなど）として実装されることとしても良く、画像管理装置の構成要素に更に他の要素を加えて集積回路化（１チップ化）されることとしてもよい。

ここでは、ＬＳＩとしたが、集積度の違いにより、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。また、集積回路化の手法はＬＳＩに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、ＬＳＩ内部の回路セルの接続または設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。さらには、半導体技術の進歩又は派生する別技術によりＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適応等が可能性としてありえる。

本発明にかかる興味区間抽出装置および興味区間抽出方法は、音声、家の中の音、外出時の音などを含むＡＶコンテンツのオーディオ信号からユーザが興味の対象とする興味区間を抽出することにより、ＡＶコンテンツの編集を行う技術として有用である。

１０２音声抽出装置
１０３コンテンツ記憶装置
１０４興味区間抽出装置
１０５興味区間記憶装置
１０６興味区間抽出部
１０７アンカーモデル蓄積部
１０８アンカーモデル作成装置
１０９インターフェース装置
１３０音声データ蓄積装置
２０１，３０１特徴量ベクトル生成部
２０２尤度ベクトル生成部
２０２ｂ頻度ベクトル生成部
２０３ｃ成分分類部
２０４特徴点抽出部
２０５興味区間抽出部
３０２特徴量ベクトル分類部
３０３アンカーモデル生成部

Claims

動画ファイルに含まれるオーディオ信号に基づいて、指定時刻を含むユーザの興味区間を抽出する興味区間抽出装置であって、
基準となる複数種類のサウンド素片それぞれの特徴を表現するアンカーモデルを予め蓄積しているアンカーモデル蓄積手段と、
前記指定時刻を取得する指定時刻取得手段と、
オーディオ信号の単位区間毎に、前記オーディオ信号の特徴量を表現する特徴量ベクトルに対する尤度を前記アンカーモデルを用いて求め、各尤度を成分とする尤度ベクトルを生成する尤度ベクトル生成手段と、
前記尤度ベクトルに基づいて興味区間の候補となる候補区間を算出し、前記指定時刻を含む前記候補区間の全部または一部を興味区間として抽出する興味区間抽出手段とを備える
ことを特徴とする興味区間抽出装置。
前記単位区間を第１単位区間として、当該第１単位区間のＮ倍（Ｎは２以上の自然数）の長さの第２単位区間のオーディオ信号から生成されたＮ個の尤度ベクトルから頻度ベクトルを生成する頻度ベクトル生成手段を備え、
前記候補区間は、前記頻度ベクトルに基づいて算出される
ことを特徴とする請求項１記載の興味区間抽出装置。
前記頻度ベクトルの各成分を複数の成分群に分類する成分分類手段と、
複数の前記成分群それぞれに基づいて複数の特徴区間を算出する特徴区間算出手段とを備え、
前記候補区間は、複数の前記特徴区間により定まる
ことを特徴とする請求項２記載の興味区間抽出装置。
前記成分分類手段は、オーディオ信号の全区間の尤度ベクトルから重心ベクトルを生成し当該重心ベクトルの各成分の大きさに基づいて、前記頻度ベクトルの各成分を第１成分群と第２成分群とに分類し、
前記特徴区間算出手段は、前記重心ベクトルにおける前記第１成分群に属する各成分に基づいて第１特徴区間を算出し、前記重心ベクトルにおける前記第２成分群に属する各成分に基づいて第２特徴区間を算出し、
前記候補区間は、前記第１特徴区間および前記第２特徴区間により定まる
ことを特徴とする請求項３記載の興味区間抽出装置。
前記興味区間は、前記第１特徴区間に含まれ且つ前記第２特徴区間を包含する区間である
ことを特徴とする請求項４記載の興味区間抽出装置。
ユーザが予め設定した興味区間の長さを取得する興味区間長取得手段と、
前記指定時刻から前記第２単位区間ずつ時刻をずらしながら前記第２特徴区間に含まれる特徴時刻を検索して抽出する特徴時刻抽出手段を備え、
前記興味区間抽出手段は、前記指定時刻から前記特徴時刻抽出手段が抽出した前記特徴時刻に向かって前記第２単位区間ずつ時刻をずらしながら、対象時刻が前記第１特徴区間に属し且つ当該対象時刻と前記指定時刻との間の長さが予め設定された興味区間の長さよりも短いか否かを判断し、対象時刻が前記第１特徴区間に属し且つ当該対象時刻と前記指定時刻との間の長さが予め設定された興味区間の長さよりも短いと判断すると前記対象時刻を含む第２単位区間を興味区間とする
ことを特徴とする請求項５記載の興味区間抽出装置。
前記動画ファイルは、１つのコンテンツを表す動画に対応する
ことを特徴とする請求項６記載の興味区間抽出装置。
前記興味区間抽出手段は、複数の前記指定時刻に対応する複数の前記興味区間を前記指定時刻の順に整列して外部記憶装置に記憶する
ことを特徴とする請求項７記載の興味区間抽出装置。
前記指定時刻取得手段は、動画ファイルに含まれ且つユーザの指定した区間に対応する画像データそれぞれの特徴量の時間変化に基づいて、当該ユーザの指定した区間の中から自動的に前記指定時刻を取得する
ことを特徴とする請求項８記載の興味区間抽出装置。
動画ファイルに含まれるオーディオ信号に基づいて、指定時刻を含むユーザの興味区間を抽出する興味区間抽出方法であって、
基準となる複数種類のサウンド素片それぞれの特徴を表現するアンカーモデルを蓄積するアンカーモデル蓄積ステップと、
前記指定時刻を取得する指定時刻取得ステップと、
オーディオ信号の単位区間毎に、前記オーディオ信号の特徴量を表現する特徴量ベクトルに対する尤度を前記アンカーモデルを用いて求め、各尤度を成分とする尤度ベクトルを生成する尤度ベクトル生成ステップと、
前記尤度ベクトルに基づいて興味区間の候補となる候補区間を算出し、前記指定時刻を含む前記候補区間の全部または一部を興味区間として抽出する興味区間抽出ステップとを含む
ことを特徴とする興味区間抽出方法。
コンピュータにより動画ファイルに含まれるオーディオ信号に基づいて、指定時刻を含むユーザの興味区間を抽出する興味区間抽出処理を実現させるためのプログラムであって、前記興味区間抽出処理は、
基準となる複数種類のサウンド素片それぞれの特徴を表現するアンカーモデルを蓄積するアンカーモデル蓄積ステップと、
前記指定時刻を取得する指定時刻取得ステップと、
オーディオ信号の単位区間毎に、前記オーディオ信号の特徴量を表現する特徴量ベクトルに対する尤度を前記アンカーモデルを用いて求め、各尤度を成分とする尤度ベクトルを生成する尤度ベクトル生成ステップと、
前記尤度ベクトルに基づいて興味区間の候補となる候補区間を算出し、前記指定時刻を含む前記候補区間の全部または一部を興味区間として抽出する興味区間抽出ステップとを含む
ことを特徴とする興味区間抽出プログラム。
動画ファイルに含まれるオーディオ信号に基づいて、指定時刻を含むユーザの興味区間を抽出する興味区間抽出用集積回路であって、
基準となる複数種類のサウンド素片それぞれの特徴を表現するアンカーモデルを予め蓄積しているアンカーモデル蓄積部と、
前記指定時刻を取得する指定時刻取得部と、
オーディオ信号の単位区間毎に、前記オーディオ信号の特徴量を表現する特徴量ベクトルに対する尤度を前記アンカーモデルを用いて求め、各尤度を成分とする尤度ベクトルを生成する尤度ベクトル生成部と、
前記尤度ベクトルに基づいて興味区間の候補となる候補区間を算出し、前記指定時刻を含む前記候補区間の全部または一部を興味区間として抽出する興味区間抽出部とを備える
ことを特徴とする興味区間抽出用集積回路。