JP5723446B2 - 興味区間特定装置、興味区間特定方法、興味区間特定プログラム、及び、興味区間特定集積回路 - Google Patents

興味区間特定装置、興味区間特定方法、興味区間特定プログラム、及び、興味区間特定集積回路 Download PDF

Info

Publication number
JP5723446B2
JP5723446B2 JP2013517829A JP2013517829A JP5723446B2 JP 5723446 B2 JP5723446 B2 JP 5723446B2 JP 2013517829 A JP2013517829 A JP 2013517829A JP 2013517829 A JP2013517829 A JP 2013517829A JP 5723446 B2 JP5723446 B2 JP 5723446B2
Authority
JP
Japan
Prior art keywords
section
interest
unit
candidate
interested
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013517829A
Other languages
English (en)
Other versions
JPWO2012164818A1 (ja
Inventor
小沼 知浩
知浩 小沼
亮一 川西
亮一 川西
朋幸 苅部
朋幸 苅部
上野山 努
上野山  努
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Panasonic Intellectual Property Corp of America
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Corp of America filed Critical Panasonic Intellectual Property Corp of America
Priority to JP2013517829A priority Critical patent/JP5723446B2/ja
Publication of JPWO2012164818A1 publication Critical patent/JPWO2012164818A1/ja
Application granted granted Critical
Publication of JP5723446B2 publication Critical patent/JP5723446B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Description

本発明は、AVコンテンツからユーザの興味の対象となる興味区間を、AVコンテンツのオーディオ信号を用いて抽出する技術に関する。
デジタルカメラ等の動画撮影機器において、ユーザが撮影したAVコンテンツから、ユーザが興味を示す区間(以下、興味区間と称す。)を抽出することができる機能が求められている。
これに対して、従来から、ユーザがAVコンテンツの内容を視聴しながら、コントローラを操作(例えば、コントローラの入力釦を押下する操作)して興味区間の開始時刻を決め、その後、再度コントローラを操作して興味区間の終了時刻を決めることにより、興味区間を抽出することができる動画編集機器や動画撮影機器がある。動画編集機器による映像編集の一具体例としては、例えば、PCと動画編集ソフトを用いた編集がある。
ところが、この動画撮影機器では、適切な興味区間を抽出しようとすると、AVコンテンツの内容を視聴しながらタイミング良くコントローラを操作する必要があり、AVコンテンツの内容を視聴しながらタイミング良くコントローラを操作する作業にある程度の熟練が必要となる。そして、興味区間の開始時刻と終了時刻を適切に決めることができない場合には、再度、AVコンテンツの内容を視聴しながらコントローラを操作する作業を繰り返すこととなり、興味区間の抽出に手間がかかることが多かった。
そこで、従来、ユーザが指定した時刻に対して、ユーザが予めコンテンツの内容に応じて設定したオフセット時間を加えた時刻をイン点及びアウト点とする機能を備えた動画編集装置が提案されている(特許文献1参照)。この動画編集装置であれば、例えば、イン点の時刻をユーザが指定した時刻よりもオフセット時間だけ繰り上げるように設定しておけば、ユーザがイン点を指定するタイミングが遅れてしまっても、所望のイン点を興味区間に含めることができ、より適切に興味区間を抽出することができる。
また、従来から、予め興味区間の開始時刻(イン点)における音響特徴条件と終了時刻(アウト点)における音響特徴条件とを設定しておき、これらの音響特徴条件からイン点とアウト点とを決定することにより興味区間を抽出する技術が提案されている(特許文献2参照)。
また、動画再生の再生時刻を示すバーに併せて音の波形を表示し、動画像と共に視聴可能とすることにより、音の振幅の外形情報を基にした始点及び終点の切り出しを支援する技術が提案されている(特許文献3参照)。
その他にも、放送コンテンツやCM素材における映像の音の頭だしを簡単にする方法として、音響、特に音声の始終点を振幅パワーの外形(包絡線)が設定した閾値を上回るか否かにより検出する技術が提案されている(特許文献4参照)。
特開2001−057660号公報 特開平3−080782号公報 特開2005−260391号公報 特許第3753384号公報
しかしながら、上記特許文献1〜4に記載された手法とは異なる手法を用いて、精度良く興味区間を特定できる手法が求められている。
本発明は、上記事由に鑑みてなされたものであり、精度良く興味区間を特定することを目的とする。
上記課題を解決するため、本発明に係る興味区間特定装置は、動画ファイルに含まれるオーディオ信号に基づいて、前記動画ファイル中でユーザが興味を示すと推測されるユーザの興味区間を特定する興味区間特定装置であって、前記動画ファイル中で、前記興味区間の候補となる興味区間候補を抽出する興味区間候補抽出手段と、前記興味区間候補に特定の微細構造が含まれるか否かを判定する微細構造判定手段と、前記微細構造判定手段により、前記微細構造が含まれると判定された場合に前記微細構造を含み前記興味区間候補よりも短い特定区間を解析して、興味区間を特定する興味区間特定手段とを備えることを特徴としている。
本構成によれば、興味区間特定装置は、精度良く興味区間を特定することができる。
興味区間抽出装置を搭載した映像装置の概要を示す図 特徴量ベクトルの算出方法を示す図 特徴量ベクトルの一例を示す図 アンカーモデルの一例を示す図 尤度ベクトルの一例を示す図 興味区間抽出装置を搭載した映像装置の機能構成例を示すブロック図 興味区間抽出装置の機能構成例を示すブロック図 第1単位区間と第2単位区間との関係を示す図 頻度ベクトルの一例を示す図 基準ベクトルを生成するときの動作説明図 閾値を算出するときの動作説明図 基準ベクトルを説明するための図 興味区間を抽出する際の動作説明図 アンカーモデル作成装置の機能構成例を示すブロック図 微細構造判定及び階層拡張についての概念図 興味区間抽出装置の興味区間抽出動作を示すフローチャート 興味区間特定装置の一構成例を示すブロック図 興味区間特定装置の一構成例を示すブロック図
<本発明に至った経緯>
上述の特許文献1〜4について、発明者らは、以下の問題を抱えていることを知見した。
即ち、特許文献1に記載された方法では、適切なオフセット時間の設定が必要となる。また、オフセット時間はAVコンテンツの種別によって、その長さが異なる。このため、例えば、複数のAVコンテンツそれぞれから興味区間を抽出して複数のAVコンテンツについてのダイジェストを作成したい場合には、AVコンテンツ毎にオフセット時間を設定してから興味区間を抽出する必要がある。ユーザからみれば、複数のAVコンテンツそれぞれについての適切なオフセット時間を考慮し、その設定を行うことは非常に煩雑なものがある。
また、特許文献2に記載された方法では、AVコンテンツの内容に応じてイン点とアウト点における音響特徴条件を設定する必要があるので、複数のAVコンテンツから興味区間を抽出したい場合には、AVコンテンツそれぞれについてイン点及びアウト点における音響特徴条件を設定する必要がある。従って、興味区間の抽出対象となるAVコンテンツの数が多くなれば、この設定作業がユーザにとって大きな負担となる。
また、特許文献3に記載された方法では、目視による音波の形状に基づく音声の始点及び終点の位置の確認となり、無声子音などパワーをほとんど持たない音韻が語頭に来た場合は、無声子音が音波の形状に表れにくいため、始終点の決定は困難となる。また、高いノイズ環境下では始終点がノイズに隠されてしまい、特定することが困難になる。
また、特許文献4に記載された方法では、無声子音などパワーをほとんど持たない音声は、振幅のパワーの閾値による判定は困難である。また、音声を基準にした振幅のパワーの閾値設定では、音声以外の音(例えば環境音)の振幅パワーの動きを判定することは困難である。
そこで、動画区間において、ユーザが撮影したホームビデオの中から冗長な部分を除き、ユーザが興味を持ってみられる興味区間を抽出する手法としていくつかの手法が策定されている。
そこで、動画区間において、ユーザが撮影したホームビデオの中から冗長な部分を除き、ユーザが興味を持ってみられる興味区間を抽出する手法としていくつかの手法が策定されている。
その一手法として、ユーザが動画を鑑賞し、ユーザが興味を覚えた時点で、その時点を特定するための入力を行い、入力された時点の音の情報を取得し、入力した時点を含み、その前後に取得した音の情報と似通った音を有する区間を抽出する装置がある。
このとき、取得した音の情報は、ユーザが興味を覚えた時点の前後の一定区間の音の特徴も含まれている。
そして、一定区間の前後の所定期間について、当該所定期間の音の特徴と、取得している音の情報で示される特徴とが、一定以上似通っている場合に興味区間を伸長する。そして、次の所定期間についても同様の判定を行っていき、一定以上似通っていないと判定された時点での興味区間を抽出する。
このような手法によって、ユーザからの少ない入力で、興味区間を抽出することができる。
しかし、この手法は、必ずしも正確に興味区間を抽出できるわけではないことに発明者らは気づいた。というのも、この手法をとる場合、興味区間を所定期間の単位で伸長していくため、その興味区間の特徴と、伸長しようとしている所定期間の中で、半分未満しか、似通った音の特徴がなかった場合には、その所定期間は興味区間に含まれないことになる。その場合、例えば、会話が途切れた、あるいは、会話が唐突に始まったような興味区間が抽出されてしまうことになる。
特に、無声音が特定した興味区間の始端あるいは終端部分にある場合には、無声音の音が発せられているのにもかかわらず、音の特徴として検出しにくいために、本来ならば興味区間に入って欲しい部分が入らないことがあった。
そして、そのような興味区間が抽出された場合には、その興味区間を視聴したユーザは違和感を覚えることとなる。
このような問題を解決するために、伸長する所定期間を短くして、伸長していくことも考えられるが、所定期間を短くすると、所定期間から取得できる音の特徴に幅がないため、興味期間として伸長されにくくなってしまい、ある程度の長さの興味区間を抽出しにくくなるという問題や、伸長のための処理がかなり多くなってしまう可能性があるという問題があることに発明者らは気付いた。
そこで、発明者らは、このような問題を解決すべく、ある程度の所定期間ごとに興味区間を伸長していくとともに、そのような無声音があっても、興味区間に含められるよう、特に、興味区間の始端や終端を子細に解析することで、解決できることを知見した。これにより、本来興味区間に含まれるべき所定期間が含まれない事態を避けるとともに、あるいは興味区間が冗長になることを防ぐことができる。

以下、本発明に係る興味区間特定装置の一実施形態である興味区間抽出装置について図面を用いて説明する。
<実施の形態>
<1>概要
まず、興味区間抽出の概要を説明する。
本実施の形態に係る興味区間抽出装置は、動画ファイルに含まれるオーディオ信号の第1単位区間(10msec)毎に複数種類のアンカーモデルArそれぞれを用いてオーディオ信号の特徴量を表現する特徴量ベクトルに対する尤度を成分とする尤度ベクトルを生成する。そして、興味区間抽出装置は、第1単位区間よりも長い第2単位区間(1s)毎の頻度ベクトル(第2単位区間頻度ベクトル)を、第2単位区間に含まれる尤度ベクトルを用いて算出する。頻度ベクトルは、第2単位区間の音の特徴を表すベクトルとなる。興味区間抽出装置は、ユーザにより指定された指定時刻を含む第2単位区間とその前方及び後方にある第2単位区間が似ているかをそれぞれの頻度ベクトルが似ているか否かを繰り返し判定していくことにより、興味区間の候補となる興味区間候補を抽出する。このとき、興味区間抽出装置は、興味区間候補に含まれる微細な時間構造(微細構造ともいう)を自動で判別し、その必要な部分(主として興味区間候補の始点付近と終点付近)だけを解析することで、興味区間を精密に抽出する。
ここで、微細な時間構造とは、所定期間内に、互いに異なる性質の音が含まれる構造のことである。別の言い方をすれば、各第2単位区間の中で、互いに所定以上距離が離れた尤度ベクトルが少なくとも2つ存在する構造のことである。互いに異なる性質の音が含まれるということは、その所定期間に音の変わり目がある可能性が高くなるためである。
例えば、図1に示すように、動画ファイルが、運動会のシーンを撮影したものとする。そして、ユーザが、この動画ファイルの中から徒競走のスタート時刻前後からの所定の長さの時間内のシーンだけを切り出す編集をしたいとする。
この場合、ユーザは徒競争のシーンの中におけるスタート時刻付近の時刻を指定すると、興味区間抽出装置は、指定時刻を含む一部の区間を興味区間候補として抽出する。
また、本実施の形態に係る興味区間抽出装置では、興味区間として抽出しようとする区間の始点部分に発声の開始時刻等の微細な時間構造が含まれていた場合(図1の始点付近の音声)、その必要な部分だけの下部構造を解析し、特徴区間を精密に抽出する(図1の始点付近の音声の拡大部分の音声の始点部分参照)ことができる。なお、本実施の形態では、第1単位区間の100倍の第2単位区間(1sec)を標準単位として興味区間を抽出する。第2単位区間で興味区間と抽出し、その標準単位の時間の中に微細構造が含まれていると判定された場合には、その部分でのみ第1単位区間の10倍の長さの第3単位区間(100ms)を下部構造として解析する単位として、下部構造を解析し、始点あるいは終端を精密に決定する処理を行う。つまり、興味区間抽出装置は、第2単位区間で大まかな興味区間の候補を抽出した後に、より細かい第3単位区間で興味区間を厳密に定める。
なお、本明細書においては、音全般を指す場合には、音と記載し、人の声を指す場合には、音声と記載する。
<2>データ
では、本実施の形態に係る興味区間抽出装置で使用する各種データについて説明する。
<2−1>動画ファイル
動画ファイルは、オーディオ信号と時間軸方向で連続する複数の画像データとから構成される。ここで、オーディオ信号は、デジタル信号(あるいは、アナログ信号からデジタル信号に変換されたもの)として、音の振幅値を記録した時系列データであり、この振幅値を時間軸に沿って値を並べれば、例えば、図2(a)に示すような波形で表現することができる。
<2−2>特徴量ベクトル
特徴量ベクトルは単位時間分のオーディオ信号をメル周波数ケプストラム系列のベクトルに変換したものである。
具体的に説明すると、オーディオ信号が図2(a)に示すような波形で表されたとする。本実施の形態では、オーディオ信号中の第1単位区間毎に特徴量ベクトルが算出される。ここで、第1単位区間は図2(a)における時刻TnからTn+1までの区間のことであり、具体的には一例として10msecであるとする。
特徴量ベクトルを算出するにあたり、まず、この第1単位区間のオーディオ信号をパワースペクトラムS(ω)に変換する(図2(b)参照)。パワースペクトラムは、所定単位区間(ここでは第1単位区間)の振幅値(パワー)を周波数成分に変換したものをいう。図2(b)に示されるパワースペクトラムS(ω)の横軸は実周波数である。
そして、パワースペクトラムS(ω)の横軸を実周波数ωからメル周波数に変換する(図2(c)参照)。
横軸がメル周波数に変換されたパワースペクトラムから、26個のメル周波数ケプストラム係数MFCC(Mel-Frequency Cepstrum Coefficients)からなるベクトルである特徴量ベクトルを算出する。
上述の通り特徴量ベクトルMは、第1単位区間毎(10msec毎)に算出されるので、図3に示すように、時刻0secから時刻1secまでの間では、都合100個の特徴量ベクトルが算出されることになる。なお、図3において、M(1)〜M(26)は26次のメル周波数ケプストラム係数を示している。
<2−3>アンカーモデル
本実施の形態に係るアンカーモデルは、尤度を算出する際に基準となる1024種類のサウンド素片それぞれの特徴を表現するものである。アンカーモデルは、サウンド素片ごとに作成され、各アンカーモデルは、複数のパラメータから構成される。
本実施の形態では、GMM(Gaussian Mixture Model)を採用して、アンカーモデルAr(r=1〜1024)を作成する。
アンカーモデルについて図4を用いて説明する。図4に示すように、アンカーモデルは、1024種類のサウンド素片それぞれに対応する特徴量出現確率関数bAr(M)により表される。特徴量出現確率関数bAr(M)とは、各アンカーモデルArが存在する確率を示す確率関数である。特徴量出現確率関数bAr(M)を用いることで、MFCCの26次のベクトル(特徴量ベクトル)Mを引数として尤度が算出される。なお、図4では、どのアンカーモデルがどのサウンド素片に対応するかを明示していない。
<2−4>尤度ベクトル
尤度ベクトルFは、複数のサウンド素片それぞれに対応するアンカーモデルAr(r=1〜1024)を用いて、オーディオ信号の特徴量を表現する特徴量ベクトルMに対して算出された尤度Lrを成分とする。従って、尤度ベクトルFは、1024次元のベクトルで表現される。なお、特徴量ベクトルMは、上記<2−3>項で説明したように、音抽出装置102が抽出したオーディオ信号の第1単位区間毎に生成される。
図5に尤度ベクトルの例を示す。図5は、1024種類のサウンド素片それぞれのアンカーモデルArを用いて算出された尤度ベクトルFm及びFnを示している。図5の右側が尤度ベクトルFmであり、左側が尤度ベクトルFnである。図5においては、縦軸にオーディオ信号のアンカーモデルに対する尤度を示し、横軸がアンカーモデルArの種類を示している。尤度ベクトルFnは、時刻0(基準時刻)からn番目の第1単位区間(即ち、時刻(10×(n−1))msecから時刻(10×n)msecの区間)に対応する尤度ベクトルである(例えば、図2(a)参照)。同様に、尤度ベクトルFmは、時刻0(基準時刻)からm番目の第1単位区間(即ち、時刻(10×(m−1))msecから時刻(10×m)msecの区間)に対応する尤度ベクトルである。
尤度ベクトルFは、図5の尤度ベクトルFm及びFnの差異に示されるように、対象とするオーディオ信号の時間変化に応じて変化する。なお、オーディオ信号に変化がない場合には、時間が変化しても尤度ベクトルは変化しない。
<3>構成
以下、本実施の形態に係る興味区間抽出装置104を搭載した映像編集装置100の機能構成について説明する。
<3−1>全体構成
図6は、映像編集装置100の機能構成例を示すブロック図である。図6に示すように、映像編集装置100は、入力装置101と、音抽出装置102と、コンテンツ記憶装置103と、興味区間抽出装置104と、興味区間記憶装置105と、出力装置106と、アンカーモデル作成装置108と、インターフェース装置109と、音データ記憶装置130とを備える。
入力装置101は、ディスクドライブ装置等で構成され、記録媒体110が装着されると、記録媒体110から動画ファイルを読み込んで、コンテンツ記憶装置103に格納する機能を有する。なお、記録媒体110は、各種データを記憶する機能を有する媒体であり、例えば、光ディスクや、フレキシブルディスク、SDカード、フラッシュメモリなどである。
音抽出装置102は、コンテンツ記憶装置103に格納されている動画ファイルを取得し、取得した動画ファイルからオーディオ信号を抽出し、オーディオ信号を興味区間抽出装置104に入力する機能を有する。なお、音抽出装置102は、符号化されているオーディオ信号に対して復号化処理を行って、図2(a)に示すオーディオ信号を生成する。
コンテンツ記憶装置103は、ハードディスク装置等で構成され、入力装置110から取得した動画ファイルを記憶する機能を有する。
興味区間抽出装置104は、インターフェース装置109から取得した指定時刻と、音抽出装置102から入力されたオーディオ信号に基づきコンテンツ記憶装置103に格納されている動画ファイルから興味区間を抽出し、抽出した興味区間を示す興味区間データを興味区間記憶装置105に格納する機能を有する。興味区間抽出装置104の詳細については後述する。
興味区間記憶装置105は、ハードディスク装置等で構成され、興味区間抽出装置104から取得した興味区間データを記憶する機能を有する。興味区間データは、コンテンツ記憶装置103に格納されている動画ファイルを特定する情報(動画ファイルのID)と、動画ファイルの再生時間軸における時間(時間帯)を示す情報とからなる。
音データ記憶装置130は、ハードディスク装置等で構成され、アンカーモデル作成装置108が複数種類のサウンド素片それぞれの特徴を表現するアンカーモデルArを作成する際に用いる音データを記憶する機能を有する。当該音データは、興味区間を抽出する対象となる動画ファイルとは別に複数の動画ファイルから抽出して復号処理を行って得られたオーディオ信号からなる。なお、音データは、興味区間を抽出する対象となる動画ファイルのオーディオ信号を含んでもよい。
出力装置106は、表示装置120に映像データを出力して映像を表示させる機能を有する。また、出力装置106は、興味区間記憶装置105から興味区間データを取得し、取得した興味区間データに基づいてコンテンツ記憶装置103から動画コンテンツの一部を構成する複数の画像データを選出し、選出した複数の画像データをつなぎ合わせたダイジェスト動画を表示装置120に表示させる機能も有する。なお、表示装置120は、映像を表示する機能を有するディスプレイであり、映像編集装置100に付属のディスプレイであってもよいし、外部のディスプレイであってもよい。
アンカーモデル作成装置108は、音データ記憶装置130に記憶されている音データからアンカーモデルArを作成する機能を有する。また、アンカーモデル作成装置108は、作成したアンカーモデルArを興味区間抽出装置104に出力する機能を有する。アンカーモデル作成装置108の詳細については後述する。
インターフェース装置109は、キーボード等の操作部(図示せず)を備え、ユーザからの入力操作を受け付けて、入力された情報を映像編集装置100の各部に伝達する機能を有する。本実施の形態においては、インターフェース装置109は、ユーザから受け付けた指定時刻の情報や、興味区間の長さに関する情報を興味区間抽出装置104に通知し、作成すべきアンカーモデルの個数をアンカーモデル作成装置108に通知する。
<3−2>興味区間抽出装置104
ここから興味区間抽出装置104の詳細について説明する。興味区間抽出装置104は、プロセッサ(図示せず)とメモリ(図示せず)とから構成され、プロセッサがメモリに読み込まれたプログラムを実行することにより、図7に示す各構成を実現している。
図7は、興味区間抽出装置104の機能構成例を示すブロック図である。図7に示すように興味区間抽出装置104は、特徴量ベクトル生成部201と、尤度ベクトル生成部202と、アンカーモデル蓄積部203と、尤度ベクトルバッファ204と、頻度ベクトル・分散生成部205と、頻度ベクトルバッファ206と、興味区間候補抽出部207と、区間伸長基準指標計算部208と、指定時刻取得部209と、微細構造判定部210と、階層拡張部211とを備える。以下、各構成について説明する。
<3−2−1>特徴量ベクトル生成部201
特徴量ベクトル生成部201は、入力されたオーディオ信号から特徴量ベクトルを生成する機能を有する。特徴量ベクトル生成部201は、上記<2−2>に示したように、音抽出装置102から入力されるオーディオ信号に対して、第1単位区間毎に音響分析を行い、パワースペクトラムS(ω)を算出する。そして、特徴量ベクトル生成部201は、算出したパワースペクトラムS(ω)から特徴量ベクトルM(M(1)、M(2)、・・・、M(25)、M(26))を生成する。特徴量ベクトル生成部201は、図3に示すように、1秒につき、100個の特徴量ベクトルを生成する。
<3−2−2>アンカーモデル蓄積部203
アンカーモデル蓄積部203は、ハードディスク装置等により実現され、アンカーモデル作成装置108により作成されたアンカーモデルArを記憶する機能を有する。当該アンカーモデルArは、興味区間抽出処理の実行前には、アンカーモデル蓄積部203に記憶されているものとする。
<3−2−3>尤度ベクトル生成部202
尤度ベクトル生成部202は、アンカーモデル蓄積部203に蓄積されている各サウンド素片のアンカーモデルArを用いて特徴量ベクトルMに対する尤度Lrを算出し、算出した尤度Lrを各成分とする尤度ベクトルFを生成する機能を有する。そして、尤度ベクトル生成部202は、生成した尤度ベクトルFを尤度ベクトルバッファ204に格納する機能も有する。
<3−2−4>尤度ベクトルバッファ204
尤度ベクトルバッファ204は、メモリの一部の領域により構成され、尤度ベクトル生成部202が生成した尤度ベクトルFを記憶する機能を有する。
<3−2−5>頻度ベクトル・分散生成部205
頻度ベクトル・分散生成部205は、オーディオ信号の第2単位区間毎(1sec毎)に頻度ベクトルNFを生成する機能を有する。図8に示すように、第2単位区間は複数個(本実施の形態においては、上述の通り100個)の連続する第1単位区間の集合に相当する。頻度ベクトルNFは、第2単位区間に含まれる尤度ベクトルの正規化累積尤度に相当する。具体的には、頻度ベクトル・分散生成部205は、第2単位区間に含まれる全ての尤度ベクトルの各成分について、成分毎に、その成分の値を累積(加算)する。そして、累積して得られた各成分を正規化して、頻度ベクトルを算出する。なお、ここで正規化とは、頻度ベクトルのノルムを1にすることである。図9は、頻度ベクトルNFの一例を示す模式図である。
頻度ベクトル・分散生成部205は、興味区間候補抽出部207からの指示に従い、頻度ベクトルNFの生成を開始/終了する。
また、頻度ベクトル・分散生成部205は第2単位区間で行ったのと同様の手順により、第3単位区間(100msec)を単位として計算した第3単位区間頻度ベクトルを算出し、得られる10個の第3単位区間頻度ベクトルを用いて、各第2単位区間における分散を計算する。
なお、分散σは、以下の数式(1)により算出される。
Figure 0005723446
上式において、nは、第3単位区間頻度ベクトルの個数であり、ここでは、10となる。また、Xiは、各第3単位区間頻度ベクトルである。そして、Cは、それらの第3単位区間頻度ベクトルのベクトル重心であり、以下の数式(2)により算出される。
Figure 0005723446
<3−2−6>頻度ベクトルバッファ206
頻度ベクトルバッファ206は、頻度ベクトル・分散生成部205が生成した頻度ベクトルを、算出対象の第2単位区間を示す情報と対応付けて記憶する機能を有する。
<3−2−7>指定時刻取得部209
指定時刻取得部209は、インターフェース装置109から、指定時刻に関する指定時刻情報を取得し、当該指定時刻情報を、区間伸長基準指標計算部208と、興味区間候補抽出部207に伝達する機能を有する。
<3−2−8>区間伸長基準指標計算部208
区間伸長基準指標計算部208は、指定時刻取得手段210から指定時刻情報を受け付けて、指定時刻を含む第2単位区間の時間軸前方又は時間軸後方にある第2単位区間を興味区間候補に含めるか否かを決定するための基準指標となる基準ベクトルNF0及び閾値Rth及び最大分散値σmaxを算出する機能を有する。また、区間伸長基準指標計算部208は、算出した基準ベクトルNF0及び閾値Rth及び最大分散値σmaxを興味区間抽出部207に伝達する機能も有する。
具体的には、区間伸長基準指標計算部208は、頻度ベクトルバッファ206から、指定時刻を含む第2単位区間に対応する頻度ベクトルNFを取得する。また、区間伸長基準指標計算部208は、頻度ベクトルバッファ206から、指定時刻を含む第2単位区間に連なる複数の第2単位区間の頻度ベクトルNFも取得する。図10の例では、指定時刻を含む第2単位区間に連なる複数の第2単位区間を、指定時刻を含む第2単位区間の前後4つの第2単位区間としている。区間伸長基準指標計算部208は、取得した9つの頻度ベクトル(NF1〜NF9)の平均をとることで、基準ベクトルNF0を算出する。つまり、区間伸長基準指標計算部208は、頻度ベクトルを構成する各正規化累積尤度をアンカーモデルごとに合算し、合算した値を使用した頻度ベクトルの個数(9個)で割って得られる値を成分とする基準ベクトルNFを生成する。
区間伸長基準指標計算部208は、更に、基準ベクトルNF0を生成する際に用いた複数の頻度ベクトルNF1〜NF9と基準ベクトルNF0との間のユークリッド距離を算出し、基準ベクトルNF0との間の距離が最も遠い頻度ベクトルNFと基準ベクトルNF0との間のユークリッド距離を興味区間候補に属するか否かの判断に用いる閾値Rthとして算出する。
そして、区間伸長基準指標計算部208は、更に、頻度ベクトル・分散生成部205で計算した基準区間の中の各第2単位区間に対応する分散の値の中で最大のものを最大分散値σmaxとして決定する。
図11は、基準ベクトルNF0及び各頻度ベクトルNF、そして、閾値Rthを頻度ベクトル空間の概念を用いて示した概念図である。図11において、小さな○は、それぞれ、基準ベクトルNF0の算出に用いた頻度ベクトルNF(図10に示す基準区間内の各頻度ベクトルNF1〜NF9に対応)を示している。また、円状になっている斜線部分の中心が基準ベクトルNF0である。この斜線部分内に他の第2単位区間の頻度ベクトルが入るのであれば、その第2単位区間は、興味区間候補に含まれる第2単位区間であることになる。
その後、区間伸張基準指標計算部208は、生成した基準ベクトルNF0、閾値Rth及び最大分散値σmaxを興味区間候補抽出部207に伝達する。
<3−2−9>興味区間候補抽出部207
興味区間候補抽出部207は、頻度ベクトルバッファ206に記憶されている頻度バッファと、指定時刻取得部209から受け付けた指定時刻と、区間伸長基準指標計算部208から受け付けた基準ベクトルNF0及び閾値Rthとに基づき、興味区間の候補となる興味区間候補を抽出する機能を有する。
図12(a)の例では、頻度ベクトルNFと基準ベクトルNF0との間のユークリッド距離が区間伸張基準指標計算部208から入力される閾値Rthを超える時刻T3とT4とのそれぞれ1つ手前(基準区間側)の2つの時刻T1、T2の間の区間が、興味区間候補に相当することになる。図12(a)の例では、時刻T3の頻度ベクトルと時刻T1の頻度ベクトル、あるいは、時刻T4の頻度ベクトルと時刻T2の頻度ベクトルとは明らかに異なるものとなっており、このため、時刻T3、T4の頻度ベクトルの基準ベクトルからのユークリッド距離が閾値Rthを超えることになった例を示している。
頻度ベクトル空間における閾値Rthと、ユークリッド距離との関係を図12(b)に示す。興味区間候補の頻度ベクトルNFは、図12(b)に示す頻度ベクトル空間における基準ベクトルNF0を中心とした半径Rthの球の内側に存在することになる。
興味区間候補抽出部207は、図13に示すように、指定時刻T0から時刻を遡りながら、対象時刻における頻度ベクトルNFと基準ベクトルNF0との間のユークリッド距離を算出し、算出したユークリッド距離が閾値Rthを超えるか否か(つまり、対象時刻を含む第2単位区間が興味区間候補に含まれなくなるか否か)を判定していく。同様に興味区間候補抽出部207は、図13には示していないが、時間軸順方向にも同様の処理を実行し、対象時刻を含む第2単位区間が興味区間候補に含まれるか否かを判定していく。
興味区間候補抽出部207は、算出したユークリッド距離が閾値(Rth)を超えると、頻度ベクトル・分散生成部205に対して頻度ベクトル作成終了指示を通知する。
具体的に説明すると、興味区間候補抽出部207は、現時点での興味区間候補(仮興味区間候補と呼称する)の時間軸方向で1つ前の第2単位区間の頻度ベクトルを取得し、取得した頻度ベクトルNFと、基準ベクトルNF0との間のユークリッド距離が閾値Rthを超えるか否かを判定する。閾値Rth以下である場合には、その第2単位区間を仮興味区間候補に含め、新たな仮興味区間候補の1つ前の第2単位区間が新たな仮興味区間候補に含まれるかの判定を繰り返す。閾値Rthを超える場合には、現在の仮興味区間候補の始点を興味区間候補の始点とする。なお、最初の時点では基準区間が仮興味区間候補となる。
同様に、興味区間候補抽出部207は、仮興味区間候補の時間軸方向で1つ後ろの第2単位区間の頻度ベクトルを取得し、取得した頻度ベクトルNFと、基準ベクトルNF0との間の距離が閾値Rthを超えるか否かを判定する。閾値Rth以下である場合には、その第2単位区間を仮興味区間候補に含め、新たな仮興味区間候補の1つ後の第2単位区間が仮興味区間候補に含まれるかの判定を繰り返す。閾値Rthを超える場合には、現在の仮興味区間候補の終点を興味区間候補の終点とする。
そして、興味区間候補抽出部207は、このようにして抽出した興味区間候補を微細構造判定部210に伝達する。
なお、興味区間候補抽出部207は、仮興味区間候補の伸長にあたって、判定対象の第2単位区間が仮興味区間候補に含まれるか否かを判定するとともに、同時に当該対象時刻と指定時刻T0との間の長さが予め設定された興味区間の長さleよりも短いか否かも判断する。そして、ユークリッド距離が閾値Rthを超えず(興味区間候補に含まれる)且つ対象時刻と指定時刻T0との間の長さが予め設定された興味区間の長さleよりも短い(つまり、興味区間の条件を具備している)と判断すると対象時刻を含む第2単位区間の集合が興味区間候補となる。なお、興味区間の長さleよりも長くなった場合には、興味区間候補抽出部207は、その時点での仮興味区間候補を興味区間候補とする。
<3−2−10>微細構造判定部210
微細構造判定部210は、興味区間候補抽出部207により得られた興味区間候補の最初の第2単位区間(以下、始点候補Stcと呼称する)と最後の第2単位区間(以下、終点候補Etcと呼称する)とに微細構造があるか否かを判定する機能を有する。また、微細構造判定部210は、始点候補に微細構造がないと判定された場合に、興味区間候補の1つ前の第2単位区間に微細構造があるか否かを判定する機能と、終点候補に微細構造がないと判定された場合に、興味区間候補の1つ後の第2単位区間に微細構造があるか否かを判定する機能を有する。そして、微細構造判定部210は、微細構造の有無の判定結果(微細構造があった場合には、どの第2単位区間に微細構造が存在するかの情報を含む)を階層拡張部211に伝達する機能を有する。
具体的には、微細構造判定部210は、興味区間候補抽出部207から伝達された興味区間の始点候補Stc及び終点候補Etcの分散σstc及びσetcそれぞれと、最大分散値σmaxとを比較する。微細構造判定部210は、σstc > σmaxならば、始点候補Stcに微細構造があると判断する。また、σetc > σmaxならば、終端候補Etcに微細構造があると判断する。
また、微細構造判定部210は、σstc ≦ σmaxならば、興味区間候補の1つ前の第2単位区間に微細構造があるか否かを判定する。同様に、微細構造判定部210は、σetc ≦ σmaxならば、興味区間候補の1つ後の第2単位区間に微細構造があるか否かを判定する。
図15は、微細構造判定の概念図であり、これを用いて微細構造判定の一具体例を示す。図15においては、その上段から順に、(a)オーディオ信号に含まれる音の波形例、(b)第2単位区間それぞれの分散値例、(c)第2単位区間それぞれの頻度ベクトル例、(d)第2単位区間、(e)始点候補及び終点候補における拡大した音の波形例、(f)第3単位区間における頻度ベクトル例、(g)第3単位区間、を示している。σmaxは、区間伸長基準指標計算部208で既に計算されており、ここでは、σmax=0.1であったとする。図12の(b)分散に示すように始点候補Stcの分散σstcは0.25であり、σmaxよりも大きいので微細構造ありと判定する。また、終端Etcの分散σetcは0.03でありσmaxよりも小さいので微細構造はないと判定する。また、図15の(e)〜(g)では第2単位区間よりも短い単位区間である各第3単位区間の頻度ベクトルの状態を模式的に表現している。始点候補Stcでは下部階層に微細な時間構造(異なる第3単位区間の間で互いに特徴の異なる頻度ベクトルを有する構造)が存在するため分散の値が大きいことを示している。
図12の例では、終端候補Etcの第2単位区間に含まれる各第3単位区間は緩やかな変化が認められるものの微細な時間構造が含まれていないため分散が小さい(0.03)ことを示している。なお、図15においては示していないが、微細構造判定部211は、この場合、終点候補Etcの直後、即ち興味区間候補の1つ後ろの第2単位区間に微細構造があるか否か、即ち、分散が最大分散値を超えるか否かの判定を行う。
<3−2−11>階層拡張部211
階層拡張部211は、微細構造判定部211において、微細構造があると判定された場合に、微細構造があると判定された第2単位区間を、下部階層として、第1単位区間よりも細かい単位である第3単位区間に分割(階層拡張)して、興味区間の真の始点及び終点を決定し、当該決定に基づく興味区間を示す興味区間データを興味区間記憶装置105に記録する機能を有する。始点部分(始点候補Stcまたは始点候補Stcの1つ前の第2単位区間)に微細構造がないと判定された場合には、興味区間候補の始点が興味区間の始点となり、終点部分(終点候補Etcまたは終点候補Etcの1つ後の第2単位区間)に微細構造がないと判定された場合には、興味区間候補の終点が興味区間の終点となる。
具体的には、階層拡張部211は、微細構造があると判定された第2単位区間を第3単位区間に分割してそれぞれの第3単位区間頻度ベクトルを算出する。階層拡張部211は、当該第3単位区間頻度ベクトルを用いて、基準区間側の第3単位区間頻度ベクトルから、その第3単位区間頻度ベクトルの基準ベクトルNF0からのユークリッド距離が閾値Rthを超えるか否かを判定する。そして、閾値Rthを超えると判定された時刻に対応する第3単位区間の1つ前の第3単位区間の終点を又は終点を興味区間の真の始点または終点として、興味区間を決定する。
図15を用いて階層拡張を説明する。微細構造判定部210で微細構造があると判定された始点候補Stcの第2単位区間に対して、第3単位区間に分割し、第2単位区間で求めた方法と同様の方法で、第3単位区間の頻度ベクトルを計算する。算出された第3単位区間の頻度ベクトルについて、基準区間側の第3単位区間から、その頻度ベクトルのユークリッド距離が閾値Rthを超えるか否かによって、仮興味区間候補を伸長していき、閾値Rthを超えたところを真の始点または終点とする。図15では、(e)及び(f)に示すように、後ろから6つめの第3単位区間で閾値を越えたと判定し、後ろから5つ目までを興味区間とする興味区間の始点を正確に検出できた例を示している。
<3−3>アンカーモデル作成装置108
図14を用いて、アンカーモデル作成装置108について説明する。図14は、アンカーモデル作成装置108の機能構成及び周辺機器を示す機能ブロック図である。アンカーモデル作成装置108は、音データ記憶装置130に記憶されている音データに基づいてアンカーモデルを作成し、作詞したアンカーモデルをアンカーモデル蓄積部204に記録する機能を有する。
図14に示すようにアンカーモデル作成装置108は、特徴量ベクトル生成部301と、特徴量ベクトル分類部302と、アンカーモデル生成部303とを備える。
アンカーモデル作成装置108は、メモリ(図示せず)とプロセッサ(図示せず)とから構成され、プロセッサがメモリに読み込まれたプログラムを実行することにより、図18に示す各構成を実現している。即ち、アンカーモデル作成装置108は、図18に示すように、特徴量ベクトル生成部301と、特徴量ベクトル分類部302と、アンカーモデル生成部303とを実現している。
<3−3−1>特徴量ベクトル生成部301
特徴量ベクトル生成部301は、<3−2−1>で説明した特徴量ベクトル生成部201と同様に、音データ記憶装置130から取得した音データを第1単位区間に分割し、第1単位区間毎に音響分析を行ってパワースペクトラムS(ω)を算出し、算出したパワースペクトラムS(ω)からメルケプストラムに変換し、特徴量ベクトルMを生成する機能を有する。特徴量ベクトル生成部301は、生成した特徴量ベクトルMを特徴量ベクトル分類部302に伝達する機能も有する。
<3−3−2>特徴量ベクトル分類部302
特徴量ベクトル分類部302は、特徴量ベクトル生成部301が生成した特徴量ベクトルを、クラスタリング(分類)する機能を有する。
特徴量ベクトル分類部302は、インターフェース装置109から入力されるアンカーモデルArの個数Kに基づいて、K−means法により複数の特徴量ベクトルMをK個のクラスタに分離し、各クラスタを表す代表的な特徴量ベクトル(以下、クラスタ特徴量ベクトルと称す。)を算出する。この各クラスタが各アンカーモデルArに対応することになる。なお、本実施の形態では、K=1024である。
<3−3−3>アンカーモデル生成部303
アンカーモデル生成部303は、各クラスタのクラスタ特徴量ベクトルに基づいて、各アンカーモデルArに対応する特徴量出現確率関数bAr(M)を算出する機能を有する。そして、算出した特徴量出現確率関数で表現される各アンカーモデルArをアンカーモデル蓄積部203に蓄積する機能を有する。
<動作>
以下、本実施の形態に係る興味区間抽出装置の動作を図16に示すフローチャート及び図7に示す機能ブロック図を参照しながら説明する。
まず、音抽出装置102が、コンテンツ記録装置103からユーザが指定した動画ファイルに含まれるオーディオ信号を抽出して(矢印P1)、特徴量ベクトル生成部201に入力する(矢印P2)。
次に、特徴量ベクトル生成部201は、入力されたオーディオ信号から特徴量ベクトルを生成して尤度ベクトル生成部202に入力する(矢印P3)。
続いて、尤度ベクトル生成部202は、入力される特徴量ベクトルとアンカーモデル蓄積部203から取得した(矢印P4)アンカーモデルArとから第1単位区間毎に尤度ベクトルFを生成して、算出対象となっている第1単位区間を示す時間情報に対応付けて尤度ベクトルバッファ204に格納する(矢印P5、ステップS1601)。
更に、頻度ベクトル・分散生成部205が、尤度ベクトルバッファ204に格納されている複数の尤度ベクトルF(第2単位区間分の尤度ベクトル)を取得して(矢印P6)、頻度ベクトルNFを生成する。そして、頻度ベクトル・分散生成部205は、生成した頻度ベクトルNFを頻度ベクトルバッファ206に格納する(矢印P7、ステップS1602)。この処理は、興味区間候補抽出部207から頻度ベクトル生成終了指示が通知されると終了し、頻度ベクトル生成開始指示が通知されると再開する(矢印P9)。
一方、区間伸長基準指標計算部208は、頻度ベクトルバッファ206から指定時刻に対応する頻度ベクトルNFを含む複数の頻度ベクトルNFを取得するとともに(矢印P11)指定時刻取得部209から指定時刻の情報を取得し(矢印P12)、基準ベクトルNF0及び閾値Rth及び最大分散値σmaxを算出する。そして、区間伸長基準指標計算部208は、生成した基準ベクトルNF0及び閾値Rth及び最大分散値σmaxを興味区間候補抽出部207に入力する(矢印P13)。
興味区間候補抽出部207は、頻度ベクトルバッファ206から取得した(矢印P8)頻度ベクトルNFと、区間伸長基準指標計算部208から入力される(矢印P13)基準ベクトルNF0及び閾値Rth及び最大分散値σmaxと、指定時刻取得部209から入力される(矢印P15)指定時刻の情報とを用いて、対象時刻を含む第2単位区間が仮興味区間候補に属するか否かを判断する。このとき、興味区間候補抽出部207は、指定時刻T0から第2単位区間ずつ時刻をずらしながら、対象時刻と指定時刻T0との間の長さが予め設定された興味区間の長さleよりも短いか否かを判断し、対象時刻と指定時刻T0との間の長さが予め設定された興味区間の長さleよりも短いと判断すると対象時刻を含む第2単位区間を興味区間候補とし微細構造判定部210に入力する(矢印P16、ステップS1603)。
微細構造判定部210は、興味区間候補抽出部207から入力された始点候補Stcの分散σstcと区間伸長基準指標計算部208から得た最大分散σmaxを超えるか否かを判定する(ステップS1604)。
始点候補Stcの分散がσstc > σmaxを満たすならば(ステップS1604のYES)、微細構造判定部210は、始点候補Stcに微細構造がある旨を階層拡張部211に伝達する(矢印P17)。そして、階層拡張部211は、これを受けて、始点候補Stcを第3単位区間(100msec)に分割してそれぞれの頻度ベクトルを算出しての、興味区間の真の始点を決定する(ステップS1605)。
一方、始点候補Stcの分散がσstc > σmaxを満たさないならば(ステップS1604のNO)、微細構造判定部210は、始点候補Stcの1つ前の第2単位区間(興味区間候補の1つ前の第2単位区間)に微細構造があるか否かを判定する(ステップS1606)。
始点候補Stcの1つ前の第2単位区間の分散がσmaxを超えるならば(ステップS1606のYES)、微細構造判定部210は、始点候補Stcの1つ前の第2単位区間に微細構造がある旨を階層拡張部211に伝達する(矢印P17)。そして、階層拡張部211は、これを受けて、始点候補Stcの1つ前の第2単位区間を第3単位区間(100msec)に分割してそれぞれの頻度ベクトルを算出しての、興味区間の真の始点を決定する(ステップS1605)。
一方、始点候補Stcの1つ前の第2単位区間の分散がσmaxを超えていないならば(ステップS1606のNO)、興味区間候補の始点部分には、微細構造がない旨を、階層拡張部211に伝達する(矢印P17)。そして、階層拡張部211は、これを受けて、興味区間候補の始点を興味区間の始点として決定する(ステップS1608)。
興味区間抽出装置は、微細構造の有無の判定等について、同様の処理を興味区間候補の終点側においても実行する。
微細構造判定部210は、興味区間候補抽出部207から入力された終点候補Etcの分散σetcと区間伸長基準指標計算部208から得た最大分散σmaxを超えるか否かを判定する(ステップS1609)。
終点候補Etcの分散がσetc > σmaxを満たすならば(ステップS1609のYES)、微細構造判定部210は、終点候補Etcに微細構造がある旨を階層拡張部211に伝達する(矢印P17)。そして、階層拡張部211は、これを受けて、終点候補Etcを第3単位区間(100msec)に分割してそれぞれの頻度ベクトルを算出しての、興味区間の真の終点を決定する(ステップS1610)。
一方、終点候補Etcの分散がσetc > σmaxを満たさないならば(ステップS1609のNO)、微細構造判定部210は、終点候補Etcの1つ前の第2単位区間(興味区間候補の1つ前の第2単位区間)に微細構造があるか否かを判定する(ステップS1611)。
終点候補Etcの1つ前の第2単位区間の分散がσmaxを超えるならば(ステップS1611のYES)、微細構造判定部210は、終点候補Etcの1つ後の第2単位区間に微細構造がある旨を階層拡張部211に伝達する(矢印P21)。そして、階層拡張部211は、これを受けて、終点候補Etcの1つ前の第2単位区間を第3単位区間(100msec)に分割してそれぞれの頻度ベクトルを算出しての、興味区間の真の終点を決定する(ステップS1612)。
一方、終点候補Etcの1つ後の第2単位区間の分散がσmaxを超えていないならば(ステップS1611のNO)、興味区間候補の終点部分には、微細構造がない旨を、階層拡張部211に伝達する(矢印P17)。そして、階層拡張部211は、これを受けて、興味区間候補の終点を興味区間の終点として決定する(ステップS1613)。
そして、階層拡張部211は、決定した始点及び終点に基づく興味区間を示す興味区間データを興味区間記憶装置105に記録し(矢印P18)、興味区間抽出装置は、1つの指定時刻に対応する興味区間の抽出を終える。
<まとめ>
上述したように、興味区間抽出装置は、興味区間の候補となる興味区間候補を抽出した後に、その興味区間候補の始点部分と終点部分を、興味区間の候補を決定するために用いた時間単位(第2単位区間)よりも、細かい時間単位(第3単位区間)で興味区間の始点と終点を決定することで、第2単位区間だけを用いた興味区間の抽出よりも適切な興味区間の抽出を行える。また、興味区間の決定の際には、始点部分や終点部分における分散を算出することによって微細構造の有無を判定し、微細構造がある場合にのみ第3単位区間での興味区間の始点と終点を決定しているので、第3単位区間での興味区間の始点と終点の決定をする必要がない場合にはその演算を行わないことで演算量を低減することを可能としている。
<変形例>
上記実施の形態に従って、本発明に係る興味区間抽出装置について説明してきたが、本発明はこれに限られるものではない。以下、本発明の思想として含まれる各種変形例について説明する。
(1)上記実施の形態においては、微細構造判定部210は、始点候補とその1つ前の第2単位区間、終点候補とその1つ後の第2単位区間に微細構造があるか否かの判定を行っている。しかし、微細構造判定部210が、微細構造があるか否かの判定を行う対象はこれらの4つの第2単位区間に限るものではなく、興味区間候補全域に渡って判定することとしてもよい。
興味区間の途中に微細構造があるか否かの判定を行うことによって、例えば、その興味区間中の動画において、最も盛り上がりを見せるシーンの特定などを行うことができる。
(2)上記実施の形態においては、特に記載していなかったが、興味区間抽出装置は、以下に示すような手法を用いての興味区間の抽出を行ってもよい。
例えば、興味区間候補抽出部207は、オーディオ信号に音声が含まれるかどうかの判定を行って、興味区間を抽出することとしてもよい。
第2単位区間のオーディオ信号に音声が含まれるか否かは、例えば、アンカーモデルに音声を示す特定のアンカーモデルを設定しておき、そのアンカーモデルに対する尤度が予め定めておいた閾値(例えば、0.8など)を超えるか否かによって判定する。
このとき、階層拡張部211は、オーディオ信号が音声であると判定された場合には、その第2単位区間を第3単位区間ではなく、第1単位区間の尤度ベクトルが基準ベクトルNF0から閾値Rth内にあるか否かを判定しての興味区間の抽出を行ってもよい。音声が含まれている場合には、より細かく解析することで、より厳密に興味区間の始点終点を決定することができる。
(3)上記実施の形態において、第2単位区間及び第3単位区間における頻度ベクトルは、それぞれの区間に含まれる尤度ベクトルの各成分の正規化累積尤度を成分とするベクトルであるとした。しかし、頻度ベクトルは、その区間におけるオーディオ信号の特徴を表すものであればよく、特に、頻出する音の成分を特定できるものであれば、正規化累積尤度以外を成分とするベクトルであってもよい。例えば、単位区間に含まれる尤度ベクトルの各成分を累積し、累積尤度の高い上位k個(kは複数であり、例えば、10)のアンカーモデルのみに対応する累積尤度を正規化したベクトルであってもよい。あるいは、頻度ベクトルは、累積した値を正規化することなく、そのまま累積した尤度を成分とするベクトルであってもよい。
(4)興味区間候補抽出部207は、指定時刻から対象時刻までの時間の長さが所定の長さ以内かどうかを判断したが、これは、興味区間を所定の長さ以上にしないための措置であり、興味区間の長さを限定せずともよい場合には、この判断処理を省略してもよい。
(5)上記実施の形態においては、微細構造があるか否かを、分散が所定の閾値を超えるか否かに基づいて判定することとした。しかし、微細構造があるか否かは、第2単位区間内に、複数種類の音があるか否かを判定できるのであれば、これ以外の手法を用いて算出されてもよい。
例えば、第2単位区間内において、任意の2つの尤度ベクトルを選択し、その2つの尤度ベクトル間の距離が所定の閾値以上離れているか否かによって、判定してもよい。
このとき、全ての任意の2つの尤度ベクトルについて距離の判定をすると演算量が膨大になるため、必ずしも全ての任意の2つの尤度ベクトルについて距離の判定をする必要はない。例えば、一つの第2単位区間につて微細構造があるか否かを、その第2単位区間の両端から内側に向けて、順に連続する2つの第1単位区間の尤度ベクトル間の距離を算出する。そして、尤度ベクトル間の距離の推移から微細構造があるか否かを判定することとしてもよい。例えば、第2単位区間内において、尤度ベクトル間のユークリッド距離が長くなっていき、一定以上離れた後で、そのあとで、再び短くなっていくというような推移を見せた場合に微細構造があると判定する。この手法の場合だと、尤度ベクトル間の距離の算出は、第1単位区間が10mecで第2単位区間が1sであるとした場合には、50回で済むことになる。
(6)上記実施の形態において、図16に示すステップS1604〜S1608までの処理と、ステップS1609〜S1613までの処理とは、実行タイミングが逆になってもよく、また、これらの処理は同時に並行して処理されてもよい。
(7)上記実施の形態においては、特に記載していないが、インターフェース装置109を介して、ユーザから複数の指定時刻を受けつけ、各指定時刻を含む複数の興味区間を抽出することとしてもよい。
また、映像編集装置は、興味区間抽出装置は、抽出された複数の興味区間について、その再生順、あるいは、AVコンテンツが録画された順にしたがって、具備している記録装置あるいは外部の記録媒体に記録する機能を備えていてもよい。また、その際に、各興味区間に対応するAVコンテンツは、複数のファイルから抽出したものであってもよい。また、それらの複数の興味区間に対応する複数のデータの記録の際には、それらをその対応する指定時刻の順で1つのファイルに統合したダイジェスト映像として記録することとしてもよい。その際には、隣り合う興味区間同士で、重複する部分がある場合には、ダイジェスト映像にその重複部分が繰り返されないように統合するとよい。
また、同等の機能を階層拡張部211が備え、上述の手法にしたがって、抽出した複数の興味区間を興味区間記憶装置105に記録することとしてもよい。
(8)上記実施の形態に示した音データ記憶装置130に記憶される音データは、適宜新たな音データが追加されてよく、また、コンテンツ記憶装置103に記憶された動画ファイルの音データを記憶してもよい。
そして、新たな音データの追加に伴い、アンカーモデル作成装置108は新たなアンカーモデルを作成してもよい。
(9)また、上記実施の形態では、音データ記憶装置130に予め蓄積されている音データから自動的に複数種類のサウンド素片それぞれのアンカーモデルArを作成する(いわゆる教師無しでアンカーモデルを作成する)例について説明したが、アンカーモデル作成手法は、これに限定されるものではない。例えば、サウンド素片の種類が少数(例えば、数十種類)に限定されている場合には、音データ記憶装置130に蓄積されている音データについて、ユーザが各サウンド素片それぞれに対応する音データを選択し、それぞれに種別ラベルを付与し、種別ラベルが同一な音データから対応するサウンド素片のアンカーモデルを作成する(いわゆる教師ありでアンカーモデルArを作成する)こととしてもよい。
(10)上記実施の形態においては、興味区間候補抽出部207は、ユークリッド距離が閾値Rthを超えず(興味区間候補に含まれる)且つ対象時刻と指定時刻T0との間の長さが予め設定された興味区間の長さleよりも短い(つまり、興味区間の条件を具備している)と判断すると対象時刻を含み、始点候補Stc及び終点候補Etcとする第2単位区間が興味区間候補となる旨を記載した。これは、興味区間の長さがある一定上の長さになることを防ぐための措置であるが、興味区間の長さを一定以下にしなくともよいのであれば、当該判断(予め定めた興味区間の長さleとの比較処理)は行わなくともよい。
また、上記実施の形態においては、仮興味区間候補がleよりも長き場合の処理について詳細に記載していないが、これは例えば、以下のような構成としてもよい。
例えば、興味区間候補抽出部207は、仮興味区間候補を時間軸逆方向に伸長していき、その後に、時間軸順方向に伸長していく構成をとっていたとして、仮興味区間候補の長さがleを超えた時点での仮興味区間候補を興味区間候補として決定することとしてもよい。なお、伸長の順は時間軸順方向が時間軸逆方向よりも先に行われてもよい。
あるいは、興味区間候補抽出部207は、仮興味区間候補を第2単位区間単位で時間軸逆方向と時間軸順方向とで交互に伸長していく構成をとってもよい。この伸長を行う際には、第2単位区間単位に交互でなくともよく、一定数(例えば、5個)の第2単位区間毎に交互に伸長する手法をとってもよい。
(11)上記実施の形態においては、興味区間候補抽出部207は、基準ベクトルと仮興味区間候補に隣接する第2単位区間の頻度ベクトル間のユークリッド距離が、Rthを超えるか否かに応じて、当該第2単位区間を仮興味区間候補に含めるか否かを判定していた。しかし、これは、基準ベクトルと第2単位区間の頻度ベクトルが一定以上似ているか否かを判定できれば、必ずしもユークリッド距離を用いる必要はない。
例えば、基準ベクトルと第2単位区間の頻度ベクトルと、アンカーモデルの確率分布から、基準ベクトル、頻度ベクトルを混合分布の重みとみなし、それぞれの特徴を表現する、基準混合分布と今まさに比較対象となっている第2単位区間の混合分布を計算し、2つの混合分布の両方向のカルバック・ライブラー情報量(Kullback-Leibler divergence、俗にKL距離と呼称されることもある)を距離として利用し、興味区間候補を抽出する構成としてもよい。この際、閾値Rthもカルバック・ライブラー情報量を用いて、9つの第2単位区間から計算しておく。
なお、カルバック・ライブラー情報量は、確率論や情報理論において2つの確率分布の差異を図る尺度として一般に知られており、本発明に係る頻度ベクトルと基準ベクトル間のKL距離は以下のようにして算出できる。
まず、一つ一つのアンカーモデルの確率関数bAr(M)をガウス分布gArと表現する。
次に区間を伸長する単位である第2単位区間の特徴量は、アンカーモデルの全数(1024個)と第2単位区間の頻度ベクトルとから一つの混合分布を構成することができる。具体的には、第2単位区間の頻度ベクトルHS(HS=(α1,…,αAr,…,α1024))を、1024個のアンカーモデルAr(Ar=(g1,…,gAr,…,g1024))に対する重みと捉えることで、当該第2単位区間の特徴量は、以下の式(3)で与えることができる。
Figure 0005723446
一方、基準ベクトルの確率的特徴の別表現として、同様の表現ができる。即ち、基準ベクトルC(C=(μ1,…,μAr,…,μ1024))を、1024個のアンカーモデルAr(Ar=(g1,…,gAr,…,g1024))に対する重みと捉えることで、基準ベクトルの確率的特徴の別表現は、以下の式(4)で与えることができる。
Figure 0005723446
すると、この2つの混合分布GS及びGCを用いて、GSからGCに対するカルバック・ライブラー情報量は以下の式(5)で与えることができる。
Figure 0005723446
なお、上記式(5)においてEYは期待値を意味する。
また、GCからGSに対するカルバック・ライブラー情報量は以下の式(6)で与えることができる。
Figure 0005723446
そして、式(5)と式(6)の両方向のカルバック・ライブラー情報量を求め、二つの確率分布間のKL距離を、以下の式(7)のように定義する。
Figure 0005723446
上記実施の形態に示したユークリッド距離の換わりに、この式(7)に示されるKL距離を用いて、第2単位区間を仮基準区間候補に含めるか否かの判定を行ってもよい。このとき、閾値Rth(閾値ユークリッド距離)の代わりには、基準区間に含まれる複数の第2単位区間の頻度ベクトルの中で、それら複数の頻度ベクトルの重心ベクトル(基準ベクトル)から、最もKL距離が遠い頻度ベクトルとの間のKL距離(閾値KL距離)を用いればよい。
また、その他にも、ユークリッド距離を用いない手法としては、例えば、基準ベクトルと第2単位区間の頻度ベクトルとの相関演算を行って、その相関値が一定値以上(例えば、0.6以上)であれば、当該第2単位区間を仮興味区間候補に含めるというような手法をとってもよい。また、当該手法であれば、基準ベクトルではなく、指定時刻を含む第2単位区間の頻度ベクトルと、その第2単位区間(または仮興味区間候補)に隣接する第2単位区間の頻度ベクトルとの間の相関値を用いて、興味区間候補を抽出する構成としてもよい。
(12)上記実施の形態においては、指定時刻取得手段209は、インターフェース装置109に入力されたユーザ入力に基づく指定時刻を取得する構成を示した。しかし、指定時刻の取得方法はこれに限定されるものではない。
例えば、指定時刻取得部209が、動画ファイルに含まれる複数の画複データそれぞれの特徴量の時間変化に基づいて、自動的に指定時刻T0を取得するものであってもよい。
ここにおいて、指定時刻取得部209は、動画ファイルに含まれる複数の画像データそれぞれについて一般的なクラスタリング手法により複数のシフト特徴量を算出し、各画像データ間における所定のシフト特徴量の差分から指定時刻T0を算出するようにすればよい。例えば、複数の画像データそれぞれの背景画像を表すシフト特徴量に着目し、時間軸上で隣接する2つの画像データ間の当該シフト特徴量の差分が大きく変化するところを自動的に指定時刻T0とすることが考えられる。また、このとき、動画ファイルのどの部分から指定時刻T0を取得するのかについて、当該部分の始点と終点との時刻をユーザが指定してもよい。
あるいは、画像データに限らず、特定の音が検出される点を指定時刻として検出することとしてもよい。例えば、特定の音として、特定のユーザの声を動画ファイルから検出して、その特定のユーザの声を検出したタイミングを指定時刻として取得することとしてもよい。これは、特定のユーザの声の特徴量を示す情報を予め記憶しておき、動画のオーディオ信号から、この特徴量に所定以上類似するか否かに応じて、ユーザの声の検出を行う。なお、連続する期間でユーザの声があると判定された場合には、その連続する期間の中点を指定時刻として、興味区間の抽出を行う。
また、この特定の音に換えて、特定のオブジェクトが検出できるタイミングを指定時刻として扱ってもよい。この場合、特定のオブジェクトを示す画像特徴量を記憶しておき、動画ファイルの画像データから検出される画像特徴量との相関が一定以上検出されるタイミングを指定時刻とすればよい。
(13)上記実施の形態における第1単位区間、第2単位区間、第3単位区間それぞれの時間の長さは一例である。その時間長は、第1単位区間<第3単位区間<第2単位区間となっていれば、上記実施の形態に示した秒数以外の長さであってもよい。なお、このとき、第2単位区間の長さは、第1単位区間の長さと第3単位区間の長さとの公倍数になっていると処理が容易になる。
(14)上記実施の形態においては、階層拡張部211は、微細構造があると判定された第2単位区間の第3単位区間頻度ベクトルを算出することとしたが、これは、頻度ベクトル・分散生成部205が分散を算出するのに用いた第3単位区間頻度ベクトルを利用してもよい。
(15)上記実施の形態においては、興味区間抽出装置は、入力された動画から興味区間を抽出することとしたが、興味区間の抽出を行わず、興味区間の特定に留めることとしてもよい。
即ち、本発明に係る興味区間特定装置は、図17に示すような構成をとってもよい。図17に示す構成は、上記実施の形態の図7に示した興味区間抽出装置104の構成に加え、更に、インデキシング部1700を備える。
図17において、図7に示した構成と同等の機能を有するものについては、同じ名称及び符号を付与している。
階層拡張部1711は、階層拡張部211と略同等の機能を備える。ただし、階層拡張部211と異なり、興味区間を抽出するのではなく、興味区間を特定するにとどめる。興味区間の特定とは、興味区間の開始時刻と終了時刻とを特定することを意味する。そして、階層拡張部1711は、特定した興味区間の情報をインデキシング部1700に伝達する。
インデキシング部1700は、階層拡張部1711と、興味区間記憶装置105との間に、挿入される。インデキシング部1700は、階層拡張部1711から伝達された興味区間の情報に基づき、対応する動画に対して、興味区間の情報で示される興味区間の始点となる始点フラグ及び終点となる終点フラグを付与する。なお、興味区間長が固定の場合は、動画に対して付与するのは、始点フラグのみでもよい。
これにより、動画に対して、興味区間の始点フラグ、終点フラグが付与されることにより、動画の再生時にこのフラグを基準点とする、頭出し再生を実行できるようになる。このような手法でも、ユーザにとっても無駄な動画を視聴する時間を短縮することができる。
(16)上記実施の形態においては、ユーザから指定時刻を受け付けて、興味区間候補を定めて、その中に微細構造があるか否かを判定した上で、真の興味区間を抽出する構成を示した。しかしながら、本発明はこれに限定されるものではない。
興味区間候補は、予め興味区間抽出装置に対して入力される動画に興味区間候補の情報(開始時刻と終了時刻)が付与されており、この予め指定されている興味区間候補について、微細構造の有無を判定して、階層拡張部211による興味区間の抽出を実行することとしてもよい。
これにより、例えば、予めチャプターの設定がされている動画についても、そのチャプターの開始点や終了点が適切でない場合の修正等を容易に行うことができる。動画編集の技術を有しないユーザが動画に対して手動でチャプタリングを実行した場合には、チャプターの開始点、終了点などは正確性に欠けることが多いため、そのような動画を興味区間抽出装置に入力すると、そのチャプターの修正が容易にでき、有用である。
(17)上述の実施形態で示した通信に係る動作、興味区間抽出処理等(図16参照)を映像編集機器等のプロセッサ、及びそのプロセッサに接続された各種回路に実行させるためのプログラムコードからなる制御プログラムを、記録媒体に記録すること、又は各種通信路等を介して流通させ頒布させることもできる。このような記録媒体には、ICカード、ハードディスク、光ディスク、フレキシブルディスク、ROM等がある。流通、頒布された制御プログラムはプロセッサに読み出され得るメモリ等に格納されることにより利用に供され、そのプロセッサがその制御プログラムを実行することにより、実施形態で示したような各種機能が実現されるようになる。
(18)上記実施の形態で示した興味区間抽出装置を構成する構成要素の一部又は全部は、1又は複数の集積回路(IC、LSIなど)として実装されることとしても良く、画像管理装置の構成要素に更に他の要素を加えて集積回路化(1チップ化)されることとしてもよい。
ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。また、集積回路化の手法はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)、LSI内部の回路セルの接続または設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。さらには、半導体技術の進歩又は派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適応等が可能性としてありえる。
<補足>
上記実施の形態に従って、本発明の一実施形態に係る興味区間特定装置について説明したが、本発明の実施の形態はこれに限るものではない。以下に、本発明の一実施形態と、その奏する効果について説明する。
(a)図18に示すように、本発明に係る興味区間特定装置は、動画ファイルに含まれるオーディオ信号に基づいて、前記動画ファイル中でユーザが興味を示すと推測されるユーザの興味区間を特定する興味区間特定装置であって、前記動画ファイル中で、前記興味区間の候補となる興味区間候補を抽出する興味区間候補抽出手段(1801)と、前記興味区間候補に特定の微細構造が含まれるか否かを判定する微細構造判定手段(1802)と、前記微細構造判定手段により、前記微細構造が含まれると判定された場合に前記微細構造を含み前記興味区間候補よりも短い特定区間を解析して、興味区間を特定する興味区間特定手段(1803)とを備えることを特徴としている。
図18に示す興味区間候補抽出手段1801は、図7及び図17における興味区間候補抽出部207に相当する。また、微細構造判定手段1802は、図7及び図17における微細構造判定部210に相当する。そして、興味区間特定手段1803は、図7及び図17における階層拡張部211、1711に相当する。また、図18に示す興味区間特定装置は、更に、図7に示す特徴量ベクトル生成部201、尤度ベクトル生成部202、アンカーモデル蓄積部203、尤度ベクトルバッファ204、頻度ベクトル・分散生成部205、頻度ベクトルバッファ206、区間伸張基準指標計算部208、指定時刻取得部209を含んで構成されてよく、これらの各機能部の接続関係は、図7に示す通りである。
また、微細構造とは、上記実施の形態に示した通りであるが、別の言い方をすれば、興味区間候補よりも短い(細かい)時間区間の中で、音の特徴に一定以上のばらつき(変化)がある構造と言える。また、別の言い方をすれば、微細構造の有無の判定とは、興味区間候補としては、ある程度共通した音の特徴を有する区間でありながら、その中でも、微細な時間単位でみた場合には、音の特徴にばらつきがあることを検出することであるとも言える。
また、本発明に係る興味区間特定方法は、動画ファイルに含まれるオーディオ信号に基づいて、前記動画ファイル中でユーザが興味を示すと推測されるユーザの興味区間を特定する興味区間特定装置による興味区間特定方法であって、前記動画ファイル中で、前記興味区間の候補となる興味区間候補を抽出する興味区間候補抽出ステップと、前記興味区間候補に微細構造が含まれるか否かを判定する微細構造判定ステップと、前記微細構造判定ステップにより、前記微細構造が含まれると判定された場合に前記微細構造を含み前記興味区間候補よりも短い特定区間を解析して、興味区間を特定する興味区間特定ステップとを含むことを特徴としている。
また、本発明に係る興味区間特定プログラムは、動画ファイルに含まれるオーディオ信号に基づいて、前記動画ファイル中でユーザが興味を示すと推測されるユーザの興味区間を特定する興味区間特定処理をコンピュータに実行させる興味区間特定プログラムであって、前記興味区間特定処理は、前記動画ファイル中で、前記興味区間の候補となる興味区間候補を抽出する興味区間候補抽出ステップと、前記興味区間候補に微細構造が含まれるか否かを判定する微細構造判定ステップと、前記微細構造判定ステップにより、前記微細構造が含まれると判定された場合に前記微細構造を含み前記興味区間候補よりも短い特定区間を解析して、興味区間を特定する興味区間特定ステップとを含むことを特徴としている。
また、本発明に係る興味区間特定集積回路は、動画ファイルに含まれるオーディオ信号に基づいて、指定時刻を含むユーザの興味区間を特定する興味区間特定集積回路であって、前記動画ファイル中で、前記興味区間の候補となる興味区間候補を抽出する興味区間候補抽出手段と、前記興味区間候補に微細構造が含まれるか否かを判定する微細構造判定手段と、前記微細構造判定手段により、前記微細構造が含まれると判定された場合に前記微細構造を含み前記興味区間候補よりも短い特定区間を解析して、興味区間を特定する興味区間特定手段とを備えることを特徴としている。
これにより、動画ファイルにおける興味区間を特定できるので、例えば、動画ファイルの再生時におけるスキップ再生や、ダイジェストの作成等に利用することができ、動画ファイルの中でもユーザにとって興味を覚えると推測される部分のみを視聴させることができる。
また、本構成によれば、動画ファイル(AVコンテンツ)から興味区間を抽出する際に、区間の始端、終端の2つの時刻をユーザが注意深く指定するのではなく、興味区間特定装置が、例えば、興味区間の始点又は終点となる部分(微細構造が含まれると判定された場合)を精査して、興味区間を特定することができるので、ユーザによる正確な始点または終点の入力なしに、より精密に興味区間を特定することができる。
(b)また、上記(a)に示す興味区間特定装置において、前記興味区間特定装置は、更に、基準となる複数種類のサウンド素片それぞれの特徴を表現するアンカーモデルを蓄積しているアンカーモデル蓄積手段と、ユーザから指定時刻を取得する指定時刻取得手段と、オーディオ信号の第1単位区間毎に、当該第1単位区間におけるオーディオ信号の特徴量を示す特徴量ベクトルの、前記アンカーモデル各々に対する尤度を求め、各尤度を成分とする尤度ベクトルを生成する尤度ベクトル生成手段とを備え、前記興味区間候補抽出手段は、前記尤度ベクトルに基づいて、前記指定時刻を含み、前記第1単位区間よりも長い、前記興味区間の候補となる興味区間候補を算出し、前記微細構造判定手段は、前記興味区間候補を含む区間における前記第1単位区間よりも長く前記興味区間候補よりも短い特定区間について微細構造が含まれるか否かを判定することとしてもよい。
これにより、ユーザが動画に対して興味を覚えたタイミングで受け付けた入力に基づいて、興味区間を特定することができる。興味を覚えたタイミングだけの入力でく、興味区間特定装置は、正確な興味区間の始点あるいは終点の入力でなくとも、興味区間を特定できる。
(c)また、上記(b)に示す興味区間特定装置において、前記興味区間特定装置は、更に、前記第1単位区間のN倍の長さの第2単位区間のオーディオ信号から生成されるN個の尤度ベクトルから第2単位区間頻度ベクトルを算出し、前記第1単位区間のM倍(1<M<N、NはMの倍数)の長さの第3単位区間のオーディオ信号から生成されるM個の尤度ベクトルから第3単位区間頻度ベクトルを算出する頻度ベクトル算出手段と、前記第2単位区間に含まれる第3単位区間の第3単位区間頻度ベクトルの分散を算出する分散算出手段とを備え、前記特定区間は、前記第2単位区間であり、前記興味区間候補抽出手段は、前記興味区間候補を前記第2単位区間頻度ベクトルに基づいて算出し、前記微細構造判定手段は、前記分散が基準値を超えるか否かに基づいて微細構造が含まれるか否かを判定することとしてもよい。
これにより、興味区間特定装置は、第2単位区間に含まれる第3単位区間の頻度ベクトルを用いて算出された分散を用いることで、微細構造があるか否かを判定することができるので、微細構造がある場合に、微細構造がある特定区間を解析して、より精密に興味区間を特定することができる。
(d)また、上記(c)に示す興味区間特定装置において、前記興味区間特定装置は、更に、前記指定時刻を含む複数の連続する第2単位区間からなる基準区間について、当該基準区間の複数の第2単位区間頻度ベクトルに基づいて基準ベクトルを算出し、前記基準値を前記基準区間に含まれる各第2単位区間それぞれの分散のうち最も大きい値とする基準指標計算部を備え、前記興味区間候補抽出手段は、前記基準区間を最初の仮興味区間候補として、前記仮興味区間候補に隣接する第2単位区間の第2単位区間頻度ベクトルが前記基準ベクトルに一定以上似ているか否かを判定し、似ていると判定した場合に当該第2単位区間を前記仮興味区間候補に含めることを繰り返し、似ていないと判定された時点での仮興味区間候補を前記興味区間候補として決定することとしてもよい。
これにより、興味区間特定装置は、基準区間の基準ベクトルを用いることで、指定時刻を含む第2単位区間ではなく、当該第2単位区間にある程度以上似ている音の特徴を有する第2単位区間を興味区間候補として抽出することができる。指定時刻に対応する第2単位区間の頻度ベクトルではなく、基準ベクトルを用いることで、興味区間候補の抽出に幅を持たせることができる。
(e)また、上記(d)に示す興味区間特定装置において、前記基準指標計算部は、更に、前記基準区間内に含まれる複数の第2単位区間頻度ベクトルのうち前記基準ベクトルからユークリッド距離が最も遠い第2単位区間頻度ベクトルから前記基準ベクトルまでの閾値ユークリッド距離を算出し、前記興味区間候補抽出手段は、前記基準区間を最初の仮興味区間候補として、前記仮興味区間候補に隣接する第2単位区間の第2単位区間頻度ベクトルの前記基準ベクトルからのユークリッド距離が前記閾値ユークリッド距離を超えるか否かを判定し、前記閾値ユークリッド距離を超えないと判定した場合に当該第2単位区間を前記仮興味区間候補に含めることを繰り返し、前記閾値ユークリッド距離を超えると判定された時点での仮興味区間候補を前記興味区間候補として決定することとしてもよい。
(f)また、上記(e)に示す興味区間特定装置において、前記基準指標計算部は、更に、前記基準区間内に含まれる複数の第2単位区間頻度ベクトルのうち前記基準ベクトルからKL距離(Kullback-Leibler divergence)が最も遠い第2単位区間頻度ベクトルから前記基準ベクトルまでの閾値KL距離を算出し、前記興味区間候補抽出手段は、前記基準区間を最初の仮興味区間候補として、前記仮興味区間候補に隣接する第2単位区間の第2単位区間頻度ベクトルの前記基準ベクトルからのKL距離が前記閾値KL距離を超えるか否かを判定し、前記閾値KL距離を超えないと判定した場合に当該第2単位区間を前記仮興味区間候補に含めることを繰り返し、前記閾値KL距離を超えると判定された時点での仮興味区間候補を前記興味区間候補として決定することとしてもよい。
これにより、興味区間抽出装置は、基準区間に基づいて算出された各指標に従って、興味区間の候補となる興味区間候補を抽出することができる。KL距離を用いる構成の場合、確率論、情報理論において、2つの確率分布の差異を示す尺度として広範に使用されるKL距離を用いることで、興味区間候補抽出の信頼性を高めることができる。
(g)また、上記(f)に示す興味区間特定装置において、前記微細構造判定手段は、前記興味区間候補の先頭の第2単位区間又は最後の第2単位区間に微細構造があるか否かを判定し、前記興味区間抽出手段は、前記興味区間候補の先頭の第2単位区間に微細構造があると判定された場合に、前記先頭の第2単位区間を解析して興味区間の始点を特定し、前記興味区間候補の最後の第2単位区間に微細構造があると判定された場合に、前記最後の第2単位区間を解析して興味区間の終点を特定することとしてもよい。
これにより、興味区間特定装置は、特定の第2単位区間について微細構造の有無を判定することにより、微細構造の有無を判定する範囲を小さくして、候補区間全域で微細構造の有無を判定する場合よりも演算量を低減することができる。
(h)また、上記(f)に示す興味区間特定装置において、前記微細構造判定手段は、前記興味区間候補の先頭の第2単位区間に微細構造がないと判定された場合に、前記興味区間候補の1つ前の第2単位区間に微細構造があるか否かを判定し、前記興味区間抽出手段は、前記興味区間候補の1つ前の第2単位区間に微細構造があると判定された場合に、前記興味区間候補の1つ前の第2単位区間を解析して興味区間の始点を特定し、前記興味区間候補の1つ前の第2単位区間に微細構造がないと判定された場合に、当該興味区間候補の始点を前記興味区間の始点とすることとしてもよい。
これにより、興味区間抽出装置は、興味区間候補には入っていないものの、実際には興味区間に含めるべき範囲を特定して、より正確に興味区間の始点を決定することができる。
(i)また、上記(f)に示す興味区間特定装置において、前記微細構造判定手段は、前記興味区間候補の最後の第2単位区間に微細構造がないと判定された場合に、前記興味区間候補の1つ後の第2単位区間に微細構造があるか否かを判定し、前記興味区間抽出手段は、前記興味区間候補の1つ後の第2単位区間に微細構造があると判定された場合に、前記興味区間候補の1つ後の第2単位区間を解析して興味区間の終点を特定し、前記興味区間候補の1つ後の第2単位区間に微細構造がないと判定された場合に、当該興味区間候補の終点を前記興味区間の終点とすることとしてもよい。
これにより、興味区間抽出装置は、興味区間候補には入っていないものの、実際には興味区間に含めるべき範囲を特定して、より正確に興味区間の終点を決定することができる。
(j)また、上記(d)に示す興味区間特定装置において、微細構造があると判定された第2単位区間が前記興味区間候補に含まれる場合には前記興味区間候補から当該第2単位区間を除いた区間を第2仮興味区間候補とし、微細構造があると判定された第2単位区間が前記興味区間候補に含まれない場合には前記興味区間候補を第2仮興味区間候補とし、前記興味区間抽出手段は、微細構造があると判定された第2単位区間について、前記基準区間側の第3単位区間から、その第3単位区間頻度ベクトルが前記基準ベクトルから前記閾値ユークリッド距離を超えるか否かを判定して、前記閾値ユークリッド距離を超えないと判定された場合に、当該第3単位区間を前記第2仮興味区間候補に含めることを繰り返し、前記閾値ユークリッド距離を超えると判定された時点での第2仮興味区間候補の始点又は終点を前記興味区間候補の始点又は終点として決定することとしてもよい。
これにより、興味区間抽出装置は、第2単位区間よりも細かい第3単位区間を基準に興味区間の始点と終点を決定することで、より正確に興味区間を抽出することができる。
(k)また、上記(d)に示す興味区間特定装置において、前記興味区間抽出装置は、更に、前記微細構造を判定する対象が人の声であるか否かを判別する判別手段を備え、前記興味区間抽出手段は、前記判別手段が人の声であると判別した場合に、前記微細構造があると判定された第2単位区間を前記第1単位区間の単位で再帰的に解析することとしてもよい。
これにより、興味区間特定装置は、微細構造があると判定された第2単位区間について、そのオーディオ信号に音声が含まれるか否かの判定を行い、肯定的な判定をした場合に、第3単位区間よりも細かい第1単位区間での解析を行って、より正確な興味区間の抽出を行える。
(l)また、上記(b)に示す興味区間特定装置において、前記微細構造判定手段は、前記興味区間候補の全ての第2単位区間について前記微細構造が含まれるか否かを判定することとしてもよい。
これにより、興味区間特定装置は、候補区間全域に渡って、微細構造の有無を判定することができる。したがって、より細やかな解析を行うことができる。例えば、候補区間の中途に微細構造があった場合には、その部分には、動画ファイルにおいて盛り上がりを見せるシーン、所謂ハイライトがあると推定したりすることができる。
(m)また、上記(b)に示す興味区間特定装置において、前記指定時刻取得手段は、複数の指定時刻を取得し、前記興味区間抽出手段は、前記複数の指定時刻それぞれに対応する興味区間を抽出し、前記興味区間抽出装置は、更に、前記複数の指定時刻それぞれに対応する興味区間を前記複数の指定時刻で示される時刻の順で外部記憶装置に記録する記録手段を備えることとしてもよい。
これにより、興味区間特定装置は、複数の指定時刻の指定を受けた上での興味区間の抽出を行うことができる。当該構成は、ユーザが興味を示すシーンが複数ある場合などに、特に有用となる。また、興味区間抽出装置は、抽出した複数の興味区間に対応する動画ファイルのデータを時系列順に記録媒体に記録することができるので、この記録された興味区間分の動画ファイルをユーザが視聴する際に、違和感なく視聴することができる。
(n)また、上記(m)に示す興味区間特定装置において、前記記録手段は、前記複数の指定時刻それぞれに興味区間を前記複数の指定時刻で示される時刻の順に統合した統合データを前記外部記憶装置に記録することとしてもよい。
これにより、興味区間特定装置は、複数の興味区間に対応する部分の動画ファイルを1つのファイル(統合データ)にして記録することができ、外部記憶装置に記録された興味区間に対応するデータを視聴する際の利便性を向上させることができる。
(o)また、上記(b)に示す興味区間特定装置において、前記興味区間抽出装置は、更に、ユーザから前記動画ファイルにおける再生時間上の特定期間を指定する特定期間指定手段を備え、前記指定時刻取得手段は、前記特定期間における画像データそれぞれの特徴量の時間変化に基づいて、当該特定期間内から前記指定時刻を取得することとしてもよい。
これにより、興味区間特定装置は、ユーザから指定時刻の指定を受け付けることなく、自身で指定時刻を取得することができるので、興味区間抽出の自動化を実現することができる。
(p)また、上記(a)に示す興味区間特定装置において、前記興味区間特定装置は、更に、前記興味区間特定手段が特定した興味区間に係る興味区間情報を前記動画ファイルに付与する興味区間情報付与手段を備えることとしてもよい。
これにより、興味区間特定装置は、動画ファイルに対して興味区間の情報を付与することができるので、例えば、当該情報に基づいて、動画ファイルのダイジェストの作成や、動画ファイル作成時のチャプタとして利用することができる。
(q)また、上記(a)に示す興味区間特定装置において、前記興味区間情報付与手段は、前記興味区間情報として興味区間の始点となる位置に始点フラグおよび/または興味区間の終点となる位置に終点フラグを前記動画ファイルに付与することとてもよい。
これにより、興味区間特定装置は、動画ファイルに対して、始点フラグまたは終点フラグを付与するので、始点フラグや、終点フラグが付与された動画ファイルの再生時の頭出し等に利用できる。
(r)また、上記(a)に示す興味区間特定装置において、前記興味区間特定装置は、更に、前記興味区間特定手段が特定した興味区間を前記動画ファイルから抽出する興味区間抽出手段を備えることとしてもよい。
これにより、興味区間特定装置は、興味区間を動画ファイルから抽出できるので、動画ファイルのダイジェストの作成等に利用できる。
(s)また、上記(a)に示す興味区間特定装置において、前記興味区間特定装置は、更に、予め興味区間候補が指定されている動画ファイルを取得する取得手段を備え、前記微細構造判定手段は、予め指定されている興味区間候補について、その始端部分、または、終端部分の第1区間に微細構造があるか否かを判定し、前記興味区間特定手段は、前記取得手段が取得した予め興味区間候補が指定されている動画ファイルにおける興味区間を特定することとしてもよい。
これにより、興味区間特定装置は、興味区間が設定されている動画において、その興味区間の設定が適切でない場合などに、修正ができる。
本発明に係る興味区間抽出装置は、音声、家屋内の音、外出時の音などを含むAVコンテンツのオーディオ信号からユーザの興味の対象となる興味区間を抽出する装置として、AVコンテンツの編集技術として活用することができる。
100 映像編集装置
102 音抽出装置
103 コンテンツ記憶装置
104 興味区間抽出装置
105 興味区間記憶装置
106 興味区間抽出部
108 アンカーモデル作成装置
109 インターフェース装置
130 音データ記憶装置
201、301 特徴量ベクトル生成部
202 尤度ベクトル生成部
203 アンカーモデル蓄積部
204 尤度ベクトルバッファ
205 頻度ベクトル・分散生成部(頻度ベクトル算出手段、分散算出手段)
206 頻度ベクトルバッファ
207 興味区間候補抽出部
208 区間伸張基準指標計算部
209 指定時刻取得部
210 微細構造判定部
211 階層拡張部(興味区間抽出手段)
302 特徴量ベクトル分類部
303 アンカーモデル生成部

Claims (22)

  1. 動画ファイルに含まれるオーディオ信号に基づいて、前記動画ファイル中でユーザが興味を示すと推測されるユーザの興味区間を特定する興味区間特定装置であって、
    前記動画ファイル中で、前記興味区間の候補となる興味区間候補を抽出する興味区間候補抽出手段と、
    前記興味区間候補に特定の微細構造が含まれるか否かを判定する微細構造判定手段と、
    前記微細構造判定手段により、前記微細構造が含まれると判定された場合に前記微細構造を含み前記興味区間候補よりも短い特定区間を解析して、興味区間を特定する興味区間特定手段と
    を備えることを特徴とする興味区間特定装置。
  2. 前記興味区間特定装置は、更に、
    基準となる複数種類のサウンド素片それぞれの特徴を表現するアンカーモデルを蓄積しているアンカーモデル蓄積手段と、
    ユーザから指定時刻を取得する指定時刻取得手段と、
    オーディオ信号の第1単位区間毎に、当該第1単位区間におけるオーディオ信号の特徴量を示す特徴量ベクトルの、前記アンカーモデル各々に対する尤度を求め、各尤度を成分とする尤度ベクトルを生成する尤度ベクトル生成手段とを備え、
    前記興味区間候補抽出手段は、前記尤度ベクトルに基づいて、前記指定時刻を含み、前記第1単位区間よりも長い、前記興味区間の候補となる興味区間候補を算出し、
    前記微細構造判定手段は、前記興味区間候補を含む区間における前記第1単位区間よりも長く前記興味区間候補よりも短い特定区間について微細構造が含まれるか否かを判定する
    をことを特徴とする請求項1記載の興味区間特定装置。
  3. 前記興味区間特定装置は、更に、
    前記第1単位区間のN倍の長さの第2単位区間のオーディオ信号から生成されるN個の尤度ベクトルから第2単位区間頻度ベクトルを算出し、前記第1単位区間のM倍(1<M<N、NはMの倍数)の長さの第3単位区間のオーディオ信号から生成されるM個の尤度ベクトルから第3単位区間頻度ベクトルを算出する頻度ベクトル算出手段と、
    前記第2単位区間に含まれる第3単位区間の第3単位区間頻度ベクトルの分散を算出する分散算出手段とを備え、
    前記特定区間は、前記第2単位区間であり、
    前記興味区間候補抽出手段は、前記興味区間候補を前記第2単位区間頻度ベクトルに基づいて算出し、
    前記微細構造判定手段は、前記分散が基準値を超えるか否かに基づいて微細構造が含まれるか否かを判定する
    ことを特徴とする請求項2記載の興味区間特定装置。
  4. 前記興味区間特定装置は、更に、前記指定時刻を含む複数の連続する第2単位区間からなる基準区間について、当該基準区間の複数の第2単位区間頻度ベクトルに基づいて基準ベクトルを算出し、前記基準値を前記基準区間に含まれる各第2単位区間それぞれの分散のうち最も大きい値とする基準指標計算部を備え、
    前記興味区間候補抽出手段は、前記基準区間を最初の仮興味区間候補として、前記仮興味区間候補に隣接する第2単位区間の第2単位区間頻度ベクトルが前記基準ベクトルに一定以上似ているか否かを判定し、一定以上似ていると判定した場合に当該第2単位区間を前記仮興味区間候補に含めることを繰り返し、一定以上似ていないと判定された時点での仮興味区間候補を前記興味区間候補として決定する
    ことを特徴とする請求項3記載の興味区間特定装置。
  5. 前記基準指標計算部は、更に、前記基準区間内に含まれる複数の第2単位区間頻度ベクトルのうち前記基準ベクトルからユークリッド距離が最も遠い第2単位区間頻度ベクトルから前記基準ベクトルまでの閾値ユークリッド距離を算出し、
    前記興味区間候補抽出手段は、前記基準区間を最初の仮興味区間候補として、前記仮興味区間候補に隣接する第2単位区間の第2単位区間頻度ベクトルの前記基準ベクトルからのユークリッド距離が前記閾値ユークリッド距離を超えるか否かを判定し、前記閾値ユークリッド距離を超えないと判定した場合に当該第2単位区間を前記仮興味区間候補に含めることを繰り返し、前記閾値ユークリッド距離を超えると判定された時点での仮興味区間候補を前記興味区間候補として決定する
    ことを特徴とする請求項4記載の興味区間特定装置。
  6. 前記微細構造判定手段は、前記興味区間候補の先頭の第2単位区間又は最後の第2単位区間に微細構造があるか否かを判定し、
    前記興味区間特定手段は、前記興味区間候補の先頭の第2単位区間に微細構造があると判定された場合に、前記先頭の第2単位区間を解析して興味区間の始点を特定し、前記興味区間候補の最後の第2単位区間に微細構造があると判定された場合に、前記最後の第2単位区間を解析して興味区間の終点を特定する
    ことを特徴とする請求項5記載の興味区間特定装置。
  7. 前記微細構造判定手段は、前記興味区間候補の先頭の第2単位区間に微細構造がないと判定された場合に、前記興味区間候補の1つ前の第2単位区間に微細構造があるか否かを判定し、
    前記興味区間特定手段は、前記興味区間候補の1つ前の第2単位区間に微細構造があると判定された場合に、前記興味区間候補の1つ前の第2単位区間を解析して興味区間の始点を特定し、前記興味区間候補の1つ前の第2単位区間に微細構造がないと判定された場合に、当該興味区間候補の始点を前記興味区間の始点とする
    ことを特徴とする請求項6記載の興味区間特定装置。
  8. 前記微細構造判定手段は、前記興味区間候補の最後の第2単位区間に微細構造がないと判定された場合に、前記興味区間候補の1つ後の第2単位区間に微細構造があるか否かを判定し、
    前記興味区間特定手段は、前記興味区間候補の1つ後の第2単位区間に微細構造があると判定された場合に、前記興味区間候補の1つ後の第2単位区間を解析して興味区間の終点を特定し、前記興味区間候補の1つ後の第2単位区間に微細構造がないと判定された場合に、当該興味区間候補の終点を前記興味区間の終点とする
    ことを特徴とする請求項6記載の興味区間特定装置。
  9. 微細構造があると判定された第2単位区間が前記興味区間候補に含まれる場合には前記興味区間候補から当該第2単位区間を除いた区間を第2仮興味区間候補とし、微細構造があると判定された第2単位区間が前記興味区間候補に含まれない場合には前記興味区間候補を第2仮興味区間候補とし、
    前記興味区間特定手段は、微細構造があると判定された第2単位区間について、前記基準区間側の第3単位区間から、その第3単位区間頻度ベクトルが前記基準ベクトルから前記閾値ユークリッド距離を超えるか否かを判定して、前記閾値ユークリッド距離を超えないと判定された場合に、当該第3単位区間を前記第2仮興味区間候補に含めることを繰り返し、前記閾値ユークリッド距離を超えると判定された時点での第2仮興味区間候補の始点又は終点を前記興味区間候補の始点又は終点として決定する
    ことを特徴とする請求項6に記載の興味区間特定装置。
  10. 前記基準指標計算部は、更に、前記基準区間内に含まれる複数の第2単位区間頻度ベクトルのうち前記基準ベクトルからKL距離(Kullback-Leibler divergence)が最も遠い第2単位区間頻度ベクトルから前記基準ベクトルまでの閾値KL距離を算出し、
    前記興味区間候補抽出手段は、前記基準区間を最初の仮興味区間候補として、前記仮興味区間候補に隣接する第2単位区間の第2単位区間頻度ベクトルの前記基準ベクトルからのKL距離が前記閾値KL距離を超えるか否かを判定し、前記閾値KL距離を超えないと判定した場合に当該第2単位区間を前記仮興味区間候補に含めることを繰り返し、前記閾値KL距離を超えると判定された時点での仮興味区間候補を前記興味区間候補として決定する
    ことを特徴とする請求項4記載の興味区間特定装置。
  11. 前記興味区間特定装置は、更に、
    前記微細構造を判定する対象が人の声であるか否かを判別する判別手段を備え、
    前記興味区間特定手段は、前記判別手段が人の声であると判別した場合に、前記微細構造があると判定された第2単位区間を前記第1単位区間の単位で再帰的に解析する
    ことを特徴とする請求項4記載の興味区間特定装置。
  12. 前記微細構造判定手段は、前記興味区間候補の全ての第2単位区間について前記微細構造が含まれるか否かを判定する
    ことを特徴とする請求項4記載の興味区間特定装置。
  13. 前記指定時刻取得手段は、複数の指定時刻を取得し、
    前記興味区間特定手段は、前記複数の指定時刻それぞれに対応する興味区間を抽出し、
    前記興味区間特定装置は、更に、
    前記複数の指定時刻それぞれに対応する興味区間を前記複数の指定時刻で示される時刻の順で外部記憶装置に記録する記録手段を備える
    ことを特徴とする請求項2記載の興味区間特定装置。
  14. 前記記録手段は、前記複数の指定時刻それぞれに興味区間を前記複数の指定時刻で示される時刻の順に統合した統合データを前記外部記憶装置に記録する
    ことを特徴とする請求項13記載の興味区間特定装置。
  15. 前記興味区間特定装置は、更に、
    ユーザから前記動画ファイルにおける再生時間上の特定期間を指定する特定期間指定手段を備え、
    前記指定時刻取得手段は、前記特定期間における画像データそれぞれの特徴量の時間変化に基づいて、当該特定期間内から前記指定時刻を取得する
    ことを特徴とする請求項2記載の興味区間特定装置。
  16. 前記興味区間特定装置は、更に、
    前記興味区間特定手段が特定した興味区間に係る興味区間情報を前記動画ファイルに付与する興味区間情報付与手段を備える
    ことを特徴とする請求項1記載の興味区間特定装置。
  17. 前記興味区間情報付与手段は、前記興味区間情報として興味区間の始点となる位置に始点フラグおよび/または興味区間の終点となる位置に終点フラグを前記動画ファイルに付与する
    ことを特徴とする請求項16記載の興味区間特定装置。
  18. 前記興味区間特定装置は、更に、前記興味区間特定手段が特定した興味区間を前記動画ファイルから抽出する興味区間抽出手段を備える
    ことを特徴とする請求項1記載の興味区間特定装置。
  19. 前記興味区間特定装置は、更に、予め興味区間候補が指定されている動画ファイルを取得する取得手段を備え、
    前記微細構造判定手段は、予め指定されている興味区間候補について、その始端部分、または、終端部分の第1区間に微細構造があるか否かを判定し、
    前記興味区間特定手段は、前記取得手段が取得した予め興味区間候補が指定されている動画ファイルにおける興味区間を特定する
    ことを特徴とする請求項1記載の興味区間特定装置。
  20. 動画ファイルに含まれるオーディオ信号に基づいて、前記動画ファイル中でユーザが興味を示すと推測されるユーザの興味区間を特定する興味区間特定装置による興味区間特定方法であって、
    前記動画ファイル中で、前記興味区間の候補となる興味区間候補を抽出する興味区間候補抽出ステップと、
    前記興味区間候補に特定の微細構造が含まれるか否かを判定する微細構造判定ステップと、
    前記微細構造判定ステップにより、前記微細構造が含まれると判定された場合に前記微細構造を含み前記興味区間候補よりも短い特定区間を解析して、興味区間を特定する興味区間特定ステップと
    を含むことを特徴とする興味区間特定方法。
  21. 動画ファイルに含まれるオーディオ信号に基づいて、前記動画ファイル中でユーザが興味を示すと推測されるユーザの興味区間を特定する興味区間特定処理をコンピュータに実行させる興味区間特定プログラムであって、
    前記興味区間特定処理は、
    前記動画ファイル中で、前記興味区間の候補となる興味区間候補を抽出する興味区間候補抽出ステップと、
    前記興味区間候補に特定の微細構造が含まれるか否かを判定する微細構造判定ステップと、
    前記微細構造判定ステップにより、前記微細構造が含まれると判定された場合に前記微細構造を含み前記興味区間候補よりも短い特定区間を解析して、興味区間を特定する興味区間特定ステップと
    を含むことを特徴とする興味区間特定プログラム。
  22. 動画ファイルに含まれるオーディオ信号に基づいて、指定時刻を含むユーザの興味区間を特定する興味区間特定集積回路であって、
    前記動画ファイル中で、前記興味区間の候補となる興味区間候補を抽出する興味区間候補抽出手段と、
    前記興味区間候補に特定の微細構造が含まれるか否かを判定する微細構造判定手段と、
    前記微細構造判定手段により、前記微細構造が含まれると判定された場合に前記微細構造を含み前記興味区間候補よりも短い特定区間を解析して、興味区間を特定する興味区間特定手段と
    を備えることを特徴とする興味区間特定集積回路。
JP2013517829A 2011-06-02 2012-04-24 興味区間特定装置、興味区間特定方法、興味区間特定プログラム、及び、興味区間特定集積回路 Active JP5723446B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013517829A JP5723446B2 (ja) 2011-06-02 2012-04-24 興味区間特定装置、興味区間特定方法、興味区間特定プログラム、及び、興味区間特定集積回路

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2011124498 2011-06-02
JP2011124498 2011-06-02
PCT/JP2012/002788 WO2012164818A1 (ja) 2011-06-02 2012-04-24 興味区間特定装置、興味区間特定方法、興味区間特定プログラム、及び、興味区間特定集積回路
JP2013517829A JP5723446B2 (ja) 2011-06-02 2012-04-24 興味区間特定装置、興味区間特定方法、興味区間特定プログラム、及び、興味区間特定集積回路

Publications (2)

Publication Number Publication Date
JPWO2012164818A1 JPWO2012164818A1 (ja) 2015-02-23
JP5723446B2 true JP5723446B2 (ja) 2015-05-27

Family

ID=47258696

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013517829A Active JP5723446B2 (ja) 2011-06-02 2012-04-24 興味区間特定装置、興味区間特定方法、興味区間特定プログラム、及び、興味区間特定集積回路

Country Status (4)

Country Link
US (1) US9031384B2 (ja)
JP (1) JP5723446B2 (ja)
CN (1) CN103053173B (ja)
WO (1) WO2012164818A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105323531A (zh) * 2014-06-30 2016-02-10 三亚中兴软件有限责任公司 视频会议热点场景的检测方法和装置
CN105632503B (zh) * 2014-10-28 2019-09-03 南宁富桂精密工业有限公司 信息隐藏方法及系统
US10535371B2 (en) 2016-09-13 2020-01-14 Intel Corporation Speaker segmentation and clustering for video summarization
US10127943B1 (en) * 2017-03-02 2018-11-13 Gopro, Inc. Systems and methods for modifying videos based on music
CN109473123B (zh) * 2018-12-05 2022-05-31 百度在线网络技术(北京)有限公司 语音活动检测方法及装置
CN110516083B (zh) * 2019-08-30 2022-07-12 京东方科技集团股份有限公司 相册管理方法、存储介质及电子设备
US11144764B1 (en) * 2020-09-30 2021-10-12 Cbs Interactive Inc. Systems, methods, and storage media for selecting video portions for a video synopsis of streaming video content

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2960939B2 (ja) 1989-08-24 1999-10-12 日本電信電話株式会社 シーン抽出処理方法
US6600874B1 (en) 1997-03-19 2003-07-29 Hitachi, Ltd. Method and device for detecting starting and ending points of sound segment in video
JP3955418B2 (ja) 1999-08-17 2007-08-08 株式会社日立国際電気 動画像編集装置
US7286749B2 (en) * 2002-04-16 2007-10-23 Canon Kabushiki Kaisha Moving image playback apparatus, moving image playback method, and computer program thereof with determining of first voice period which represents a human utterance period and second voice period other than the first voice period
JP3891111B2 (ja) 2002-12-12 2007-03-14 ソニー株式会社 音響信号処理装置及び方法、信号記録装置及び方法、並びにプログラム
KR100612842B1 (ko) * 2004-02-28 2006-08-18 삼성전자주식회사 앵커 샷 결정방법 및 결정장치
JP2005260391A (ja) 2004-03-10 2005-09-22 Nippon Telegr & Teleph Corp <Ntt> 動画像表示装置、動画像表示方法、動画像表示プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2008124551A (ja) * 2006-11-08 2008-05-29 Matsushita Electric Ind Co Ltd ダイジェスト作成装置
JP4962783B2 (ja) * 2007-08-31 2012-06-27 ソニー株式会社 情報処理装置および情報処理方法、並びにプログラム
CN101359365B (zh) * 2008-08-07 2011-04-13 电子科技大学中山学院 一种基于最大类间方差和灰度信息的虹膜定位方法
JP5460709B2 (ja) * 2009-06-04 2014-04-02 パナソニック株式会社 音響信号処理装置および方法
CN102237084A (zh) * 2010-04-22 2011-11-09 松下电器产业株式会社 声音空间基准模型的在线自适应调节方法及装置和设备
JP5092000B2 (ja) * 2010-09-24 2012-12-05 株式会社東芝 映像処理装置、方法、及び映像処理システム
US8942540B2 (en) * 2011-01-05 2015-01-27 Panasonic Intellectual Property Corporation Of America Interesting section extracting device, interesting section extracting method

Also Published As

Publication number Publication date
CN103053173B (zh) 2016-09-07
US9031384B2 (en) 2015-05-12
CN103053173A (zh) 2013-04-17
WO2012164818A1 (ja) 2012-12-06
JPWO2012164818A1 (ja) 2015-02-23
US20130108244A1 (en) 2013-05-02

Similar Documents

Publication Publication Date Title
JP5723446B2 (ja) 興味区間特定装置、興味区間特定方法、興味区間特定プログラム、及び、興味区間特定集積回路
KR102085908B1 (ko) 컨텐츠 제공 서버, 컨텐츠 제공 단말 및 컨텐츠 제공 방법
RU2494566C2 (ru) Устройство и способ управления отображением
US7945439B2 (en) Information processing apparatus, information processing method, and computer program
KR100828166B1 (ko) 동영상의 음성 인식과 자막 인식을 통한 메타데이터 추출방법, 메타데이터를 이용한 동영상 탐색 방법 및 이를기록한 기록매체
JP6039577B2 (ja) 音声処理装置、音声処理方法、プログラムおよび集積回路
US8200061B2 (en) Signal processing apparatus and method thereof
CN104980790B (zh) 语音字幕的生成方法和装置、播放方法和装置
JP2004229283A (ja) ニュースビデオにおいてニュース司会者の遷移を識別する方法
JP2006319980A (ja) イベントを利用した動画像要約装置、方法及びプログラム
JP2008022103A (ja) テレビ番組動画像ハイライト抽出装置及び方法
US8942540B2 (en) Interesting section extracting device, interesting section extracting method
US7243062B2 (en) Audio segmentation with energy-weighted bandwidth bias
JP5620474B2 (ja) アンカーモデル適応装置、集積回路、AV(AudioVideo)デバイス、オンライン自己適応方法、およびそのプログラム
KR20200046327A (ko) 컨텐츠 제공 서버, 컨텐츠 제공 단말 및 컨텐츠 제공 방법
JP2011013731A (ja) 情報処理装置、情報処理方法、およびプログラム
US9113269B2 (en) Audio processing device, audio processing method, audio processing program and audio processing integrated circuit
KR20200049047A (ko) 컨텐츠 제공 서버, 컨텐츠 제공 단말 및 컨텐츠 제공 방법
CN115567670B (zh) 会议检视方法及装置
US11386658B2 (en) Information processing apparatus and non-transitory computer readable medium
JP5254900B2 (ja) 映像再構成方法、映像再構成装置および映像再構成プログラム
CN118018798A (zh) 基于人工智能模型的语音、视频训练方法和相关装置
JP2003271177A (ja) 特徴量抽出方法、音声および音響に関する識別装置、画像および画像状態に関する識別装置ならびに特徴量抽出プログラム
JP2014206667A (ja) 音声出力装置、音声出力方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141208

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150303

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150327

R150 Certificate of patent or registration of utility model

Ref document number: 5723446

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150