JP2004023798A

JP2004023798A - デジタルビデオからビデオクリップレットを自動的に生成するためのシステム及びその方法

Info

Publication number: JP2004023798A
Application number: JP2003175466A
Authority: JP
Inventors: Kentaro Toyama; ケンタロウ　トヤマ; Nebojsa Jojic; ネフヨサ　ヨイック; Jaco Vermaak; ヤコ　バーマーク
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2002-06-19
Filing date: 2003-06-19
Publication date: 2004-01-22
Also published as: EP1376584A3; US8238718B2; EP1376584A2; US20030234803A1

Abstract

【課題】より大きいソースビデオから短いビデオセグメント（ビデオクリップレット）を自動的に生成するためのシステム及びその方法を提供すること。
【解決手段】クリップレットは、長さが、生成に先立って決定されており、単一の短いイベントまたはテーマを含むという特性を有する。クリップレット生成方法は、大きいソースビデオ２１０を処理して、ユーザなどにクリップレット結果を生成する。この方法は、ソースビデオを処理して編集ポイントを決定し、次に、その編集ポイントに基づいてソースビデオからクリップレットを抽出する。抽出されたクリップレットは、時間が重なり合うことが可能である。次に、クリップレット結果は、ユーザなどに提示される。クリップレット生成システムは、クリップレット生成方法に従って大きいソースビデオ２１０を処理して、クリップレットを生成するビデオクリップレット生成器２００を含んでいる。
【選択図】　　　　図２

Description

【０００１】
【発明の属する技術分野】
本発明は、デジタルビデオからビデオクリップレット（ｖｉｄｅｏ　ｃｌｉｐｌｅｔ）を自動的に生成するためのシステム及びその方法に関し、より詳細には、デジタル化されたビデオおよびその他のデジタルマルチメディアから短いビデオセグメント（またはビデオ「クリップレット」）を自動的に生成するためのシステム及びその方法に関する。
【０００２】
【従来の技術】
ビデオカメラ（またはカムコーダ（ｃａｍｃｏｒｄｅｒ））は、家庭で使用する、アマチュアのビデオカメラ撮影者（ａｍａｔｅｕｒ　ｖｉｄｅｏｇｒａｐｈｅｒ）に人気の高いデバイスである。ビデオカメラは、デジタルビデオをメモリデバイスに記憶するデジタルカメラであること、またはビデオ映像（ｖｉｄｅｏｆｏｏｔａｇｅ）を磁気ビデオテープに記憶するアナログのビデオカメラであることが可能である。アナログのビデオカメラでキャプチャされたビデオ映像は、周知の技術を使用してデジタル化された形式に変換することができる。デジタルビデオは、計算デバイス（パーソナルコンピュータなどの）上で実行されるソフトウェアを使用して処理して、ビデオカメラでキャプチャされたデータを編集し、操作することができる。
【０００３】
従来のホームデジタルビデオのパラダイムでは、ユーザが、良好なビデオを撮影し、時間のかかるビデオ編集を行ってから、編集済みのムービーを含む単一の長いビデオを出力することを予期している。しかし、このパラダイムは、いくつかの問題を抱えている。１つの問題は、観るのを楽しむことができる良好なビデオは、写すこと、または撮影するのが困難なことである。ホームデジタルビデオは、圧倒的に、アマチュアのビデオカメラ撮影者によって撮影されている。これらのアマチュアは、一般に、ビデオを撮影することの訓練をほとんど受けておらず、したがって、しばしば、何をどのようにビデオに撮影するかについてまずい判断をする。結果として観づらいビデオ映像がもたらされる。
【０００４】
他の問題は、生のビデオ映像は、プロによって撮影された（ｐｒｏｆｅｓｓｉｏｎａｌｌｙ　ｐｈｏｔｏｇｒａｐｈｅｄ）ときでも、編集するのが困難であり、時間がかかることである。プロの訓練を受けており、ハイエンド（ｈｉｇｈ−ｅｎｄ）のツールを使用するプロの編集者が生のビデオをたった数分間の長さの最終バージョンに編集するのに、数時間かかる可能性がある。さらに、ほとんどの生のビデオ映像は退屈であり、数時間の生のビデオを精査することは、特にアマチュアには、極めて退屈なタスクである。
【０００５】
さらに他の問題は、アマチュアが使用するための現在のビデオ編集ソフトウェアが、プロ用の編集システムをモデルにしていることである。これにより、ソフトウェアが平均的な消費者に使いづらいものになりがちである。現在のビデオ編集ソフトウェアのユーザインターフェースは、通常、生のビデオ映像の１つのビューをユーザに提供する。タイムライン（ｔｉｍｅｌｉｎｅ）を映像に沿って配置して、ユーザに時間上のオリエンテーション（ｔｅｍｐｏｒａｌ　ｏｒｉｅｎｔａｔｉｏｎ）を与える。タイムラインは、ビデオ１トラック、ビデオ２トラック、オーディオ１トラックなどの、いくつかの異なる「トラック（ｔｒａｃｋ）」を含むことが可能である。ユーザインターフェースは、再生ボタン、早送りボタン、および巻戻しボタンなどの、ＶＣＲと同様のコントロールを含む。これらのボタンを使用して、ユーザは、コントロールを使用して映像を先に進めたり、後に戻したりすることによってビデオ映像をブラウズする。ビデオ映像をブラウズするこのプロセスは、「スクラビング（ｓｃｒｕｂｂｉｎｇ）」と呼ばれる。
【０００６】
ユーザは、興味を引くビデオ映像を見出すと、開始のカットおよび終了のカットをタイムライン上に置く。この２つのカットの間に、ユーザが保持することを望むビデオ映像が存在する。ビデオ映像上にカットを置くこのプロセスをビデオ映像のその他の部分に関して繰り返すことができる。ビデオをスクラビングしてビデオ映像の中でカットの場所を決定するこの編集プロセスは、退屈で、繰り返しが多く、時間がかかるタスクであり、手作業で行われなければならない。したがって、平均的な消費者には、ビデオを編集するプロセスは、困難で厄介なタスクである。
【０００７】
他の問題は、デジタル化されたビデオは、しばしば、大きく、したがって、必要とされるメモリおよび処理能力の量のためにコンピュータを使用して操作し、編集することが困難であることである。大きいビデオは、アップロードするのにも、ダウンロードするのにも長い時間がかかる可能性がある。さらに、サイズのため、大きいビデオを編集することは、ハイエンドのホームコンピュータの場合でさえ、リソースに重い負担がかかる可能性がある。
【０００８】
したがって、劣ったビデオ撮影技能を許容し、ビデオを編集することをそれほど退屈でなく、より短時間で、より容易なものにし、扱いにくい大きいビデオで作業する必要性を緩和するホームデジタルビデオパラダイムの必要性がある。
【０００９】
【発明が解決しようとする課題】
本発明は、より長い単位のビデオ（つまりソースビデオ）を分割することによってビデオクリップレット（「クリップレット」）を自動的に生成するためのシステム及びその方法に関するものである。クリップレットは、極度に短いデジタルビデオセグメントである。クリップレットは、次の特徴を有する。第１に、クリップレットの長さに対する制約が、クリップレット生成に先立って決定されている。通常、クリップレットの持続時間は、５秒間から１０秒間までの範囲にある。第２に、クリップレットは、必ずしも独立したビデオではなく、より大きいビデオに対するポインタと、セグメントエンドポイントの指示が一緒にされたものであることが可能である。第３に、理想的には、クリップレットは、独立することができるビデオの意味的に重要な部分である。言い換えれば、クリップレットは、見る人が、サウンドバイトなどの単一の短いイベントまたはテーマと見なすものを含んでいる。
【００１０】
本発明は、このような問題に鑑みてなされたもので、その目的とするところは、より長い単位のビデオを分割することによってビデオクリップレットを自動的に生成するためのシステム及びその方法を提供することにある。
【００１１】
【課題を解決するための手段】
本発明のクリップレット生成のシステム及びその方法は、大きいソースビデオではなく、クリップレット、つまり非常に短い持続時間のビデオを主な操作単位とすることにより、従来のホームビデオパラダイムの問題を克服する。具体的には、ビデオクリップレットを使用するホームビデオパラダイムにより、ホームビデオが抱える現在の問題のほとんどすべてが軽減または緩和される。クリップレットの概念を使用することで、アマチュアのビデオカメラ撮影者でさえ、よりよい撮影者、よりよいビデオ編集者になることができる。クリップレットが基本的なビデオ単位であるとき、ユーザは、自らのビデオ撮影（ｖｉｄｅｏｇｒａｐｈｙ）を、クリップレットを撮影することとして考え始める。クリップレットに留意して撮影することは、生のビデオ撮影がより密度の高い内容を有することになることを意味し、これは、ショットがより興味を引くものになることを意味する。また、行われるあらゆる編集が、長く退屈に続くビデオではなく、短いビデオセグメントに対して行われることも意味する。
【００１２】
クリップレットは、定義からして、通常のビデオより小さい。サイズがより小さいため、クリップレットは、コンピュータのリソースに重い負担をかけることなく、ホームコンピュータ上で、大きいソースビデオよりも容易に操作することができる。さらに、本発明のクリップレット生成のシステム及びその方法は、大きいソースビデオからクリップレットを自動的に生成し、そのクリップレットをユーザに提示する。クリップレットの開始カットおよび終了カット（つまり編集ポイント）は、ユーザがソースビデオのスクラビング（ｓｃｒｕｂｂｉｎｇ）を行うことを必要とせずに、自動的に生成される。これは、ユーザが、数時間の生のビデオ撮影を閲覧する代わりにクリップレットを使用してソースビデオを操作し、編集するだけでよいことを意味する。クリップレット生成のシステムおよび方法により、大きいソースビデオの編集が、特にアマチュアにとって、より容易で、より楽しめるものになる。
【００１３】
一般に、クリップレット生成方法は、大きいソースビデオを処理して、クリップレット結果を提示する（ユーザなどに）ために生成する。具体的には、この方法は、ソースビデオを入力として取り込み、そのソースビデオを処理して可能な編集ポイントを決定する。これらの編集ポイントは、ソースビデオの中でカットが行われるべきポイントであり、特定のクリップレットに対する開始ポイントおよび終了ポイントを表わす。編集ポイントが決定されると、次に、クリップレットが、その編集ポイントに基づいてソースビデオから抽出される。クリップレットは、重なり合うことが可能であり、このことは、第１のクリップレットの終了ポイントが、ソースビデオの中で第２のクリップレットの開始ポイントよりも後にくることが可能であることを意味する。クリップレットは、ソースビデオ全体をカバーしていない可能性があり、これは、２つの隣接するクリップレットの間に空隙があることを意味する。次に、クリップレット生成結果が提示される。クリップレット生成結果は、１組のビデオクリップレット（サムネールまたはプレビュー用ビデオ（ｐｒｅｖｉｅｗｅｄ　ｖｉｄｅｏ））、クリップレット編集ポイント、ビデオクリップレット評価（ｒａｔｉｎｇ）、および１組のキーフレームの任意の１つまたは複数、または任意の組み合わせを含む。
【００１４】
クリップレット生成システムは、大きいソースビデオを処理して、前述したクリップレット生成方法に従ってクリップレットを生成するビデオクリップレット生成器を含む。ビデオクリップレット生成器は、編集ポイントを決定するための２つのモジュールを含む。このモジュールのそれぞれを独立で、または組み合わせで使用することができる。まず、サブショット境界検出器（ｓｕｂ−ｓｈｏｔｂｏｕｎｄａｒｙ　ｄｅｔｅｃｔｏｒ）を使用して、利用可能な技術に応じて規定することができる新しいショット境界またはサブショット境界に基づき、編集ポイントを決定する。次に、制約適用モジュールを使用して、クリップレット時間制約に基づいて編集ポイントを決定する。
【００１５】
また、ビデオクリップレット生成器は、編集ポイントを使用してソースビデオからクリップレットを抽出するビデオクリップレット抽出器も含む。ビデオクリップレット評価モジュールを使用して、各クリップレットとともに記憶されている情報に基づき、個々のクリップレットに「興味度評価（ｉｎｔｅｒｅｓｔ　ｒａｔｉｎｇ）」を割り当てる。キーフレーム特定モジュールを使用して、個々のクリップレットに関する１つまたは複数のキーフレームを特定する。キーフレームは、個々のクリップレットを代表し、要約するビデオフレームである。
【００１６】
本発明は、本発明の態様を例示する以下の説明および添付の図面を参照することによってさらに理解することができる。その他の特徴および利点は、本発明の原理を例として示す添付の図面と併せて考慮される本発明の以下の詳細な説明から明白となる。
【００１７】
【発明の実施の形態】
以下、図面を参照して本発明の実施例について説明する。
本発明の以下の説明では、説明の一部を成す添付の図面を参照し、図面では、例として、本発明を実施することができる特定の例を示している。本発明の技術的範囲を逸脱することなく、その他の実施形態を利用することも可能であり、また、構造上の変更を加えることも可能であることを理解されたい。
【００１８】
Ｉ．ビデオクリップレットの概説
本発明で説明するクリップレット生成のシステム及びその方法は、ソースビデオを処理してビデオクリップレットを生成する。一般に、ビデオクリップレット（または「クリップレット」）は、大きいソースビデオを小さくカットすることによって生成される極短いデジタルビデオセグメントである。クリップレットの長さは、ユーザによって手作業で決定された、またはクリップレット生成のシステムおよび方法によって自動的に決定されたハードな制約またはソフトな制約によって制限される。通常、ビデオクリップレットの長さは、およそ５秒間から１０秒間までの範囲にあるものとされるが、実際には、任意の長さであることが可能である。
【００１９】
クリップレット生成の目的は、ショット境界と従来考えられているものを２次的にしか考慮せずに、意味のある短いビデオセグメントを抽出することである。したがって、クリップレットは、（サウンドバイトを検出しようと試みるなどの）オーディオキュー、または（ズームインされたクローズアップを検出しようと試みるなどの）ビデオキューなどの他の従来のものではないキューに基づくことが可能である。さらに、クリップレットは、重なり合うことが可能である。クリップレットは、大きいソースビデオ全体のすべてをカバーしなくてもよい。これは、ソースビデオの全く退屈でつまらないセクションを全部、除外できることを意味する。以上のすべてにより、各クリップレットを意味的に重要なビデオ部分にするという目的が達せられる。
【００２０】
以下の特徴により、クリップレットは、他のビデオセグメントから区別される。第１に、生成に先立ち、長さ制約（すなわち、クリップレットの長さの制約）が決定される。この制約は、ハードな上限および下限の形態をとること、またはソースビデオ全体にわたる平均クリップレット長、サブショット境界の頻度、クリップレット長の分散、オーディオまたはビデオのローカルな特徴などのその他の要因を考慮に入れるソフトな制約であることが可能である。第２に、クリップレットは、必ずしも独立したビデオである必要がない。クリップレットは、クリップレットを抽出するための大きいソースビデオをどこでカットするかを表わす１対の開始ポイントおよび停止ポイントであること、またはビデオのサブシーケンスの任意の他の表現であることが可能である。第３に、クリップレットは、閲覧者が、単一の短いイベント（サウンドバイトなどの）であると見なす可能性があるものを含む意味的に重要なビデオ部分である。クリップレットは、そのクリップレットをより大きいソースビデオから際立たせる単一のテーマ、または共通スレッド（ｃｏｍｍｏｎ　ｔｈｒｅａｄ）を有する。
【００２１】
より長いソースビデオと比べてクリップレットの長さが比較的短いことにより、クリップレットを、デジタルビデオではなくデジタル写真のように操作することが可能になる。ビデオクリップレットにより、操作や記憶することが厄介である大きいビデオから逃れることが可能になる。クリップレットは、長く退屈なビデオではなく、短く、刺激的なビデオセグメントに焦点を当てる。消費者は、いくつかの興味を引く場面だけを含む数時間の長いビデオを観ることで退屈することになりがちである。早送りボタンを常に使用する代わりに、クリップレットにより、ユーザは、長いビデオの興味を引く場面、つまり「核心」を抽出することができるようになる。
【００２２】
また、クリップレットは、大きいビデオより、操作し、記憶することが容易である。ビデオのサイズが大きいことにより、ビデオをアップロードして共有することに対するユーザの抵抗が、大きいビデオからクリップレットを生成することによって最小限に抑えられる。クリップレットにより、数メガバイトまたは数ギガバイトのビデオが回避される。定義からして、クリップレットは、大きいビデオより小さい。したがって、メモリ、ストレージ、処理能力、帯域幅、または人間の注意が限られているために大きいビデオに対しては実際的でない操作を、クリップレットに対しては容易に行うことができる。クリップレットは、サイズがより小さいため、大きいビデオと比べて、アップロード時間がより短く、帯域幅に対する要求がより少なく、より小さいディスクスペースしか必要とせず、また一般に、管理するのがより容易である。
【００２３】
デジタル写真に適用されるほとんどの操作は、ビデオクリップレットに関してもそれに類するものがある。ビデオクリップレットは、サイズが小さいため、タイムスタンプおよび総ピクセル統計で編成されたサムネールを使用してブラウズすること、ドキュメントにカットアンドペースト（ｃｕｔ　ａｎｄ　ｐａｓｔｅ）を行うこと、および電子メールを介して容易に送信することが可能である。理論上、以上の操作のほとんどが、ビデオに関して既に存在しているが、実際には、通常のホームビデオが余りにも大きく、余りにも長く、余りにも退屈であるため、消費者がその機能を使用することはめったにない。大きいビデオを処理することができないイメージ処理アルゴリズムおよびコンピュータビジョンアルゴリズムをクリップレットに対して容易に使用することができる。イメージ安定化、色補正、パノラマ生成、３次元深度理解（ｔｈｒｅｅ−ｄｉｍｅｎｓｉｏｎａｌｄｅｐｔｈ　ｕｎｄｅｒｓｔａｎｄｉｎｇ）、顔認識（ｆａｃｅ　ｒｅｃｏｇｎｉｔｉｏｎ）、個人追跡（ｐｅｒｓｏｎ　ｔｒａｃｋｉｎｇ）などの技術をクリップレットに対してリアルタイムで使用することができる。
【００２４】
図１は、より長い単位のビデオ（ソースビデオ）およびビデオフレームとの関係でビデオクリップレットの概念を示す図である。長さ、つまり時間Ｔのデジタルソースビデオ１００が、複数のビデオフレーム１０５を含む。図１に示すとおり、デジタルソースビデオ１００は、複数のクリップレットＣ（１）ないしＣ（Ｎ）に分割される。これらのクリップレットは、様々な長さであることが可能である。
【００２５】
以上に説明したとおり、クリップレットＣ（１）ないしＣ（Ｎ）のそれぞれは、デジタルソースビデオ１００の意味的に重要な部分である。一部のケースでは、２つまたはそれより多くのクリップレットの時間が重なり合い、したがって、同一のビデオフレームを共有することが可能である。図１を参照すると、クリップレットＣ（４）が、長さＴ（４）を有し、クリップレットＣ（５）が、長さＴ（５）を有する。Ｔ（４）はＴ（５）より短いものの、クリップレットＣ（４）とＣ（５）は時間が重なり合っている。さらにクリップレットＣ（４）とＣ（５）は、符号１１０で示されるビデオフレームを共有している。
【００２６】
ＩＩ．システムの概要
本発明は、より大きいソースビデオから短いビデオクリップを生成するための自動化されたクリップレット生成のシステム及びその方法を含む。この完全に自動化されたクリップレット生成のシステムおよび方法は、編集ポイントを決定し、その編集ポイントを使用してソースビデオからクリップレットを抽出し、クリップレット、およびその他のクリップレット情報をユーザに提示する。編集ポイントは、時間制約およびサブショット境界を使用することを含め、様々な仕方で決定することができる。
【００２７】
図２は、本発明のクリップレット生成システム１９０の概要を示すブロック図である。一般に、図２に示すとおり、システム１９０は、デジタルビデオデータ獲得構成要素、ビデオクリップレット生成構成要素、およびクリップレット提示構成要素を含む。より具体的には、デジタルビデオデータ獲得は、ビデオクリップレット生成器２００がどのようにデジタルビデオデータ２０５を獲得するかに関する。デジタルビデオデータ２０５は、大きいソースビデオ２１０に含まれる。最初、カメラ２１５を使用して、ある場面（図示せず）のイメージがキャプチャされる。カメラ２１５は、デジタルビデオカメラまたはアナログビデオカメラであること、あるいはビデオデータをキャプチャすることができるデジタルカメラであることが可能である。カメラ２１５がデジタルカメラである場合、キャプチャされたビデオデータは、記憶媒体２２０の中に記憶されるか、またはビデオクリップレット生成器２００に直接に送られる。カメラ２１５がアナログカメラである場合、キャプチャされたビデオデータは、アナログ−デジタル変換器２３０を使用してデジタル形式に変換しなければならない。前の場合と同じく、この変換されたデータは、記憶媒体に記憶すること、またはビデオクリップレット生成器２００に直接に送ることができる。
【００２８】
デジタルビデオデータ２０５を含む大きいソースビデオ２１０は、獲得されると、ビデオクリップレット生成器２００に送られる。通常、大きいソースビデオ２１０は、アマチュアのビデオカメラ撮影者によってキャプチャされたおよそ２時間の長さのホームビデオである。計算デバイス（ｃｏｍｐｕｔｉｎｇ　ｄｅｖｉｃｅ）２４０上に配置されたビデオクリップレット生成器２００を使用して、大きいソースビデオ２１０から小さいビデオセグメント、つまりクリップレットが抽出される。クリップレットがビデオクリップレット生成器２００によって生成された後、次に、ビデオクリップレットユーザインターフェース２６０を含むモニタ２５０を使用して、各クリップレットがユーザ（図示せず）に提示される。ビデオクリップレットユーザインターフェース２６０により、ユーザは、クリップレットを操作し、管理することができるようになる。
【００２９】
ＩＩＩ．例示的な動作環境およびシステムの詳細
本発明のビデオクリップレット生成システム１９０は、計算環境において動作するように設計されている。以下の説明は、本発明を実施することができる適切な計算環境の簡単な一般的説明を提供することを意図している。
【００３０】
図３は、本発明を実施するのに適した計算装置を示すブロック図である。必須ではないが、本発明は、コンピュータによって実行される、プログラムモジュールなどのコンピュータ実行可能命令の一般的なコンテキストで説明する。一般に、プログラムモジュールには、特定のタスクを行う、または特定の抽象データタイプを実装するルーチン、プログラム、オブジェクト、構成要素、データ構造等が含まれる。さらに、本発明は、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドデバイス、マルチプロセッサシステム、マイクロプロセッサベースの家庭用電化製品またはプログラマブル家庭用電化製品、ネットワークＰＣ、ミニコンピュータ、メインフレームコンピュータ等を含め、様々なコンピュータシステム構成で実施してもよいことが、当分野の技術者には理解されよう。また、本発明は、タスクが、通信網を介してリンクされた遠隔の処理デバイスによって行われる分散計算環境において実施してもよい。分散計算環境では、プログラムモジュールは、メモリ記憶媒体を含め、ローカルのコンピュータ記憶媒体と遠隔のコンピュータ記憶媒体の上に配置されていることが可能である。
【００３１】
図３を参照すると、本発明を実施するための例示的なシステムが、図２に示された汎用計算デバイス２４０を含んでいる。図３は、計算デバイス２４０の詳細を示している。詳細には、計算デバイス２４０は、処理ユニット３０２、システムメモリ３０４、ならびにシステムメモリ３０４から処理ユニット３０２までを含む様々なシステム構成要素を結合するシステムバス３０６を含む。システムバス３０６は、様々なバスアーキテクチャの任意のものを使用するメモリバスまたはメモリコントローラ、周辺バス、およびローカルバスを含むいくつかのタイプのバス構造の任意のものであることが可能である。システムメモリは、読取り専用メモリ（ＲＯＭ）３１０およびランダムアクセスメモリ（ＲＡＭ）３１２を含む。始動中などに、計算デバイス２４０内部の要素間で情報を転送するのを助ける基本ルーチンを含む基本入力／出力システム（ＢＩＯＳ）３１４が、ＲＯＭ３１０の中に記憶されている。計算デバイス２４０は、図示していないハードディスクに対して読取りおよび書込みを行うためのハードディスクドライブ３１６、取外し可能な磁気ディスク３２０に対して読取りおよび書込みを行うための磁気ディスクドライブ３１８、およびＣＤ−ＲＯＭまたはその他の光媒体などの取外し可能な光ディスク３２４に対して読取りおよび書込みを行うための光ディスクドライブ３２２をさらに含む。ハードディスクドライブ３１６、磁気ディスクドライブ３２８、および光ディスクドライブ３２２は、それぞれ、ハードディスクドライブインターフェース３２６、磁気ディスクドライブインターフェース３２８、および光ディスクドライブインターフェース３３０でシステムバス３０６に接続される。以上のドライブ、および関連するコンピュータ読み取り可能な記録媒体により、コンピュータ可読命令、データ構造、プログラムモジュール、およびその他のデータの不揮発性のストレージが、計算デバイス２４０に提供される。
【００３２】
本発明で説明する例示的な環境は、ハードディスク、取外し可能な磁気ディスク３２０、および取外し可能な光ディスク３２４を使用するが、磁気カセット、フラッシュメモリカード、デジタルビデオディスク、ベルヌーイカートリッジ、ランダムアクセスメモリ（ＲＡＭ）、読取り専用メモリ（ＲＯＭ）などの、コンピュータがアクセスすることができるデータを記憶することができる他のタイプのコンピュータ読み取り可能な記録媒体も、例示的な動作環境において使用できる。
【００３３】
オペレーティングシステム３３２、１つまたは複数のアプリケーションプログラム３３４、その他のプログラムモジュール３３６（ビデオクリップレット生成器２００などの）、およびプログラムデータ３３８を含め、いくつかのプログラムモジュールをハードディスク、磁気ディスク３２０、光ディスク３２４、ＲＯＭ３１０またはＲＡＭ３１２に記憶することができる。ユーザ（図示せず）は、キーボード３４０やポインティングデバイス３４２などの入力デバイスを介して、コマンドおよび情報を計算デバイス２４０に入力することができる。さらに、カメラ３４３（ビデオカメラなどの）、ならびに、例えば、マイクロホン、ジョイスティック、ゲームパッド、サテライトディッシュ、スキャナ等を含むその他のデバイス（図示せず）が、計算デバイス２４０に接続されていることが可能である。以上の他の入力デバイスは、しばしば、システムバス３０６に結合されたシリアルポートインターフェース３４４を介して処理ユニット３０２に接続されるが、パラレルポート、ゲームポート、またはユニバーサルシリアルバス（ｕｎｉｖｅｒｓａｌ　ｓｅｒｉａｌ　ｂｕｓ）（ＵＳＢ）などの他のインターフェースで接続してもよい。また、モニタ２５０または他の種類の表示装置も、ビデオアダプタ３４８などのインターフェースを介してシステムバス３０６に接続される。モニタ３４６に加えて、パーソナルコンピュータなどの計算デバイスは、通常、スピーカやプリンタなどの他の周辺出力デバイス（図示せず）も含む。
【００３４】
計算デバイス２４０は、遠隔コンピュータ３５０のような１つまたは複数の遠隔コンピュータに対する論理接続を使用するネットワーク化された環境において動作することが可能である。遠隔コンピュータ３５０は、別のパーソナルコンピュータ、サーバ、ルータ、ネットワークＰＣ、ピアデバイス、またはその他の一般的なネットワークノードであることが可能であり、通常、計算デバイス２４０に関連して前述した要素および特徴の多く、またはすべてを含む。ただし、メモリ記憶デバイス３５２だけを図３に示している。図３に描いた論理接続は、ローカルエリアネットワーク（ＬＡＮ）３５４およびワイドエリアネットワーク（ＷＡＮ）３５６を含む。そのようなネットワーキング環境は、オフィス、企業全体のコンピュータ網、イントラネット、およびインターネットにおいて一般的である。
【００３５】
ＬＡＮネットワーキング環境において使用されるとき、計算デバイス２４０は、ネットワークインターフェースまたはネットワークアダプタ３５８を介してローカルネットワーク３５４に接続される。ＷＡＮネットワーキング環境において使用されるとき、計算デバイス２４０は、通常、インターネットなどのワイドネットワーク３５６を介して通信を確立するためのモデム３６０またはその他の手段を含む。内部にあることも、外部にあることも可能なモデム３６０は、シリアルポートインターフェース３４４を介してシステムバス３０６に接続される。ネットワーク化された環境では、計算デバイス２４０に関して描いたプログラムモジュール、またはプログラムモジュールの部分を遠隔のメモリ記憶デバイス３５２の中に記憶することができる。図示したネットワーク接続は、例示的なものであり、コンピュータ間で通信リンクを確立する他の手段も使用できる。
【００３６】
ビデオクリップレット生成システム１９０は、クリップレット、およびその他のクリップレット情報を生成するためのビデオクリップレット生成器２００を含む。図４は、図２に示したビデオクリップレット生成器２００の詳細を示す詳細なブロック図である。一般に、ビデオクリップレット生成器２００は、デジタルビデオデータ２０５を含む大きいソースビデオ２１０を入力し、ビデオクリップレット結果４００の形態でクリップレット情報を出力する。ビデオクリップレット結果は、ユーザが操作し、使用するためにユーザに提示することができるクリップレットに関連する様々な情報を含むことが可能である。
【００３７】
ビデオクリップレット生成器２００は、編集ポイントを決定する次の少なくとも２つのモジュールを含む。すなわち、（１）サブショット境界モジュール４１０（例は、ショット境界モジュール４１５である）、および（２）制約適用モジュール４２０である。以上のモジュール４１０、４１５、４２０のそれぞれに関する出力が、編集ポイント４３０である。編集ポイント４３０は、クリップレットが抽出されるべき大きいソースビデオ２１０の中のカットポイント、またはカット場所である。モジュール４１０、４１５、４２０のそれぞれを単独で、または任意の組み合わせで使用して編集ポイント４３０を決定することができる。
【００３８】
サブショット境界検出器４１０は、ソースビデオ２１０内でサブショットを見出すことによって編集ポイント４３０を決定する。サブショットは、特定のイベント、または特定のテーマを規定する意味境界として規定される。サブショット境界は、必ずしもショット境界（以下を参照）ではないが、ショット境界であることが可能である。例えば、ある人がビデオの中で話している場合、文の間の休止が、ショット境界ではなくても、サブショット境界として規定するのに好適な場所である可能性がある。サブショット境界検出器４１０は、単一ショット内であっても、イベントまたはテーマを意味的に分離することができるソースビデオ２１０の中の場所を探す。
【００３９】
ショット境界検出器４１５は、ソースビデオ２１０を処理してショット境界を見出すことによって編集ポイント４３０を決定する。ショット境界は、特定のクリップレット生成システムによって検出されることが可能なサブショット境界のすべてのサブセットを構成する。ショット境界は、カメラが「オン」または「オフ」にされたソースビデオ２１０の中の場所として規定される。ソースビデオ２１０内のカメラ「オン」の場所とカメラ「オフ」の場所の間の部分が、ショットとして規定される。
【００４０】
制約適用モジュール４２０は、クリップレット時間制約を使用して編集ポイント４３０を決定する。クリップレット時間制約は、クリップレットの最小時間および最大時間を示すことが可能である。通常、クリップレット時間制約は、およそ５秒間から１０秒間の範囲にあるが、他の時間を使用してもよい。クリップレット時間制約は、「ソフトな」制約であることが可能であり、これは、他の制約、または編集ポイント指示が使用された場合、クリップレット時間制約が譲り、クリップレットの長さが、任意に長く、または短くされるのを許すことを意味する。
【００４１】
制約適用モジュール４２０は、大きいソースビデオ２１０を取り、サブショット境界が検出されたポイントでクリップレットをカットしようと試みながら、クリップレット時間制約の値に長さが準拠するクリップレットにソースビデオ２１０を分割する。生成されたクリップレットの完全なセットが時間制約を満たすように、適切な方策が取られる。例えば、制約が、どのクリップレットも１０秒間を超える長さであってはならないというハードな制約である場合、秒で検出されたサブショットを有する３６秒間のビデオが、４つのセグメントのビデオ（８秒間、７秒間、１０秒間、および１１秒間の長さ、または１０秒間の４つの重なり合うセグメント等の）を生成することが可能である。
【００４２】
編集ポイント４３０が決定されると、ビデオクリップレット抽出器４４０が、編集ポイント４３０に基づいてソースビデオ２１０からクリップレットをカットする。次に、ビデオクリップレット４４５が、ビデオクリップレット抽出器４４０からの出力として送られる。カットするプロセスは、物理的にカットすることを全く必要としない可能性があることに留意されたい。というのは、編集ポイント、およびソースビデオ２１０に対するポインタ自体が、クリップレットを表わすからである。
【００４３】
ビデオクリップレット生成器２００は、ビデオクリップレット４４５の中の各クリップレットに関して「興味度評価」を生成するためのビデオクリップレット評価モジュール４５０も含む。この評価は、フレームごとにではなく、クリップレットごとに計算される。クリップレットごとに評価を割り当てることの利点は、各クリップレットをその評価に基づいてユーザに提示することができることである。クリップレットは、いくつかのフレームを含むので、すべてのクリップレット、およびクリップレットの評価を提示することは、すべてのフレーム、およびフレームの評価を提示することよりもはるかに扱いやすいタスクである。さらに、クリップレットはフレームよりはるかに多くの情報を含むので、最も人気のあるフレームがただ単に提示された場合と比べて、最も人気のあるクリップレットがユーザに提示される方が、ユーザが、ソースビデオ２１０に関してはるかに多くの情報を獲得することが可能になる。
【００４４】
ビデオクリップレット４４５に含まれるクリップレットに関するキーフレームを決定するためのキーフレーム特定モジュール４６０が、ビデオクリップレット生成器２００内に含まれる。キーフレームは、基準を使用して、キーフレームが、クリップレットに適用されるその選択された基準を最もよく表わすように特定される。クリップレットごとに任意の数のキーフレームが存在することが可能であるが、少なくとも１つのキーフレームが選好される。
【００４５】
ビデオクリップレット生成器２００の出力が、ビデオクリップレット結果４００である。このビデオクリップレット結果４００は、ビデオクリップレット生成器２００内に含まれるモジュールのそれぞれによって生成された情報を含んでいる。図４に示すとおり、ビデオクリップレット結果４００は、ビデオクリップレット抽出器４４０によって獲得された１組のビデオクリップレット４７０、ならびに制約適用モジュール４２０とショット境界検出器４１５とサブショット境界検出器４１０の１つまたは複数によって獲得されたクリップレット編集ポイント４７５を含んでいる。さらに、ビデオクリップレット結果４００は、ビデオクリップレット評価モジュール４５０によって獲得されたビデオクリップレット評価４８０、およびキーフレーム特定モジュール４６０によって獲得された１組のキーフレーム４８５も含んでいる。ビデオクリップレット結果４００は、以上のクリップレット情報の任意の組み合わせを可能とする。
【００４６】
ＩＶ．操作の概観および詳細
図５は、図２及び図４に示したビデオクリップレット生成器２００の動作を示す一般的な流れ図である。一般に、ビデオクリップレット生成器２００は、大きいソースビデオを処理して提示のためのクリップレット、およびクリップレット情報を生成する。具体的には、ビデオクリップレット生成器２００は、まず、処理するためにソースビデオ２１０を入力する（ボックス５００）。次に、編集ポイント４３０が、サブショット境界を使用し、また場合により、以下に詳述する技術の１つまたは複数を使用して自動的に決定される（ボックス５１０）。編集ポイント４３０を使用して、クリップレットがソースビデオ２１０から抽出される（ボックス５２０）。最後に、クリップレット結果４００が、例えば、操作のためにユーザに提示される。
【００４７】
［サブショット境界検出器］
図６は、図４に示したサブショット境界検出器４１０の動作の詳細を示す詳細な流れ図である。一般に、サブショット境界検出器４１０は、サブショット境界を使用して編集ポイント４３０を規定する。サブショット境界検出方法を使用して、ビデオをカットし、クリップレットを生成するのに都合のよいポイントを提供するソースビデオ２１０の部分に対応する編集ポイント４３０を見出す。
【００４８】
まず、検出されるべきタイプのサブショット境界を規定する（ボックス６１０）。サブショット境界は、意味的に理にかなった任意のタイプの基準を使用して規定することができる。例えば、サブショット境界のタイプには、次のものが含まれる。従来のショット境界は、あるタイプのサブショット境界である。発言間の任意の時点が、サブショット境界となることが可能である。パン（ｐａｎ）が行われることをサブショット境界基準として使用して、パンの始め、途中、または終り（ビデオの中の安定したポイントではなく）がサブショット境界として使用されるようにすることができる。同様に、ズームをサブショット境界基準として使用して、ズームの直後のポイントがサブショット境界として使用されるようにすることができる。ズーム基準を使用することは、ビデオカメラ撮影者が、通常、興味を引く主題またはイベントにズームインするという知識に基づいている。場面クラスタ化をサブショット境界基準として使用して、互いに似通った様々な場面が一緒にクラスタ化されて、同様な場面が同じサブショットに属するようにすることができる。さらに、タイムスタンプベースのショット検出、ビデオベースのショット検出、オーディオベースのショット検出、およびオーディオ−ビジュアルベースのショット検出をサブショット境界検出のための基準として使用することができる。さらに、ソースビデオ２１０のオーディオ信号部分の中の任意の利用可能な特徴を使用するオーディオ解析を使用して、サブショット境界を規定することができる。このオーディオ特徴には、オーディオスペクトル解析、音声認識、およびオーディオパワー変動分解（ａｕｄｉｏ　ｐｏｗｅｒ　ｖａｒｉａｎｃｅ　ｄｅｃｏｍｐｏｓｉｔｉｏｎ）が含まれる。ソースビデオ２１０のビデオ信号の中の任意の利用可能な特徴を使用するビデオ解析を使用してサブショット境界を規定することができる。このビデオ特徴には、いくつかを挙げると、色ヒストグラム、ウェーブレット分解、光フローパラメータ、フーリエ変換係数、および顔検出が含まれる。
【００４９】
サブショット境界のタイプが規定されると、サブショット境界が決定される（ブロック６２０）。次に、編集ポイント４３０が、クリップレット時間制約およびサブショット境界に基づいて決定される（ボックス６３０）。最後に、編集ポイント４３０が、サブショット境界検出器４１０からの出力として送られる（ボックス６４０）。サブショット境界は、次の場所、つまり（ａ）場面の変化、（ｂ）被写体の登場（ｏｂｊｅｃｔ　ｅｎｔｒａｎｃｅ）、（ｃ）被写体の退場（ｏｂｊｅｃｔ　ｅｘｉｔ）、（ｄ）適合されたモデルにおけるその他の個別の変化、の少なくとも１つで生じることに留意されたい。
【００５０】
サブショット境界を視覚的なキューに基づいて見出すことの一例は、隣接するビデオフレームの色ヒストグラム間のバッタチャリヤ（Ｂｈａｔｔａｃｈａｒｙａ）距離を計算することである。その距離におけるあるしきい値を超えるピークが、サブショット境界であるものと見なされる。他の方法は、「ビデオの生成モデル」を使用して、処理されているソースビデオ２１０をモデル化し、背景が大きく変化したときをサブショット境界と規定することである。さらに、サブショット境界は、ある視覚的な要素がビデオに入った、またはビデオから出たポイントとして規定することも可能である。例えば、ある人が場面に入った（登場）、または場面から出た（退場）ときをサブショット境界と規定することが可能である。オーディオキューに基づいてサブショット境界を見出すことの一例は、決められた時間より長いオーディオパワー信号における谷（ｖａｌｌｅｙ）を見出して沈黙の時点（ｍｏｍｅｎｔ　ｏｆ　ｓｉｌｅｎｃｅ）を決定することである。その谷の中点をサブショット境界として規定することができる。どのタイプのデータも参照することなくサブショット境界を見出すことの一例は、毎Ｎ秒間にサブショット境界を生成することであり、ただし、Ｎは、クリップレット時間制約などの短い時間であることが可能である。前述した基準の任意の１つ、または任意の組み合わせを使用してサブショット境界を規定することができる。
【００５１】
サブショット境界検出によって生成された各編集ポイントは、必ずしもクリップレットを生成するのに使用されないことに留意されたい。これは、サブショット境界が確実な編集ポイントではなく、単にカットするための候補に過ぎず、したがって、もたらされるクリップレット自体が多数のサブショット境界を含む可能性があるためである。例えば、サブショット境界が毎０．５秒に見出され、クリップレット時間制約が７秒間であることが可能である。その場合、余りにも頻繁にサブショット境界が存在するので、すべてのサブショット境界は使用されない。
【００５２】
図７は、特徴ベースの手法を使用するサブショット検出器４２０の実施例を示す詳細な流れ図である。特徴ベースの手法を使用することは、ソースビデオ２１０の中の各ビデオフレームが、特徴ベクトルで節約的に（ｐａｒｓｉｍｏｎｉｏｕｓｌｙ）表現される（ボックス７００）ことを意味する。この例では、特徴ベクトルは、低次元の特徴ベクトルである。特徴ベクトルは、元のビデオフレームを全く参照することなしに、サブショット境界検出プロセス全体で使用される。特定の特徴は様々である可能性があるが、この実施例で使用した特長は、ビデオフレームの各４分の１に関する平均イメージ輝度および色ヒストグラムである。
【００５３】
サブショット境界検出は、特徴ベクトルのシーケンスに対してスライディングウインドウを送ることによって行われた（ボックス７１０）。スライディングウインドウの各位置で、中心の特徴からウインドウ内のすべての他の特徴ベクトルまでの平均距離が計算され（ボックス７２０）、記憶された（ボックス７３０）。これにより、記憶された平均距離のそれぞれから構成された１次元信号がもたらされた（ボックス７４０）。次に、１次元信号の外れ値（ｏｕｔｌｉｅｒ）が抽出された（ボックス７５０）。１次元信号の外れ値は、サブショット境界に対応している。抽出は、堅牢な統計的外れ値検出手続きを使用して行われた。
【００５４】
図８は、場面クラスタ化を使用するサブショット境界検出の例を示す詳細な流れ図である。場面クラスタ化は、サブショット境界を規定し、検出するのに使用され、その境界を使用してクリップレットを生成する。場面クラスタ化は、ビデオ、オーディオ、またはビデオとオーディオをともに使用して行うことができる。一般的な考え方は、同様なデータ（ビジュアルデータであるか、オーディオデータであるかにかかわらず）をクラスタ化し、同様なデータのクラスタを使用してクラスを定義することである。ソースビデオ２１０の中の各フレームにクラスが割り当てられ、フレーム間でクラスの変化が存在する場所にサブショット境界が生じる。
【００５５】
場所クラスタ化法は、クラスの知識も、クラス定義の知識もなしに開始される（平均および分散の点などから）。ランダムな推測が行われ、反復プロセスを介して、ビデオフレームがクラスタ化されて、クラスに揃えられる。最終的に、ビデオフレームは、別々のクラスにグループ化され、クラスに関する平均イメージが明らかになる。
【００５６】
図８に示したとおり、この実施例では、場面クラスタ化法は、ソースビデオ２１０からビデオフレームをランダムに選択し、そのフレームに基づいてクラスを定義することから開始する（ボックス８００）。次に、各ビデオフレームに関して、そのビデオフレームがクラスのそれぞれに属する確率が判定された（ボックス８１０）。次に、観察されたデータが平均され、確率で重みが付けられ、これにより、ビデオフレームが、独立した別個のクラスにマージされた。さらに、不変のパラメータが判定され（ボックス８２０）、変形パラメータが定義された（ボックス８３０）。変形パラメータは、ビデオフレームを変形して、類似しているが、わずかに変形されたビデオフレームが、それでも同じクラスに属するようにするランダムな変数である。例えば、あるセットのビデオフレームが人物を含み、次のセットのビデオフレームが同一人物のクローズアップを含む場合、ズーム変形パラメータを定義して、両方のセットのビデオフレームが、ズームにかかわらず同一のクラスに属するようにすることが可能である。これは、ズーム不変として知られている。
【００５７】
通常、データは、変形されても不変であるような仕方（ｔｒａｎｓｆｏｒｍａｔｉｏｎ　ｉｎｖａｒｉａｎｔ　ｍａｎｎｅｒ）でクラスタ化される。これは、類似の内容を有するが、移動（左、右、上方、または下方などの）、あるいはズームインまたはズームアウトのために異なっているビデオフレームが、同じであると見なされ、同一のクラスの中に一緒にクラスタ化されることを意味している。他の方法では、いくつかの変形パラメータを不変ではないものとして選択し、場面クラスタ化を定義するのに使用することができる。詳細には、ズームが不変ズームパラメータとして選択された場合、サブショット境界は、ズームが行われるポイントでは規定されない。しかし、ズームが不変変形パラメータではない場合、ソースビデオ２１０のズームインポイント後などの、ズームが行われるポイントに関してサブショット境界を規定することができる。
【００５８】
次に、確率を使用して類似のビデオフレームが、クラスのそれぞれにクラスタ化された（ボックス８４０）。これは、各回の反復を介して各ビデオフレームが別個の独立したクラスに分離されるように反復プロセスを使用して行われた。最後に、クラスのそれぞれへのビデオフレームのクラスタ化に基づいてサブショット境界が決定された（ボックス８５０）。
【００５９】
前述した場面クラスタ化技術は、ピクセルの色または光度だけでなく、ビデオフレームに対するピクセルの空間的グループ化も考慮に入れる。これにより、サブショット境界を決定する際、他の技術に優る利点が場面クラスタ化技術に与えられる。例えば、場面クラスタ化技術は、ピクセル光度技術と比べて光度の変化の影響をはるかに受けにくい。これは、ピクセル光度技術とは異なり、場面クラスタ化技術は、単にビデオフレーム間で光度の変化があるという理由でサブショット境界を見出さないことを意味する。さらに、色は弱いキューであるため、場面クラスタ化技術の方が、ピクセル色技術よりも信頼が置ける。
【００６０】
［ショット境界検出器］
図９は、図４に示したショット境界検出器４１５の動作の詳細を示す詳細な流れ図である。ショット境界検出器は、サブショット境界検出器の例であるか、または通常、サブショット境界検出器の多数の構成要素の１つである。一般に、ショット境界検出器４１５は、ビデオタイムスタンプの不連続性を使用して、または隣接するフレーム間におけるビデオイメージの急な不連続性に編集ポイント４３０を見出す。より具体的には、ショット境界検出器４１５は、まず、前述した仕方でクリップレット時間制約を決定する（ボックス９００）。次に、ショット境界が判別される（ボックス９１０）。前述したとおり、ショット境界は、カメラが「オン」または「オフ」にされたソースビデオ２１０内の場所である。ソースビデオ２１０内のこのカメラ「オン」の場所とカメラ「オフ」の場所の間のビデオ部分が、ショットとして定義される。
【００６１】
［制約適用モジュール］
図１０は、図４に示した制約適用モジュール４２０の動作の詳細を示す詳細な流れ図である。一般に、制約適用モジュール４２０は、編集ポイント４３０を見出してソースビデオ２１０からクリップレットを生成するのに使用される。詳細には、クリップレット時間制約が決定される（ボックス１０００）。この制約は、ユーザが選択すること、あらかじめ選択されていること、または制約適用モジュール４２０がオンザフライ（ｏｎ　ｔｈｅ　ｆｌｙ）で決定することを含め、様々なやり方で決定することができる。前述したとおり、クリップレット時間制約は、クリップレットの時間に対する任意の「ハードな」または「ソフトな」制約であることが可能である。都合のよいサブショット境界が存在しない場合、制約適用モジュールは、時間制約だけに基づいてカットを任意に行うことができる。次に、編集ポイント４３０が、クリップレット時間制約に基づいて決定される（ボックス１０１０）。次に、編集ポイント４３０が、制約適用モジュール４２０からの出力として送られる（ボックス１０２０）。
【００６２】
［ビデオクリップレット評価モジュール］
クリップレットには、クリップレットに関する情報を提供するのに利用可能な処理技術に基づいて興味度評価が割り当てられることが可能である。例えば、顔検出技術が利用可能である場合、顔を検出するようにそれぞれの個々のクリップレットを処理することができる。次に、クリップレットが顔を含むかどうかなどの、この処理から獲得された情報が、それぞれの個々のクリップレットとともに記憶される。次に、この情報に基づき、各クリップレットに関して、顔検出の興味度評価を決定することができる。興味度評価は、ビデオフレームごとにではなく、クリップレットごとに関連付けられる。ただし、評価プロセスで使用される特徴の計算が、フレームごとに行われており、後にクリップレット評価プロセス中に使用するために記憶されていることが可能である。
【００６３】
図１１は、図４に示したビデオクリップレット評価モジュール４５０の動作の詳細を示す詳細な流れ図である。これは、オプションのプロセスであるが、所望される場合、ビデオクリップレット評価モジュール４５０は、クリップレット評価を個々のクリップレットに割り当てる。図１１に示すとおり、ビデオクリップレット評価モジュール４５０は、クリップレットを入力することから開始する（ボックス１１００）。次に、クリップレットに関する評価情報が、クリップレットとともに記憶される（ボックス１１１０）。次に、使用されるべき所望の評価情報が決定される（ボックス１１２０）。所望の評価情報とは、クリップレット評価を割り当てる際、クリップレットとともに記憶されている評価情報のどれを使用するかを意味する。最後に、ビデオクリップレット評価モジュール４５０が、所望の評価情報を使用してクリップレットに関する興味度評価を計算する（ボックス１１３０）。好ましくは、各クリップレットに対する興味度評価は、全クリップレットに対して正規化される。例えば、顔検出で最高の興味度評価を有するクリップレットを１に等しい値に正規化し、その他のクリップレットに関する顔検出のすべての他の興味度評価を１以下にする。
【００６４】
クリップレット評価は、クリップレットに関して妥当であり、用意されている任意の情報に基づくことが可能である。クリップレット評価情報は、タイムスタンプ、場所スタンプ、オーディオ信号、ビデオ信号、および情報のすべてを含み、サブショット境界検出に関して前述したとおり解析される。クリップレット評価情報は、クリップレットに関する情報を提供するのに利用可能なあらゆる技術を利用することができる。これには、音声認識、話者認識、顔検出、ズーム検出、パン検出、任意のタイプのオーディオ解析またはオーディオ認識、および任意のタイプのビデオ解析またはビデオ認識が含まれる。以上の技術の任意のものを使用して、個々のクリップレットに関する興味度評価を生成することができる。例として、興味度評価が顔を検出することに関する場合、顔を含むクリップレットが、顔を有さないクリップレットよりも高い興味度評価を有し、顔を含むクリップレットの中で、より大きいパーセンテージの時間にわたってカメラに向いている顔を含むクリップレットが、より高く評価されることが可能である。他の例として、興味度評価がクローズアップである場合、ズームイベントの直後のクリップレットが、他のクリップレットよりも高い興味度を有する。
【００６５】
クリップレット興味度評価は、多次元であることが可能である。例えば、クリップレットは、「オーディオ活動レベル」に関する評価、ならびに「ビジュアル活動レベル」および「顔の出現」に関する別個の評価を有することが可能である。評価は、絶対数値であること、またはクリップレット間の相対的順序（またはランキング）であることが可能である。ビデオクリップレット評価モジュール４５０が、クリップレットに関して個々に、またはすべての可能なクリップレットのセットに関して評価を計算することができる。
【００６６】
例として、評価が、オーディオに基づいてクリップレットに割り当てられるものと想定する。これは、すべての既知のクリップレットにわたって正規化されたオーディオパワー信号の分散を計算することによって行うことができる。ビジョンを使用するクリップレット評価の他の例では、カメラのズームまたはパンが検出され、ズームイベントまたはパンイベントの直後のクリップレットにより高い評価が割り当てられるものと想定する。持続時間を使用するクリップレット評価のさらに他の例は、ｘがユーザの選好または期待に基づくことが可能であるｘ秒間の持続時間を中心とするガウス分布に評価を正比例させることである。
【００６７】
［キーフレーム特定モジュール］
各クリップレットに関して少なくとも１つのキーフレームを特定することができる。キーフレームは、クリップレットの内容を最もよく要約するクリップレットの代表的なビデオフレームである。クリップレットごとに任意の数のキーフレームが存在することが可能であるが、少なくとも１つのキーフレームが好ましい。
【００６８】
図１２は、図４に示したキーフレーム特定モジュール４６０の動作の詳細を示す詳細な流れ図である。最初、キーフレーム特定モジュール４６０は、クリップレットを入力として受け取る（ボックス１２００）。次に、検出されるべき所望のキーフレーム情報が決定される（ボックス１２１０）。最後に、その所望のキーフレーム情報を使用して代表的なキーフレームが特定される（ボックス１２２０）。
【００６９】
キーフレームを検出するのに使用される情報は、オーディオ解析およびオーディオ認識、ビデオ解析およびビデオ認識などの前述した処理技術の任意のものから獲得された情報であることが可能である。他の方法では、キーフレームは、クリップレット内に含まれる情報を参照することなしに検出することができる。例えば、キーフレームは、クリップレットの中央ビデオフレームを検出し、その中央ビデオフレームをキーフレームとして定義することにより、それぞれの個々のクリップレットに関して特定することができる。キーフレーム特定の他の例は、クリップレットの第ｍ番ごとのビデオフレームをサンプリングし、そのサンプリングされたビデオフレームをキーフレームとして定義することである。キーフレーム特定のさらに他の例は、クリップレット内のビデオフレームの色ヒストグラム上のバッタチャリヤ距離に対してビタビ（Ｖｉｔｅｒｂｉ）アルゴリズムを実行することである。コンピュータ対数尤度（ｌｏｇ−ｌｉｋｅｌｉｈｏｏｄ）のピークの場所が、クリップレットに関するキーフレームとして定義される。
【００７０】
キーフレームを特定することの目的は、クリップレットを要約するための個々のクリップレットから最も代表的なビデオフレームを抽出することである。この目的を達するため、特定されたキーフレームは、最大限の相違があり、高い利用価値を有していなければならない。フレーム距離メトリックおよびフレーム有用性測度（ｆｒａｍｅ　ｕｔｉｌｉｔｙ　ｍｅａｓｕｒｅ）が定義される。フレーム距離メトリックは、クリップレットに含まれる２つのビデオフレーム間の類似度を測定する。フレーム距離メトリックは、同一のビデオフレームの場合、ゼロであり、フレームの相違が大きくなるにつれて値が高くなる。フレーム有用性測度は、キーフレームとしてのビデオフレームの適合度を反映する。通常、より明るく（つまり、平均輝度がより高い）、より色彩豊かな（つまり、色ヒストグラム上のエントロピーがより高い）ビデオフレームが、キーフレームとして好ましい。キーフレーム特定の好ましい手法では、キーフレームは、費用関数を最大化する動的プログラミング（またはビタビ）手続きによって特定される。費用関数は、検出されるべき所望の基準または所望のキーフレーム情報をカプセル化する。さらに、各クリップレットに関するキーフレームの最適な数が、ベイズ情報基準（Ｂａｙｅｓ　Ｉｎｆｏｒｍａｔｉｏｎ　Ｃｒｉｔｅｒｉｏｎ）（ＢＩＣ）を使用して自動的に決定される。
【００７１】
本発明の以上の説明は、例示および説明のために提示した。この説明は、すべてを網羅する、または本発明を開示した形態そのものに限定することを意図するものではない。以上の教示に鑑みて、多数の変更形態および変形形態が可能である。本発明の技術的範囲は、本発明の以上の詳細な説明によってではなく、本発明の特許請求の範囲によって限定されるものである。
【図面の簡単な説明】
【図１】より長い単位のビデオ（ソースビデオ）およびビデオフレームとの関係でビデオクリップレットの概念を示す図である。
【図２】本発明のクリップレット生成システムの概要を示すブロック図である。
【図３】本発明を実施するのに適した計算装置を示すブロック図である。
【図４】図２に示したビデオクリップレット生成器の詳細を示す詳細なブロック図である。
【図５】図２及び図４に示したビデオクリップレット生成器の動作を示す一般的な流れ図である。
【図６】図４に示したサブショット境界検出器の動作の詳細を示す詳細な流れ図である。
【図７】特徴ベースの手法を使用するサブショット検出器の実施例を示す詳細な流れ図である。
【図８】場面クラスタ化を使用するサブショット境界の実施例を示す詳細な流れ図である。
【図９】図４に示したショット境界検出器の動作の詳細を示す詳細な流れ図である。
【図１０】図４に示した制約アプリケーションの動作の詳細を示す詳細な流れ図である。
【図１１】図４に示したビデオクリップレット評価モジュールの動作の詳細を示す詳細な流れ図である。
【図１２】図４に示したキーフレーム特定モジュール４６０の動作の詳細を示す詳細な流れ図である。
【符号の説明】
１９０　クリップレット生成システム
２００　ビデオクリップレット生成器
２０５　デジタルビデオデータ
２１０　ソースビデオ
２１５　ビデオカメラ
２２０　記憶媒体
２３０　アナログ−デジタル変換器
２４０　計算デバイス
２５０　モニタ
２６０　ビデオクリップレットユーザインターフェース

Claims

ソースビデオを自動的に処理するための方法であって、
前記ソースビデオの中でサブショット境界を決定するステップと、
該サブショット境界を使用して前記ソースビデオの編集ポイントを自動的に決定するステップと、
以降、クリップレットと呼ぶ前記ソースビデオの小さいセグメントを前記クリップレットの開始ポイントおよび終了ポイントを示す前記編集ポイントを使用して抽出するステップと、
前記クリップレット結果をユーザに提示するステップと
を有することを特徴とする方法。
ビデオの生成モデルに基づく場面クラスタ化を使用してサブショット境界を決定するステップをさらに含み、該サブショット境界は、（ａ）場面の変化の場所、（ｂ）被写体の登場の場所、（ｃ）被写体の退場の場所、（ｄ）適合されたモデルにおけるその他の個別の変化の場所の少なくとも１つで生じることを特徴とする請求項１に記載の方法。
オーディオの生成モデルに基づく場面クラスタ化を使用してサブショット境界を決定するステップをさらに含み、該サブショット境界は、（ａ）発話と発話の間の場所、（ｂ）異なるサウンドタイプの間の場所、（ｃ）適合されたモデルにおけるその他の個別の変化の場所の少なくとも１つで生じることを特徴とする請求項１に記載の方法。
オーディオの生成モデルとビデオの生成モデルの組み合わせに基づく場面クラスタ化を使用するステップをさらに含み、前記サブショット境界は、適合されたモデルにおける個別の変化のところで生じることを特徴とする請求項１に記載の方法。
前記サブショット境界を決定する仕方として、前記ソースビデオのオーディオ信号における谷の検出を使用してサウンド間または発話間の沈黙の時点を決定するステップをさらに含むことを特徴とする請求項１に記載の方法。
前記ソースビデオの隣接するフレームの色ヒストグラム間のバッタチャリヤ（Ｂｈａｔｔａｃｈａｒｙａ）距離のピークを使用してサブショット境界を決定するステップをさらに含むことを特徴とする請求項１に記載の方法。
前記サブショット境界を決定するステップは、
前記ソースビデオの各ビデオフレームを特徴ベクトルで表わすステップと、
該特徴ベクトルを使用して平均距離を計算するステップと、
該平均距離から１次元信号を構成するステップと、
該１次元信号を使用して前記サブショット境界を決定するステップと
をさらに含むことを特徴とする請求項１に記載の方法。
前記ショット境界を使用して前記編集ポイントを自動的に決定するステップは、手作業で選択されたクリップレット時間制約を組み込むステップをさらに含むことを特徴とする請求項１に記載の方法。
前記クリップレット時間制約は、ソフトな制約であることを特徴とする請求項１に記載の方法。
前記クリップレット時間制約は、ハードな制約であることを特徴とする請求項１に記載の方法。
前記ショット境界を使用して前記編集ポイントを自動的に決定するステップは、使用するサブショット境界のタイプを自動的に選択するステップをさらに含むことを特徴とする請求項１に記載の方法。
タイムスタンプではなく、フレーム「アンカ（ａｎｃｈｏｒ）」またはフレーム署名の形態で編集ポイントを出力するステップをさらに含み、前記フレームアンカは、前記ソースビデオの一意的な時点を計算によって指定する（ｃｏｍｐｕｔａｉｏｎａｌｌｙ　ｓｐｅｃｉｆｙ）ことを特徴とする請求項１に記載の方法。
前記クリップレットを抽出するステップは、前記クリップレットエンドポイントの間にソースビデオの短縮されたコピーを生成するステップを含むことを特徴とする請求項１に記載の方法。
前記クリップレットを抽出するステップは、前記クリップレットのエンドポイントを記憶するステップを含むことを特徴とする請求項１に記載の方法。
前記各クリップレットに関する興味度評価を計算して記憶するステップをさらに含むことを特徴とする請求項１に記載の方法。
所望のキーフレーム情報を使用して前記クリップレットに関するキーフレームを特定するステップをさらに含むことを特徴とする請求項１に記載の方法。
前記クリップレット結果は、（ａ）該クリップレット、（ｂ）前記編集ポイントの少なくとも１つを含むことを特徴とする請求項１に記載の方法。
ビデオフレームを含むビデオを自動的に処理するための方法であって、
クリップレットの長さを制限するクリップレット時間制約を決定するステップと、
前記クリップレット時間制約を使用して前記ビデオの編集ポイントを自動的に決定するステップと、
前記クリップレットに関するクリップレット興味度評価を計算するステップと、
前記編集ポイントを使用して前記ビデオからクリップレットを抽出するステップと、
前記クリップレットおよび前記クリップレット興味度評価を提示するステップと
を有することを特徴とする方法。
前記クリップレット時間制約は、（ａ）ハードな制約、および（ｂ）ソフトな制約のどちらかである単一のクリップレットの長さに対する制約であることを特徴とする請求項１８に記載の方法。
前記クリップレット時間制約は、（ａ）ハードな制約、および（ｂ）ソフトな制約のどちらかである単一のビデオから生成されたすべてのクリップレットの長さのセットに対する制約であることを特徴とする請求項１８に記載の方法。
前記クリップレット時間制約を使用して編集ポイントを自動的に決定するステップは、サブショット境界が全く存在しない場合に行われることを特徴とする請求項１８に記載の方法。
前記クリップレット時間制約を使用して編集ポイントを自動的に決定するステップは、検出されたサブショット境界を参照せずに行われることを特徴とする請求項１８に記載の方法。
前記クリップレット興味度評価が、前記クリップレット中のオーディオ信号の正規化された分散を計算することによってオーディオ興味度に関して決定されることを特徴とする請求項１８に記載の方法。
ビデオフレームを含む大きいソースビデオを複数のより小さいセグメントに自動的にカットするための方法であって、
クリップレットと呼ばれる前記複数のより小さいセグメントのそれぞれに関する開始ポイントおよび終了ポイントに相当する編集ポイントを自動的に決定するステップと、
前記編集ポイントに基づいて前記大きいソースビデオから前記クリップレットを抽出するステップと
を含み、前記クリップレットの少なくとも２つは、重なり合い、前記ビデオフレームの少なくとも１つを共有することを特徴とする方法。
サブショット境界を決定し、該サブショット境界を使用して前記編集ポイントを決定するステップをさらに含むことを特徴とする請求項２４に記載の方法。
前記サブショット境界を決定するステップは、
各ビデオフレームを特徴ベクトルで表わすステップと、
該特徴ベクトルを使用して平均距離を計算するステップと、
該平均距離から１次元信号を構成するステップと、
該１次元信号を使用して前記サブショット境界を決定するステップと
をさらに含むことを特徴とする請求項２５に記載の方法。
前記特徴ベクトルのシーケンスにスライディングウインドウを通して、前記スライディングウインドウの各位置で中央の特徴ベクトルからすべての他の特徴ベクトルまでの距離を測定することによって前記平均距離を計算するステップをさらに含むことを特徴とする請求項２６に記載の方法。
前記１次元信号の外れ値を抽出してサブショット境界を決定するステップをさらに含むことを特徴とする請求項２６に記載の方法。
サブショット境界を使用して編集ポイントを自動的に決定するステップと、
以降、クリップレットと呼ぶデジタル化されたビデオのセグメントを、前記編集ポイントを使用して前記クリップレットの開始ポイントおよび終了ポイントを決定することで抽出するステップと、
（ａ）前記クリップレット、（ｂ）前記編集ポイントの少なくとも１つを含むクリップレット結果を表示するステップと
を含む前記デジタル化されたビデオを自動的に編集するためのコンピュータ実行可能命令を有することを特徴とするコンピュータ読み取り可能な記録媒体。
検出されるべき前記サブショット境界のタイプを定義するステップをさらに含むことを特徴とする請求項２９に記載のコンピュータ読み取り可能な記録媒体。
（ａ）オーディオ、（ｂ）ビデオの少なくとも１つの生成モデルに基づく場面クラスタ化を使用して前記サブショット境界を決定するステップをさらに含むことを特徴とする請求項２９に記載のコンピュータ読み取り可能な記録媒体。
変形パラメータ、および前記変形パラメータのそれぞれが不変であるかどうかを定義するステップをさらに含むことを特徴とする請求項３１に記載のコンピュータ読み取り可能な記録媒体。
ソースビデオを処理するためのビデオクリップレット生成システムであって、
前記ソースビデオからのクリップレット、および前記クリップレットに関するクリップレット評価を自動的に生成するためのビデオクリップレット生成器と、
前記クリップレット、および前記クリップレット評価を含むクリップレット結果を表示し、提示するための前記ビデオクリップレット生成器と通信するビデオクリップレットユーザインターフェースとを含むことを特徴とするビデオクリップレット生成システム。
前記クリップレットの長さに対する制約であるクリップレット時間制約をさらに含むことを特徴とする請求項３３に記載のビデオクリップレット生成システム。
前記ビデオクリップレット生成器によって前記ソースビデオから生成されたクリップレットのすべての長さの制約セットであるクリップレット時間制約をさらに含むことを特徴とする請求項３３に記載のビデオクリップレット生成システム。
前記クリップレットの開始ポイントおよび終了ポイントを示す前記ビデオクリップレット生成器によって生成された編集ポイントをさらに含むことを特徴とする請求項３３に記載のビデオクリップレット生成システム。
前記ビデオクリップレット生成器は、クリップレット時間制約に基づいて編集ポイントを決定するための制約適用モジュールをさらに含むことを特徴とする請求項３３に記載のビデオクリップレット生成システム。
前記クリップレット時間制約は、ソフトな制約であることを特徴とする請求項３７に記載のビデオクリップレット生成システム。
前記ビデオクリップレット生成器は、サブショット境界に基づいて編集ポイントを決定するためのサブショット境界検出器をさらに含むことを特徴とする請求項３３に記載のビデオクリップレット生成システム。
ビデオフレームを含むデジタル化されたビデオを処理するための自動化されたデジタルビデオシステムであって、
編集ポイントを決定する（ａ）制約適用モジュール、（ｂ）ショット境界検出器、（ｃ）サブショット境界検出器の少なくとも１つと、
以降、クリップレットと呼ぶデジタル化されたビデオのセグメントを前記編集ポイントに従って抽出するビデオクリップレット抽出器と、
前記クリップレットとともに記憶された情報に基づいてそれぞれの個々のクリップレットに関する興味度評価を決定するビデオクリップレット評価モジュールと、
（ａ）１組のクリップレット、（ｂ）前記編集ポイント、（ｃ）前記ビデオクリップレット興味度評価、の少なくとも１つを含む１組のビデオクリップレット結果と
を含むビデオクリップレット生成器を有することを特徴とするデジタルビデオシステム。
前記ビデオクリップレット生成器は、前記クリップレットの中のどのビデオフレームが前記クリップレットを代表し、要約するかを特定するためのキーフレーム特定モジュールをさらに含むことを特徴とする請求項４０に記載の自動化されたデジタルビデオシステム。