JP5091086B2

JP5091086B2 - ビデオの短いセグメントを表示するための方法及びグラフィカルユーザインタフェース

Info

Publication number: JP5091086B2
Application number: JP2008283690A
Authority: JP
Inventors: トヤマケンタロー; ドラッカースティーブン
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2002-06-19
Filing date: 2008-11-04
Publication date: 2012-12-05
Anticipated expiration: 2023-06-19
Also published as: US7383508B2; EP1377047A2; EP1377047A3; JP2004023799A; JP2009105900A; US20030234805A1

Description

本発明は、ビデオの短いセグメントを表示するための方法及びグラフィカルユーザインタフェースに関し、より詳細には、コンピュータユーザインタフェースを使用して短いビデオセグメント（またはビデオ「クリップレット」）、ならびにクリップレットに関する情報及びプロパティを表示する、ビデオの短いセグメントを表示するための方法及びビデオクリップレットを表示するための方法並びにグラフィカルユーザインタフェースに関する。

ビデオカメラ（またはカムコーダ（ｃａｍｃｏｒｄｅｒ））は、アマチュアのビデオカメラ撮影者に人気の高いデバイスである。ビデオカメラは、デジタルビデオをメモリデバイスに記憶するデジタルカメラ、またはビデオ映像（ｖｉｄｅｏｆｏｏｔａｇｅ）を磁気ビデオテープに記憶するアナログのビデオカメラであるアナログのビデオカメラでキャプチャされたビデオ映像は、周知の技術を使用してデジタル化された形式に変換することができる。デジタルビデオは、コンピューティングデバイス（パーソナルコンピュータなどの）上で実行されるソフトウェアを使用して処理して、ビデオカメラでキャプチャされたデータを編集し、操作することができる。

従来のホームデジタルビデオのパラダイムでは、ユーザが、良好なビデオを撮影し、時間のかかるビデオ編集を行ってから、編集済みのムービーを含む単一の長いビデオを出力することを予期している。しかし、このパラダイムは、いくつかの問題を抱えている。１つの問題は、観るのを楽しむことができる良好なビデオは、写す、または撮影するのが困難なことである。ホームデジタルビデオは、圧倒的に、アマチュアのビデオカメラ撮影者によって撮影されている。これらのアマチュアは、一般に、ビデオを撮影することの訓練をほとんど受けておらず、したがって、しばしば、何をどのようにビデオに撮影するかについてまずい判断をする。結果として観づらいビデオ映像がもたらされる。

別の問題は、生のビデオ映像は、プロによって撮影されたときでも、編集するのが困難であり、時間がかかることである。プロの訓練を受けており、ハイエンドのツールを使用するプロの編集者が生のビデオをたった数分間の長さの最終バージョンに編集するのに、数時間かかる可能性がある。さらに、ほとんどの生のビデオ映像は退屈であり、数時間の生のビデオを精査することは、特にアマチュアには、極めて退屈な仕事である。

さらに別の問題の問題は、アマチュアが使用するための現在のビデオ編集ソフトウェアが、プロ用の編集システムをモデルにしていることである。これにより、ソフトウェアが平均的な消費者に使いづらいものになりがちである。現在のビデオ編集ソフトウェアのユーザインタフェースは、通常、生のビデオ映像の１つのビューをユーザに提供する。このユーザインタフェースは、映像に沿ってタイムライン（ｔｉｍｅｌｉｎｅ）をユーザに提供して、ユーザに時間上のオリエンテーション（ｔｅｍｐｏｒａｌｏｒｉｅｎｔａｔｉｏｎ）を与える。タイムラインは、ビデオ１トラック、ビデオ２トラック、オーディオ１トラックなどの、いくつかの異なる「トラック（ｔｒａｃｋ）」を含むことが可能である。ユーザインタフェースは、再生ボタン、早送りボタン、及び巻戻しボタンなどの、ＶＣＲ（video cartridge [cassette] recorder）と同様のコントロールを含む。これらのボタンを使用して、ユーザは、映像を先に進めたり、後に戻したりすることによってビデオ映像をブラウズする。特定のセクションを見出すためにビデオ映像をブラウズするこのプロセスは、「スクラビング（ｓｃｒｕｂｂｉｎｇ）」と呼ばれる。

生のビデオ映像の１つのビューだけしか有していないことで、映像に含まれる内容を判別するのが困難になる可能性がある。ビデオ全体の一度に１つのビューでは、そのビデオに何が含まれているか、また内容が興味を引くものであるかどうかを判定するのに十分な情報が、ユーザに提供されない。ほとんどのビデオは、少なくとも２時間の長さであり、多数のイベントを含む。映像の単一のビューだけしか与えないソフトウェアを使用して生の映像をスクラビングすることは、極めて退屈である可能性がある。

ユーザは、興味を引くビデオ映像を見出すと、開始のカット及び終了のカットをタイムライン上に置く。この２つのカットの間に、ユーザが保持することを望むビデオ映像が存在する。ビデオ映像上にカットを置くこのプロセスをビデオ映像のその他の部分に関して繰り返すことができる。ビデオをスクラビングしてビデオ映像の中でカットの場所を判定するこの編集プロセスは、退屈で、繰り返しが多く、時間がかかる仕事であり、手作業で行われなければならない。したがって、平均的な消費者には、ビデオを編集するプロセスは、困難で厄介な仕事である。

いくつかの文献に上述のような従来の技術に関連した技術内容が開示されている（例えば、非特許文献１、２参照）。

J.Boreczky, A.Girgensohn, G.Golovchinsky, and S.Uchihashi著「An Interactive Comic Book Presentation for Exploring Video」CHI2000、２０００年、pp.185-192 J.Boreczky and L.D.Wilcox著「A Hidden Markov Model Framework for Video Segmentation Using Audio and Image Feature」Proceedings of the international Conference on Acoustics, Speech and Signal Processign(Seattle,WA)、Vol.6、１９９８年、pp.3741-3744

上述の従来技術には、ビデオの複数のビューを表示し、ビデオに関する多くの情報を提供し、その複数のビュー及び対応する情報を、有益でコンパクトでユーザにとって簡単な形で、ユーザに提示するユーザインタフェースの必要性が存在するという点において、未だ改善の余地が残っている。

本発明は、このような課題に鑑みてなされたもので、その目的とするところは、ビデオに関する情報を迅速かつ容易に判別することができる、ビデオの短いセグメントを表示するための方法及びグラフィカルユーザインタフェースを提供することにある。

本明細書で開示する発明は、単一のイベントまたは単一のテーマ（ビデオクリップレット、または「クリップレット」と呼ばれる）をそれぞれが表わす、ビデオの短いセグメントを表示するためのコンピュータユーザインタフェースシステム及び方法を含む。クリップレットは、編集ポイントを自動的に判定し、その編集ポイントを使用してソースビデオからクリップレットを抽出することによって、より長い単位のビデオ（つまりソースビデオ）から生成される。コンピュータユーザインタフェースは、クリップレット、ならびにクリップレットのそれぞれの情報及びプロパティを表示する。このようにして、ユーザは、ビデオに含まれる主題や興味を引く部分などのソースビデオに関する情報を迅速かつ容易に判別することができる。

本発明のクリップレットユーザインタフェースのシステム及び方法は、クリップレットを使用してより大きいソースビデオをより小さいセグメントに分割することによって従来の編集ソフトウェアの問題を克服する。クリップレットユーザインタフェースは、ソースビデオの１つまたは２つのビューを表示するのではなく、複数のクリップレットをユーザに提示することによってソースビデオの多数のビューを表示する。さらに、各クリップレットに関する情報がユーザに表示されて、クリップレットを使用して編集を行うことがユーザにとってさらに容易になる。クリップレットは、ソースビデオから前もってカットされ、ユーザが、ソースビデオのスクラビングを手作業で行って良好な編集ポイントを判定する必要性がなくなる。さらに、ソースビデオの編集は、長く退屈に続くビデオではなく、クリップレットを使用して行われる。

一般に、クリップレットユーザインタフェースのシステム及び方法により、２次元構成で複数のクリップレットがユーザに提供される。複数のクリップレットが、それぞれ、独自のウインドウの中で表示される。２次元構成とは、複数のクリップレットのそれぞれが、単一の独立したエンティティであり、クリップレットの積重ねまたはスタックが存在しないことを意味する。クリップレットを表示することに加え、クリップレットプロパティも表示されて、対応するクリップレットに関する情報がユーザに提供される。クリップレットプロパティは、クリップレットの内容に関する情報を提供するクリップレット興味度評価（ｃｌｉｐｌｅｔｉｎｔｅｒｅｓｔｒａｔｉｎｇ）を含む。クリップレット興味度評価は、興味度バー（ｉｎｔｅｒｅｓｔｂａｒ）で表現することができる。興味度バーが高いほど、対応する領域の中の内容が高い興味を引くものである。例えば、オーディオ興味度バーがあるクリップレットに関して高い場合、このことは、そのクリップレットが興味を引くオーディオ内容を有することを意味する。スクロール機能、ドラッグアンドドロップ（ｄｒａｇａｎｄｄｒｏｐ）機能、及びマージ機能などの機能性が、クリップレットのそれぞれに関して提供される。ポインティングデバイスを使用して、ユーザは、クリップレットを独自のウインドウの中で再生することができる。

本発明は、本発明の態様を例示する以下の説明及び添付の図面を参照することによってさらに理解することができる。その他の特徴及び利点は、本発明の原理を例として示す添付の図面と併せて考慮される本発明の以下の詳細な説明から明白となる。

以下に説明するように本発明によれば、ビデオに関する情報を迅速かつ容易に判別することができる。

以下、図面を参照して本発明の実施形態を詳細に説明する。なお、各図面において同様の機能を有する箇所には同一の符号を付している。

本発明の以下の説明では、説明の一部を成す添付の図面を参照し、図面では、例として、本発明を実施することができる特定の例を示している。本発明の範囲を逸脱することなく、その他の実施形態を利用することも可能であり、また、構造上の変更を加えることも可能であることを理解されたい。

Ｉ．ビデオクリップレットの概説
本明細書で説明するコンピュータユーザインタフェースは、より長いデジタルソースビデオから生成された短いビデオセグメント（つまりビデオ「クリップレット」）を表示するためのシステム及び方法を含む。さらに、クリップレットに関する情報及びプロパティも表示される。一般に、ビデオクリップレット（または「クリップレット」）は、より大きいソースビデオを小さくカットまたはスライスすることによって生成される極短いデジタルビデオセグメントである。クリップレットの長さは、ユーザによって手作業で判定された、またはクリップレット生成のシステム及び方法によって自動的に判定された上限値である。通常、ビデオクリップレットの長さは、およそ７秒間から１０秒間までの範囲にあるが、５秒間またはそれより短いことも、３０秒間といった長いものであることも可能である。

クリップレット生成の目的は、ショット境界と従来考えられているものを２次的にしか考慮せずに、意味のある短いビデオセグメントを抽出することである。したがって、クリップレットは、（サウンドバイト（bites）を検出しようと試みるなどの）オーディオキュー（ｃｕｅ）、または（ズームインされた接写を検出しようと試みるなどの）ビデオキューなどの他の従来のものではないキューに基づくことが可能である。さらに、クリップレットは、時間が重なり合うことが可能である。これは、２つの異なるクリップレットが同一のビデオフレームを含む可能性があることを意味する。クリップレットは、必ずしもソースビデオ全体のすべてをカバーしなくてもよい。言い換えれば、ソースビデオの退屈でつまらないセクションを全部、除外することができる。以上のすべてにより、各クリップレットを意味的に重要なビデオ部分にするという目的が達せられる。

以下の特徴により、クリップレットは、他のビデオセグメントから区別される。第１に、生成に先立ち、長さ制約（ｄｕｒａｔｉｏｎｃｏｎｓｔｒａｉｎｔ）（すなわち、クリップレットの長さの制約）が判定される。上限値により、クリップレットの最大長が設定される。ただし、この上限値は、「ハードな」限界ではなく、以下に説明するとおり、その他の制約が優先される場合、違反されることが可能である。第２に、クリップレットは、必ずしも独立したビデオでなくてもよい。クリップレットは、クリップレットを抽出するためのより大きいソースビデオをどこでカットするかを表わす１対の開始ポイント及び停止ポイント（つまり、編集ポイント）であることが可能である。第３に、クリップレットは、閲覧者（ｖｉｅｗｅｒ）が、単一の短いイベント（サウンドバイトなどの）であると見なす可能性があるものを含む意味的に重要なビデオ部分である。クリップレットは、そのクリップレットをソースビデオから際立たせる単一のテーマまたは共通のスレッドを有する。

より長いソースビデオと比べてクリップレットの長さが比較的短いことにより、クリップレットを、デジタルビデオというよりもデジタル写真のように操作することが可能になる。ビデオクリップレットにより、操作し、記憶することが厄介なより大きいビデオを脱却することが可能になる。クリップレットは、長く退屈なビデオではなく、短く、刺激的なビデオセグメントに焦点を当てる。消費者は、いくつかの興味を引く場面だけを含む数時間の長いビデオを観ることで退屈することになりがちである。ビデオのつまらないセクションを飛ばして早送りするために早送りボタンを常に使用する代わりに、クリップレットにより、ユーザは、ビデオの興味を引く場面、つまり「核心」を抽出することができるようになる。

また、クリップレットは、大きいビデオより、操作し、記憶することが容易である。ビデオのサイズが大きいことにより、ビデオをアップロードして共有することに対するユーザの抵抗が、ソースビデオからクリップレットを生成することによって最小限に抑えられる。クリップレットにより、数メガバイトまたは数ギガバイトのビデオが回避される。定義からして、クリップレットは、大きいビデオより小さい。したがって、メモリ、ストーレッジ、処理能力、帯域幅、または人間の注意が限られているために大きいビデオに対しては実際的でない操作を、クリップレットに対しては容易に行うことができる。クリップレットは、サイズがより小さいため、大きいビデオと比べて、アップロード時間がより短く、帯域幅に対する要求がより少なく、より小さいディスクスペースしか必要とせず、また一般に、管理するのがより容易である。

デジタル写真に適用されるほとんどの操作は、ビデオクリップレットに関してもそれに類するものがある。ビデオクリップレットは、サイズが小さいため、タイムスタンプ及び総ピクセル統計で編成されたサムネイルを使用してブラウズすること、ドキュメントにカットアンドペースト（ｃｕｔａｎｄｐａｓｔｅ）を行うこと、及び電子メールを介して容易に送信することが可能である。理論上、以上の操作のほとんどが、ビデオに関して既に存在しているが、実際には、通常のホームビデオが余りにも大きく、余りにも長く、余りにも退屈であるため、消費者がその機能を使用することはめったにない。大きいビデオを処理することができないイメージ処理アルゴリズム及びコンピュータビジョンアルゴリズムをクリップレットに対して容易に使用することができる。イメージ安定化、色補正、パノラマ生成、３次元深度理解（ｔｈｒｅｅ−ｄｉｍｅｎｓｉｏｎａｌｄｅｐｔｈｕｎｄｅｒｓｔａｎｄｉｎｇ）、顔認識（ｆａｃｅｒｅｃｏｇｎｉｔｉｏｎ）、個人追跡（ｐｅｒｓｏｎｔｒａｃｋｉｎｇ）などの技術をクリップレットに対してリアルタイムで使用することができる。

図１は、より長い単位のビデオ（ソースビデオ）及びビデオフレームとの関係でビデオクリップレットの概念を示す図である。長さ、つまり時間Ｔのデジタルソースビデオ１００が、複数のビデオフレーム１０５を含む。図１に示すとおり、デジタルソースビデオ１００は、複数のクリップレットＣ（１）ないしＣ（Ｎ）に分割される。これらのクリップレットは、様々な長さであることが可能である。

以上に説明したとおり、クリップレットＣ（１）ないしＣ（Ｎ）のそれぞれは、デジタルソースビデオ１００の意味的に重要な部分である。一部のケースでは、２つまたはそれより多くのクリップレットの時間が重なり合い、したがって、同一のビデオフレームを共有することが可能である。図１を参照すると、クリップレットＣ（４）が、長さＴ（４）を有し、クリップレットＣ（５）が、長さＴ（５）を有する。Ｔ（４）はＴ（５）より短いものの、クリップレットＣ（４）とＣ（５）は時間が重なり合っている。この時間の重なり合いは、クリップレットＣ（４）とＣ（５）が、符号１１０で示されるビデオフレームを共有していることに見ることができる。

ＩＩ．一般的な概要
本発明のコンピュータユーザインタフェースのシステム及び方法は、クリップレット、ならびにクリップレットに関する情報を効率的で系統立った仕方で表示する。通常、コンピュータユーザインタフェースのシステム及び方法は、ビデオクリップレットを生成し、提示するためのクリップレット生成システムの一部である。図２は、コンピュータユーザインタフェースのシステム及び方法を組み込んだ例示的なクリップレット生成システム１９０の概要を示すブロック図である。一般に、図２に示すとおり、システム１９０は、デジタルビデオデータ獲得構成要素、ビデオクリップレット生成構成要素、及びコンピュータユーザインタフェースのシステム及び方法を含むクリップレット提示構成要素を含む。

より具体的には、デジタルビデオデータ獲得は、ビデオクリップレットジェネレータ２００がどのようにデジタルビデオデータ２０５を獲得するかに関する。デジタルビデオデータ２０５は、大きいソースビデオ２１０に含まれる。最初、カメラ２１５を使用して、ある場面（図示せず）のイメージがキャプチャされる。カメラ２１５は、デジタルビデオカメラまたはアナログビデオカメラであること、あるいはビデオデータをキャプチャすることができるデジタルカメラであることが可能である。カメラ２１５がデジタルカメラである場合、キャプチャされたビデオデータは、記憶媒体２２０の中に記憶されるか、またはビデオクリップレットジェネレータ２００に直接に送られる。カメラ２１５がアナログカメラである場合、キャプチャされたビデオデータは、アナログ−デジタルコンバータ２３０を使用してデジタル形式に変換しなければならない。前の場合と同じく、この変換されたデータは、記憶媒体に記憶すること、またはビデオクリップレットジェネレータ２００に直接に送ることができる。

デジタルビデオデータ２０５を含む大きいソースビデオ２１０は、獲得されると、ビデオクリップレットジェネレータ２００に送られる。通常、大きいソースビデオ２１０は、アマチュアのビデオカメラ撮影者によってキャプチャされたおよそ２時間の長さのホームビデオである。コンピューティングデバイス２４０上に配置されたビデオクリップレットジェネレータ２００を使用して、大きいソースビデオ２１０から小さいビデオセグメント、つまりクリップレットが抽出される。クリップレットがビデオクリップレットジェネレータ２００によって生成された後、次に、ビデオクリップレットユーザインタフェース２６０を含むモニタ（またはその他の表示デバイス）２５０を使用して、各クリップレット、ならびにそのクリップレットに関する情報及びプロパティがユーザ（図示せず）に提示される。提示及び表示は、ビデオクリップレットユーザインタフェース２６０（コンピュータユーザインタフェースとも呼ばれる）を使用して行われる。クリップレットユーザインタフェース２６０により、ユーザは、クリップレットに関する不可欠な情報を獲得し、クリップレットを操作し、管理し、クリップレットと対話することができるようになる。

ＩＩＩ．例示的な動作環境
本発明のクリップレットユーザインタフェース２６０は、コンピューティング環境において動作するように設計されている。以下の解説は、本発明を実施することができる適切なコンピューティング環境の簡単な一般的説明を提供することを意図している。

図３は、本発明を実施するのに適したコンピューティング装置を示すブロック図である。必須ではないが、本発明は、コンピュータによって実行される、プログラムモジュールなどのコンピュータ実行可能命令の一般的な状況で説明する。一般に、プログラムモジュールには、特定のタスクを行う、または特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、構成要素、データ構造等が含まれる。さらに、本発明は、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドデバイス、マルチプロセッサシステム、マイクロプロセッサベースの家庭用電化製品またはプログラマブル家庭用電化製品、ネットワークＰＣ（personal computer）、ミニコンピュータ、メインフレームコンピュータ等を含め、様々なコンピュータシステム構成で実施してもよいことが、当業者には理解されよう。また、本発明は、タスクが、通信網を介してリンクされたリモートの処理デバイスによって行われる分散コンピューティング環境において実施してもよい。分散コンピューティング環境では、プログラムモジュールは、メモリ記憶媒体を含め、ローカルのコンピュータ記憶媒体とリモートのコンピュータ記憶媒体の上に配置されていることが可能である。

図３を参照すると、本発明を実施するための例示的なシステムが、図２に示された汎用コンピューティングデバイス２４０を含んでいる。図３は、コンピューティングデバイス２４０の詳細を示している。詳細には、コンピューティングデバイス２４０は、プロセッサ３０２、システムメモリ３０４、ならびにシステムメモリ３０４からプロセッサ３０２までを含む様々なシステム構成要素を結合するシステムバス３０６を含む。システムバス３０６は、様々なバスアーキテクチャの任意のものを使用するメモリバスまたはメモリコントローラ、周辺バス、及びローカルバスを含むいくつかのタイプのバス構造の任意のものであることが可能である。システムメモリは、読取り専用メモリ（ＲＯＭ）３１０及びランダムアクセスメモリ（ＲＡＭ）３１２を含む。始動中などに、コンピューティングデバイス２４０内部の要素間で情報を転送するのを助ける基本ルーチンを含む基本入力／出力システム（ＢＩＯＳ）３１４が、ＲＯＭ３１０の中に記憶されている。コンピューティングデバイス２４０は、図示していないハードディスクに対して読取り及び書込みを行うためのハードディスクドライブ３１６、リムーバル磁気ディスク３２０に対して読取り及び書込みを行うための磁気ディスクドライブ３１８、及びＣＤ（compact disc [disk]）−ＲＯＭまたはその他の光媒体などのリムーバル光ディスク３２４に対して読取り及び書込みを行うための光ディスクドライブ３２２をさらに含む。ハードディスクドライブ３１６、磁気ディスクドライブ３２８、及び光ディスクドライブ３２２は、それぞれ、ハードディスクドライブインタフェース３２６、磁気ディスクドライブインタフェース３２８、及び光ディスクドライブインタフェース３３０でシステムバス３０６に接続される。以上のドライブ、及び関連するコンピュータ可読媒体により、コンピュータ可読命令、データ構造、プログラムモジュール、及びその他のデータの不揮発性のストーレッジが、コンピューティングデバイス２４０に提供される。

本明細書で説明する例示的な環境は、ハードディスク、リムーバル磁気ディスク３２０、及びリムーバル光ディスク３２４を使用するが、磁気カセット、フラッシュメモリカード、デジタルビデオディスク、ベルヌーイカートリッジ、ランダムアクセスメモリ（ＲＡＭ）、読取り専用メモリ（ＲＯＭ）などの、コンピュータがアクセスすることができるデータを記憶することができる他のタイプのコンピュータ可読媒体も、例示的な動作環境において使用できることが、当業者には理解されよう。

オペレーティングシステム３３２ａ、３３２ｂ、１つまたは複数のアプリケーションプログラム３３４ａ、３３４ｂ、３３４ｃ、その他のプログラムモジュール３３６ａ、３３６ｂ（ビデオクリップレットジェネレータ２００などの）、及びプログラムデータ３３８ａ、３３８ｂを含め、いくつかのプログラムモジュールをハードディスク、磁気ディスク３２０、光ディスク３２４、ＲＯＭ３１０またはＲＡＭ３１２に記憶することができる。ユーザ（図示せず）は、キーボード３４０やポインティングデバイス３４２（マウスなどの）などの入力デバイスを介して、コマンド及び情報をコンピューティングデバイス２４０に入力することができる。さらに、カメラ３４３（ビデオカメラなどの）、ならびに、例えば、マイクロホン、ジョイスティック、ゲームパッド、サテライトディッシュ、スキャナ等を含むその他のデバイス（図示せず）が、コンピューティングデバイス２４０に接続されていることが可能である。以上の他の入力デバイスは、しばしば、システムバス３０６に結合されたシリアルポートインタフェース３４４を介してプロセッサ３０２に接続されるが、パラレルポート、ゲームポート、またはユニバーサルシリアルバス（ｕｎｉｖｅｒｓａｌｓｅｒｉａｌｂｕｓ）（ＵＳＢ）などの他のインタフェースで接続してもよい。また、表示デバイス２５０も、ビデオアダプタ３４８などのインタフェースを介してシステムバス３０６に接続される。表示デバイス２５０に加えて、パーソナルコンピュータなどのコンピューティングデバイスは、通常、スピーカやプリンタなどの他の周辺出力デバイス（図示せず）も含む。

コンピューティングデバイス２４０は、リモートコンピュータ３５０のような１つまたは複数のリモートコンピュータに対する論理接続を使用するネットワーク化された環境において動作することが可能である。リモートコンピュータ３５０は、別のパーソナルコンピュータ、サーバ、ルータ、ネットワークＰＣ、ピアデバイス、またはその他の一般的なネットワークノードであることが可能であり、通常、コンピューティングデバイス２４０に関連して前述した要素及び特徴の多く、またはすべてを含む。ただし、メモリ記憶デバイス３５２だけを図３に示している。図３に描いた論理接続は、ローカルエリアネットワーク（ＬＡＮ）３５４及びワイドエリアネットワーク（ＷＡＮ）３５６を含む。そのようなネットワーキング環境は、オフィス、企業全体のコンピュータ網、イントラネット、及びインターネットにおいて一般的である。

ＬＡＮネットワーキング環境において使用されるとき、コンピューティングデバイス２４０は、ネットワークインタフェースまたはネットワークアダプタ３５８を介してローカルネットワーク３５４に接続される。ＷＡＮネットワーキング環境において使用されるとき、コンピューティングデバイス２４０は、通常、インターネットなどのワイドネットワーク３５６を介して通信を確立するためのモデム３６０またはその他の手段を含む。内部にあることも、外部にあることも可能なモデム３６０は、シリアルポートインタフェース３４４を介してシステムバス３０６に接続される。ネットワーク化された環境では、コンピューティングデバイス２４０に関して描いたプログラムモジュール、またはプログラムモジュールの部分をリモートのメモリ記憶デバイス３５２の中に記憶することができる。図示したネットワーク接続は、例示的なものであり、コンピュータ間で通信リンクを確立する他の手段も使用できることを理解されたい。

ＩＶ．ビデオクリップレットユーザインタフェース
本発明のクリップレットユーザインタフェースのシステム及び方法により、ビデオの１つまたは複数のビューだけを有する従来のビデオ編集ソフトウェアインタフェースと比べて、ビデオに関するはるかに多くの情報がユーザに提供される。クリップレットユーザインタフェースは、ソースビデオから生成された複数のクリップレットをユーザに表示する。このクリップレット提示により、１つまたは複数のビューが提供できるものと比べて、ビデオに関するはるかに多くの情報が提供される。クリップレットユーザインタフェースを使用すると、ユーザは、一見しただけで、複数のクリップレットから、ソースビデオの内容を判別することができる。さらに、クリップレットを使用してビデオを記述することは、ユーザにとってはるかに面白いものである。これは、ユーザに提示されるクリップレットが、ビデオの最も興味を引く部分を表わすためである。また、複数のクリップレットをユーザに提示することにより、ビデオのスクラビングを手作業で行う必要性がなくなる。クリップレットは、自動的に判定された編集ポイントを使用してソースビデオから既にカットされており、ユーザが、ビデオのスクラビングを行って編集ポイントを判定する必要性は存在しない。

また、クリップレットユーザインタフェースにより、各クリップレットに関する情報がユーザに提供される。例えば、クリップレット興味度評価及び使用統計などのクリップレットプロパティが、クリップレットユーザインタフェースを介してコンパクトで有益な形でユーザに提示されることが可能である。多数のプロパティは、ビデオごとにではなく、クリップレットごとの方が理にかなっている。例えば、「そのクリップレットはどこで撮影されたか」という質問の方が、「そのビデオはどこで撮影されたか」という質問よりも理にかなっている。これは、ビデオが複数の場所からのショットを含むのに対して、クリップレットは、一般に、単一のイベントまたは単一のテーマを含むためである。

図４は、クリップレットユーザインタフェースの一般的な概要を示している。一般に、クリップレットユーザインタフェース２６０は、表示デバイス２５０上に表示され、複数のクリップレット、及び各クリップレットに関する情報を含む。詳細には、クリップレットユーザインタフェース２６０は、複数のクリップレット４１０を２次元構成で表示するためのクリップレット提示領域４００を含む。複数のクリップレット４１０のそれぞれは、単一の独立したエンティティとして表示される。これは、クリップレット提示領域４００内でクリップレットのスタッキングまたは積重ねが存在しないことを意味する。さらに、この複数のクリップレットは、クリップレットプロパティ（クリップレット興味度評価を含む）に基づく視覚的に別々のグループに、または複数のクリップレットに用意された任意の他の形態のメタデータに構成することができる。この視覚的に別々のグループは、視覚的に別々の行、及び視覚的に別々の列を含む。

複数のクリップレット４１０のそれぞれは、小さいキーフレームウインドウ４２０内に含まれる。キーフレームウインドウ４２０は、サムネイルイメージなどの、クリップレットを表わす少なくとも１つのキーフレームを含む。クリップレットプロパティ提示領域４３０は、キーフレームウインドウ４２０内に配置されている。この図では、クリップレットプロパティ提示領域４３０は、キーフレームウインドウ４２０の底部に配置されて示されている。クリップレットプロパティ提示領域４３０は、キーフレームウインドウ４２０内で、またはキーフレームウインドウ４２０に隣接して任意の場所に配置することが可能であることに留意されたい。クリップレットプロパティ提示領域４３０は、各クリップレットに関してコンパクトな形で少なくとも１つのクリップレットプロパティを表示するためのものである。クリップレットプロパティの提示は、グラフィックス表現、テキスト表現、または以上２つの組み合わせであることが可能である。

キーフレームウインドウ４２０内で、またはキーフレームウインドウ４２０に隣接してクリップレットプロパティを提示することにより、ユーザは、クリップレットに関する重要な情報を迅速かつ効率的に集めることができるようになる。例えば、使用統計、顔検出、パン（ｐａｎ）／ズーム検出、及びオーディオ評価などのクリップレットプロパティ及び情報をクリップレットプロパティ提示領域４３０の中で表示して、ソースビデオに含まれる主題、及びクリップレット内容が興味を引くかどうかに関する情報をユーザに提供することができる。

図５は、図４に示したキーフレームウインドウ４２０の拡大して示す図である。キーフレームウインドウ４２０内に表示されたキーフレームは、クリップレットを表わし、サムネイルイメージであることが可能である。さらに、クリップレットを複数のキーフレームによって表わすことが可能である。その状況では、クリップレットは、キーフレームウインドウ４２０の中でいくつかのやり方で表わすことができる。１つのやり方は、クリップレットに関する複数のキーフレームのそれぞれを連続するキーフレームウインドウ、または隣接するキーフレームウインドウの中で示すことである。別のやり方は、ユーザが、入力デバイス（マウスなどの）を使用して複数のキーフレームを循環させることである。例えば、ユーザが、あるクリップレットのキーフレームウインドウの上にマウスポインタを保ち、複数のキーフレームのそれぞれが、そのキーフレームウインドウ内で交替する形で表示される。ユーザは、所望のキーフレームを見出したとき、マウスをクリックし、そのキーフレームが、キーフレームウインドウ内で表示される。

図５もキーフレームウインドウ４２０内に配置されたクリップレットプロパティ提示領域４３０を示している。ただし、この図では、クリップレットプロパティ提示領域４３０は、キーフレームウインドウ４２０の右側に配置されている。クリップレットプロパティは、利用可能な任意のクリップレット情報に基づく。クリップレットプロパティは、クリップレットとともに記憶され、クリップレットプロパティ提示領域４３０内で表示されることが可能である。クリップレットプロパティには、クリップレット興味度評価が含まれる。この評価により、ユーザの興味を引く可能性があるクリップレットの中の内容に関する視覚的なキュー（ｃｕｅ）が提供される。例えば、クリップレットプロパティ提示領域４３０内に表示されたクリップレット興味度評価が、クリップレットがほとんどすべてのビデオフレームの中で顔を含むことをユーザに示すことが可能である。ユーザが、顔を有するクリップレットに興味がある場合、この興味度評価は、クリップレットが興味を引くものであることをユーザに示す。

クリップレット興味度評価は、クリップレットに特有である。興味度評価は、長いビデオに関しては意味を成さない。これは、長いビデオが、複数のイベントからの２時間、またはそれを超える時間のビデオを含む可能性があるためである。長いビデオに含まれる複数のイベントに単一の興味度評価を割り当てることが、不可能ではないとしても、困難になる。一方、クリップレットは、単一のテーマ、または単一のイベントを含むビデオの意味的に重要な部分である。したがって、クリップレットに興味度評価を割り当てることは、自然であり、理にかなっている。

図６は、クリップレットユーザインタフェース２６０の別の実施形態を示している。この実施形態では、クリップレットユーザインタフェース２６０は、クリップレット提示領域４００、ビデオウインドウ６００、及び凡例（ｌｅｇｅｎｄ）領域６１０を含む追加の領域を含む。クリップレット提示領域４００は、２次元構成で、単一の独立したエンティティとして表示される複数のクリップレット４１０を含む。複数のクリップレット４１０のそれぞれは、小さいキーフレームウインドウ４２０内に含まれる。この実施形態では、クリップレットプロパティ提示領域４３０は、キーフレームウインドウ４２０内で左側に配置されている。ビデオウインドウ６００は、一般にキーフレームウインドウ４２０より大きいウインドウであり、ユーザが、ウインドウ６００内で所望のクリップレットを再生することを可能にする。凡例領域６１０は、クリップレットプロパティ提示領域４３０において使用される記号の意味に関する情報を含む。

ソースビデオから生成されるクリップレットの数は、数百である可能性がある。各クリップレットをクリップレット提示領域４００の中で表示することにより、各キーフレームウインドウ４２０が過度に小さくなる。解決策は、クリップレット提示領域４００においてスクロール機能を提供して、ユーザが、クリップレットのそれぞれをスクロールすることができるようにすることである。図６に示すとおり、水平スクロールバー６２０及び垂直スクロールバー６３０が、クリップレットをスクロールするために提供される。水平スクロールバー６２０により、ユーザは、複数のクリップレット４１０のそれぞれをクリップレット提示領域４００の水平方向でスクロールすることができるようになる。同様に、垂直スクロールバー６３０により、ユーザは、複数のクリップレット４１０のそれぞれを垂直方向でスクロールすることができるようになる。

クリップレットユーザインタフェース２６０により、ユーザが、任意のクリップレットのプレビューを独自のキーフレームウインドウ４２０の中で行うことを可能にする定位置プレビュー（ｉｎ−ｐｌａｃｅｐｒｅｖｉｅｗ）機能が提供される。言い換えれば、ユーザは、入力デバイスを使用して、クリップレットをそのキーフレームが占めているのと同じスペースで見ることができる。したがって、ユーザによって指示が行われたとき、キーフレームは、キーフレームウインドウ４２０内で再生されるクリップレットで置き換えられる。クリップレットの再生の終了時に、キーフレームがキーフレームウインドウ４２０に戻る。

また、クリップレットユーザインタフェース２６０は、ドラッグアンドドロップ（ｄｒａｇａｎｄｄｒｏｐ）機能も提供して、ビデオクリップレットの少なくとも１つを処理のためにアプリケーションに入れることができるようにする。このドラッグアンドドロップ機能により、ユーザが、キーフレームウインドウ４２０の中にカーソル６４０を置き、所望のクリップレットをドラッグアンドドロップしてアプリケーションに入れることができるようになる。例えば、ユーザが、あるクリップレットをドラッグアンドドロップして、クリップレットのカットアンドペーストを行うことを可能にするオーサリングアプリケーションに入れることを望む可能性がある。クリップレットがソースビデオからカットされているため、ユーザが編集ポイントを判定する必要はない。

クリップレットの開始ポイント及び終了ポイント（つまり編集ポイント）は既に判定されているが、ユーザが、そのポイントに満足でない可能性がある。クリップレットユーザインタフェースにより、ユーザは、クリップレットをそれと時間的に隣接するクリップレットとマージすることにより、クリップレットを延長することができる。これは、入力デバイスを使用してビデオクリップレットの少なくとも２つをマージして、第１のクリップレットが第２のクリップレットにマージされて新しい第３のクリップレットが作成されるようにすることによって達せられる。第３のクリップレットは、組み合わされた第１と第２のクリップレットの期間である。これにより、ユーザは、クリップレットを、そのクリップレットと時間的に隣接する任意のクリップレットと組み合わせて延長することができるようになるが、何らかのスクラビングが必要となる。

ユーザが、それでもクリップレットの編集ポイントに不満である場合、クリップレットユーザインタフェース２６０は、ユーザが、開始ポイント、または終了ポイントを延ばすこと、または縮めることを可能にする機能を含んでいる。スクラビングを回避するため、ユーザは、システムが、サブショット境界（後述する）に基づいて１つまたは複数の新しい編集ポイントを自動的に見出すようにさせるオプションを有する。入力デバイスを介して、ユーザは、クリップレットユーザインタフェースが、以前に判定されたサブショット境界に基づいて他の開始ポイント及び終了ポイントの可能性を提示することを要求することができる。

Ｖ．実用例
図７は、図６に示したクリップレットユーザインタフェース２６０の実用例である。これは、クリップレットユーザインタフェース２６０を実施することができる１つのやり方に過ぎないことに留意されたい。図７は、クリップレットユーザインタフェース２６０の例であるサムネイルユーザインタフェース７００を含む。サムネイルユーザインタフェース７００は、＃０から＃３３まで番号が付けられた３４のクリップレットを表示するクリップレット領域７１０を含む。クリップレットのそれぞれが、サムネイルインドウ７１５内に表示され、各クリップレットは、サムネイルインドウ７１５内のサムネイルイメージによって表わされる。サムネイルインドウ７１５に隣接して、以下に説明するとおり興味度評価情報を表示するクリップレット興味度評価領域７１８が存在する。

クリップレットビデオウインドウ７２０が、所望のクリップレットを再生するのに使用される。「停止されるまで再生（ＰｌａｙＵｎｔｉｌＳｔｏｐｐｅｄ）」機能７２５がユーザによって選択されて、ウインドウ７２０に示されたポイント（通常、クリップレットを表わすキーフレーム又はサムネイル）からそのクリップレットの終りまで再生を行うようにクリップレットビデオウインドウに命令することが可能である。「停止」機能７２７がユーザによって選択されて、クリップレットがウインドウ７２０の中で再生されるのを停止することが可能である。キー領域７２９を使用して、ユーザがクリップレット興味度評価領域７１８内に提示されている情報を理解するのを助ける記号及び情報を表示する。

興味度評価バー
クリップレット興味度評価領域７１８は、対応するクリップレットに関する情報をユーザに表示する。この実用例では、クリップレット興味度評価は、興味度バーを使用してグラフィックスでユーザに表示される。本発明の他の態様は、クリップレット興味度評価に関する情報をユーザに表示して伝える任意の他のタイプのインディケータを使用することを含む。

図７に示すとおり、興味度バーは、使用バー７３０、ビデオ（またはズーム）バー７３２、オーディオバー７３５、及びビデオ（または顔）バー７４０として左から右に配置される。バーが高いほど、プロパティが存在している度合いが高い。例えば、ズームバー７３２（ズームに対応する）が高いほど、クリップレットでズームインが行われている度合いが高い。同様に、オーディオバー７３５が高いほど、その特定のクリップレットに関するオーディオは、興味を引く度合いが高い。したがって、クリップレットの中で人々が興奮し、叫んでいる場合、より興味を引くオーディオを示すように、そのクリップレットに関するオーディオバー７３５がより高い。ビデオバーまたは顔バー７４０が高いほど、１つまたは複数の顔がそのクリップレットの中に存在する度合いが高い。例えば、図７に示すとおり、クリップレット＃２４の場合、その他のバーに比べてクリップレットオーディオバー７４５が極めて高い。これは、ハワイモンクアザラシが撮影されており、そのクリップレットの背景に興奮した叫び声及び歓声が存在するからである。興味度評価は、ユーザに情報を伝える便利で効果的な手立てである。例えば、ビデオを開き、モンクアザラシを含むビデオの中の場所を探索する必要なしに、ユーザは、クリップレット＃２４の中に興味を引くオーディオ内容が存在するという感覚を即時に得ることができる。

興味度評価バーは、クリップレットのプロパティ及び情報を表示する１つの可能なやり方に過ぎないことに留意されたい。クリップレットプロパティは、任意のタイプのグラフィックスのインディケータ、またはテキストのインディケータで表わすことができる。通常、インディケータは、あらゆる他のクリップレットプロパティとの関係でそのクリップレットプロパティを示す。

使用統計
クリップレット統計には、クリップレット使用の頻度を追跡してユーザに表示する使用統計が含まれる。このクリップレットプロパティは、クリップレット生成中には計算されない。そうではなく、使用統計は、ユーザがクリップレットユーザインタフェースを介してクリップレットと対話するのにつれて計算される。

図７に示すとおり、使用バー７３０は、どれだけ頻繁にクリップレットにアクセスが行われたかを示す。使用バー７３０は、クリップレットプロパティ提示領域４３０内で表示される。使用バーがより低いことは、クリップレットに頻繁にアクセスが行われなかったことを意味する。使用バーがより高いことは、クリップレットに頻繁にアクセスが行われたことを示す。

ユーザがクリップレットを閲覧するたびに毎回、そのクリップレットに関する使用バーが増加する。同様に、ユーザが誰かにクリップレットを電子メールで送信するたびに毎回、そのクリップレットに関する使用バーが増加する。使用バー７３０を介して、ユーザは、どのクリップレットがその特定のユーザ自身の興味を引くかについて視覚的な予見を得ることができる。使用統計は、好みのクリップレットを指定するようにユーザに明示的に求める必要性を緩和するタイプのクリップレット興味度評価である。また、数名のユーザに合わせてカスタマイズされた複数の使用バーが存在することも可能である。これにより、すべてのユーザが、どのクリップレットが自らの興味を引き、どのクリップレットを他のユーザが興味深いと感じたかを知ることができる。時間の経過とともに、ユーザ統計は、どのクリップレットがユーザの興味を引くかを判別することがより正確になる。

使用統計は、他の興味度評価などの他のクリップレットプロパティと相関させることができる。この相関を使用して、使用評価、及び何がユーザの興味を引くかに基づき、時間の経過とともに興味度評価及びクリップレット評価プロセスを調整し、慣らすことができる。例として、ユーザが、興味を引くオーディオを多く有するクリップレットを一貫して閲覧している場合、オーディオ興味度評価がそのユーザに重要なことを推論することができる。したがって、そのユーザが、高いオーディオ興味度評価を有するクリップレットを選好し、興味を持っていると判定することができる。使用統計を興味度評価に相関させることにより、時間の経過とともに、クリップレットユーザインタフェースは、ユーザの選好を「学習」する。この知識は、例えば、ハイライトビデオを作成する際、またはどのクリップレットをユーザに提示するかを判定する際に使用することができる。

クリップレット生成及び興味度評価のシステムの詳細
この実用例では、クリップレットユーザインタフェース２６０は、ビデオクリップレット生成システム１９０の一部として実施される。このシステム１９０は、クリップレット、及びその他のクリップレット情報を自動的に生成するためのビデオクリップレットジェネレータ２００を含む。図８は、図２に示したビデオクリップレットジェネレータ２００の詳細を示す詳細ブロック図である。概して、ビデオクリップレットジェネレータ２００は、デジタルビデオデータ２０５を含む大きいソース２１０を入力し、ビデオクリップレット結果８００の形態でクリップレット情報を出力する。ビデオクリップレット結果は、クリップレットユーザインタフェース２６０を使用してユーザに提示することができるクリップレットに関連する様々な情報を含む。

ビデオクリップレットジェネレータ２００は、編集ポイントを判定する次の少なくとも２つのモジュールを含む。すなわち、（１）サブショット境界モジュール８１０（例は、ショット境界モジュール８１５である）、及び（２）制約適用モジュール８２０である。以上のモジュール８１０、８１５、８２０のそれぞれに関する出力が、編集ポイント８３０である。編集ポイント８３０は、クリップレットが抽出されるべき大きいソースビデオ２１０の中のカットポイント、またはカット場所である。モジュール８１０、８１５、８２０のそれぞれを単独で、または任意の組み合わせで使用して編集ポイント８３０を判定することができる。

サブショット境界モジュール８１０は、ソースビデオ２１０内でサブショットを見出すことによって編集ポイント８３０を判定する。サブショットは、特定のイベント、または特定のテーマを規定する意味境界として規定される。サブショット境界は、必ずしもショット境界（以下を参照）ではないが、ショット境界であることが可能である。例えば、ある人がビデオの中で話している場合、文の間の休止が、ショット境界ではなくても、サブショット境界として規定するのに好適な場所である可能性がある。サブショット境界モジュール８１０は、単一ショット内であっても、イベントまたはテーマを意味的に分離することができるソースビデオ２１０の中の場所を探す。

ショット境界モジュール８１５は、ソースビデオ２１０を処理してショット境界を見出すことによって編集ポイント８３０を判定する。ショット境界は、特定のクリップレット生成システムによって検出されることが可能なサブショット境界のすべてのサブセットを構成する。ショット境界は、カメラが「オン」または「オフ」にされたソースビデオ２１０の中の場所として規定される。ソースビデオ２１０内のカメラ「オン」の場所とカメラ「オフ」の場所の間の部分が、ショットとして規定される。

制約適用モジュール８２０は、クリップレット時間制約を使用して編集ポイント８３０を判定する。クリップレット時間制約は、クリップレットの最小時間及び最大時間を示すことが可能である。通常、クリップレット時間制約は、およそ５秒間から１０秒間の範囲にあるが、他の時間を使用してもよい。クリップレット時間制約は、「ソフトな」制約であることが可能であり、これは、他の制約、または編集ポイント指示が使用された場合、クリップレット時間制約が譲り、クリップレットの長さが、任意に長く、または短くされるのを許すことを意味する。

制約適用モジュール８２０は、大きいソースビデオ２１０を取り、サブショット境界が検出されたポイントでクリップレットをカットしようと試みながら、クリップレット時間制約の値に長さが準拠するクリップレットにソースビデオ２１０を分割する。生成されたクリップレットの完全なセットが時間制約を満たすように、適切な方策が取られる。例えば、制約が、どのクリップレットも１０秒間を超える長さであってはならないというハードな制約である場合、秒で検出されたサブショットを有する３６秒間のビデオが、４つのセグメントのビデオ（８秒間、７秒間、１０秒間、及び１１秒間の長さ、または１０秒間の４つの重なり合うセグメント等の）を生成することが可能である。

編集ポイント８３０が判定されると、ビデオクリップレット抽出モジュール８４０が、編集ポイント８３０に基づいてソースビデオ２１０からクリップレットをカットする。次に、ビデオクリップレット８４５が、ビデオクリップレット抽出モジュール８４０からの出力として送られる。カットするプロセスは、物理的にカットすることを全く必要としない可能性があることに留意されたい。というのは、編集ポイント、及びソースビデオに対するポインタ自体が、クリップレットを表わすからである。

ビデオクリップレットジェネレータ２００は、ビデオクリップレット８４５の中の各クリップレットに関して「興味度評価」を生成するためのビデオクリップレット評価モジュール８５０も含む。この評価は、フレームごとにではなく、クリップレットごとに計算される。クリップレットごとに評価を割り当てることの利点は、各クリップレットをその評価に基づいてユーザに提示することができることである。クリップレットは、いくつかのフレームを含むので、すべてのクリップレット、及びクリップレットの評価を提示することは、すべてのフレーム、及びフレームの評価を提示することよりもはるかに扱いやすいタスクである。さらに、クリップレットはフレームよりはるかに多くの情報を含むので、最も人気のあるフレームがただ単に提示された場合と比べて、最も人気のあるクリップレットがユーザに提示される方が、ユーザが、ソースビデオ２１０に関してはるかに多くの情報を獲得することが可能になる。

ビデオクリップレット８４５に含まれるクリップレットに関するキーフレームを判定するためのキーフレーム特定モジュール８６０が、ビデオクリップレットジェネレータ２００内に含まれる。キーフレームは、基準を使用して、キーフレームが、クリップレットに適用されるその選択された基準を最もよく表わすように特定される。クリップレットごとに任意の数のキーフレームが存在することが可能であるが、少なくとも１つのキーフレームが選好される。

ビデオクリップレットジェネレータ２００の出力が、ビデオクリップレット結果８００である。この結果８００は、ビデオクリップレットジェネレータ２００内に含まれるモジュールのそれぞれによって生成されたクリップレット情報、及びクリップレットプロパティを含むことが可能である。図８に示すとおり、ビデオクリップレット結果８００は、ビデオクリップレット抽出モジュール８４０によって獲得された１組のビデオクリップレット８７０、ならびに制約適用モジュール８２０、ショット境界モジュール８１５、及びサブショット境界モジュール８１０の１つまたは複数によって獲得されたクリップレット編集ポイント８７５を含むことが可能である。さらに、ビデオクリップレット結果８００は、ビデオクリップレット評価モジュール８５０によって獲得されたビデオクリップレット評価８８０、及びキーフレーム特定モジュール８６０によって獲得された１組のキーフレーム８８５も含むことが可能である。ビデオクリップレット結果８００は、以上のクリップレット情報及びクリップレットプロパティの任意の組み合わせを含むことが可能である。

図９は、図２及び８に示したビデオクリップレットジェネレータ２００の動作を示す概要流れ図である。一般に、ビデオクリップレットジェネレータ２００は、大きいソースビデオ２１０を処理して提示のためのクリップレット、及びクリップレット情報を生成する。具体的には、ビデオクリップレットジェネレータ２００は、まず、処理するためにソースビデオ２１０を入力する（ボックス９００）。次に、編集ポイント８３０が、サブショット境界を使用し、また場合により、以下に詳述する技術の１つまたは複数を使用して自動的に判定される（ボックス９１０）。編集ポイント８３０を使用して、クリップレットがソースビデオ２１０から抽出される（ボックス９２０）。最後に、クリップレット結果８００が、例えば、操作のためにユーザに提示される。

サブショット境界モジュール
図１０は、図８に示したサブショット境界モジュール８１０の動作の詳細を示す詳細流れ図である。一般に、サブショット境界モジュール８１０は、サブショット境界を使用して編集ポイント８３０を規定する。サブショット境界検出方法を使用して、ビデオをカットし、クリップレットを生成するのに都合のよいポイントを提供するソースビデオ２１０の部分に対応する編集ポイント８３０を見出す。

まず、検出されるべきタイプのサブショット境界を規定する（ボックス１０１０）。サブショット境界は、意味的に理にかなった任意のタイプの基準を使用して規定することができる。例えば、サブショット境界のタイプには、次のものが含まれる。従来のショット境界は、あるタイプのサブショット境界である。発言間の任意の時点が、サブショット境界となることが可能である。パンが行われることをサブショット境界基準として使用して、パンの始め、途中、または終り（ビデオの中の安定したポイントではなく）がサブショット境界として使用されるようにすることができる。同様に、ズームをサブショット境界基準として使用して、ズームの直後のポイントがサブショット境界として使用されるようにすることができる。ズーム基準を使用することは、ビデオカメラ撮影者が、通常、興味を引く主題またはイベントにズームインするという知識に基づいている。場面クラスタ化をサブショット境界基準として使用して、互いに似通った様々な場面が一緒にクラスタ化されて、同様な場面が同じサブショットに属するようにすることができる。さらに、タイムスタンプベースのショット検出、ビデオベースのショット検出、オーディオベースのショット検出、及びオーディオ−ビジュアルベースのショット検出をサブショット境界検出のための基準として使用することができる。さらに、ソースビデオ２１０のオーディオ信号部分の中の任意の利用可能な特徴を使用するオーディオ解析を使用して、サブショット境界を規定することができる。このオーディオ特徴には、オーディオスペクトル解析、音声認識、及びオーディオパワー変動分解（ａｕｄｉｏｐｏｗｅｒｖａｒｉａｎｃｅｄｅｃｏｍｐｏｓｉｔｉｏｎ）が含まれる。ソースビデオ２１０のビデオ信号の中の任意の利用可能な特徴を使用するビデオ解析を使用してサブショット境界を規定することができる。このビデオ特徴には、いくつかを挙げると、色ヒストグラム、ウェーブレット分解、光フローパラメータ、フーリエ変換係数、及び顔検出が含まれる。

サブショット境界のタイプが規定されると、サブショット境界が判定される（ブロック１０２０）。次に、編集ポイント８３０が、クリップレット時間制約及びサブショット境界に基づいて判定される（ボックス１０３０）。最後に、編集ポイント８３０が、サブショット境界モジュール８１０からの出力として送られる（ボックス１０４０）。

サブショット境界を視覚的なキューに基づいて見出すことの一例は、隣接するビデオフレームの色ヒストグラム間のバッタチャリヤ（Ｂｈａｔｔａｃｈａｒｙａ）距離を計算することである。その距離におけるあるしきい値を超えるピークが、サブショット境界であるものと見なされる。別法は、「ビデオの生成モデル」を使用して、処理されているソースビデオ２１０をモデル化し、背景が大きく変化したときをサブショット境界と規定することである。さらに、サブショット境界は、ある視覚的な要素がビデオに入った、またはビデオから出たポイントとして規定することも可能である。例えば、ある人が場面に入った、または場面から出たときをサブショット境界と規定することが可能である。オーディオキューに基づいてサブショット境界を見出すことの一例は、決められた時間より長いオーディオパワー信号における谷を見出して沈黙の時点を判定することである。その谷の中点をサブショット境界として規定することができる。どのタイプのデータも参照することなくサブショット境界を見出すことの一例は、毎Ｎ秒間にサブショット境界を生成することであり、ただし、Ｎは、クリップレット時間制約などの短い時間であることが可能である。前述した基準の任意の１つ、または任意の組み合わせを使用してサブショット境界を規定することができる。

サブショット境界検出によって生成された各編集ポイントは、必ずしもクリップレットを生成するのに使用されないことに留意されたい。これは、サブショット境界が確実な編集ポイントではなく、単にカットするための候補に過ぎず、したがって、もたらされるクリップレット自体が多数のサブショット境界を含む可能性があるためである。例えば、サブショット境界が毎０．５秒に見出され、クリップレット時間制約が７秒間であることが可能である。その場合、余りにも頻繁にサブショット境界が存在するので、すべてのサブショット境界は使用されない。

図１１は、特徴ベースの手法を使用するサブショット境界モジュール８２０の実用例を示す詳細流れ図である。特徴ベースの手法を使用することは、ビデオ２１０の中の各ビデオフレームが、特徴ベクトルで節約的に（ｐａｒｓｉｍｏｎｉｏｕｓｌｙ）表現される（ボックス１１００）ことを意味する。この実用例では、特徴ベクトルは、低次元の特徴ベクトルである。特徴ベクトルは、元のビデオフレームを全く参照することなしに、サブショット境界検出プロセス全体で使用される。特定の特徴は様々である可能性があるが、この例で使用した特長は、ビデオフレームの各４分の１に関する平均イメージ輝度及び色ヒストグラムである。

サブショット境界検出は、特徴ベクトルのシーケンスに対してスライディングウインドウを送ることによって行われた（ボックス１１１０）。スライディングウインドウの各位置で、中心の特徴からウインドウ内のすべての他の特徴ベクトルまでの平均距離が計算され（ボックス１１２０）、記憶された（ボックス１１３０）。これにより、記憶された平均距離のそれぞれから構成された１次元信号がもたらされた（ボックス１１４０）。次に、１次元信号の外れ値（ｏｕｔｌｉｅｒ）が抽出された（ボックス１１５０）。１次元信号の外れ値は、サブショット境界に対応している。抽出は、堅牢な統計的外れ値検出手続きを使用して行われた。

図１２は、場面クラスタ化を使用するサブショット境界検出の実用例を示す詳細流れ図である。場面クラスタ化は、サブショット境界を規定し、検出するのに使用され、その境界を使用してクリップレットを生成する。場面クラスタ化は、ビデオ、オーディオ、またはビデオとオーディオをともに使用して行うことができる。一般的な考え方は、同様なデータ（ビジュアルデータであるか、オーディオデータであるかに関わらず）をクラスタ化し、同様なデータのクラスタを使用してクラスを定義することである。ソースビデオ２１０の中の各フレームにクラスが割り当てられ、フレーム間でクラスの変化が存在する場所にサブショット境界が生じる。

場所クラスタ化法は、クラスの知識も、クラス定義の知識もなしに開始される（平均及び分散の点などから）。ランダムな推測が行われ、反復プロセスを介して、ビデオフレームがクラスタ化されて、クラスに揃えられる。最終的に、ビデオフレームは、別々のクラスにグループ化され、クラスに関する平均イメージが明らかになる。

図１２に示したとおり、この実用例では、場面クラスタ化法は、ソースビデオ２１０からビデオフレームをランダムに選択し、そのフレームに基づいてクラスを定義することから開始する（ボックス１２００）。次に、各ビデオフレームに関して、そのビデオフレームがクラスのそれぞれに属する確率が判定された（ボックス１２１０）。次に、観察されたデータが平均され、確率で重みが付けられ、これにより、ビデオフレームが、独立した別個のクラスにマージされた。さらに、不変のパラメータが判定され（ボックス１２２０）、変形パラメータが定義された（ボックス１２３０）。変形パラメータは、ビデオフレームを変形して、似通っているが、わずかに変形されたビデオフレームが、それでも同じクラスに属するようにするランダムな変数である。例えば、あるセットのビデオフレームが人物を含み、次のセットのビデオフレームが同一人物のクローズアップを含む場合、ズーム変形パラメータを定義して、両方のセットのビデオフレームが、ズームに関わらず同一のクラスに属するようにすることが可能である。これは、ズーム不変として知られている。

通常、データは、変形不変様式でクラスタ化される。これは、似通った内容を有するが、移動（左、右、上方、または下方などの）、あるいはズームインまたはズームアウトのために異なっているビデオフレームが、同じであると見なされ、同一のクラスの中に一緒にクラスタ化されることを意味している。別法では、いくつかの変形パラメータを不変ではないものとして選択し、場面クラスタ化を定義するのに使用することができる。詳細には、ズームが不変ズームパラメータとして選択された場合、サブショット境界は、ズームが行われるポイントでは規定されない。しかし、ズームが不変変形パラメータではない場合、ソースビデオ２１０のズームインポイント後などの、ズームが行われるポイントに関してサブショット境界を規定することができる。

次に、確率を使用して似通ったビデオフレームが、クラスのそれぞれにクラスタ化された（ボックス１２４０）。これは、各回の反復を介して各ビデオフレームが別個の独立したクラスに分離されるように反復プロセスを使用して行われた。最後に、クラスのそれぞれへのビデオフレームのクラスタ化に基づいてサブショット境界が判定された（ボックス１２５０）。

前述した場面クラスタ化技術は、ピクセルの色または光度だけでなく、ビデオフレームに対するピクセルの空間的グループ化も考慮に入れる。これにより、サブショット境界を判定する際、他の技術に優る利点が場面クラスタ化技術に与えられる。例えば、場面クラスタ化技術は、ピクセル光度技術と比べて光度の変化の影響をはるかに受けにくい。これは、ピクセル光度技術とは異なり、場面クラスタ化技術は、単にビデオフレーム間で光度の変化があるという理由でサブショット境界を見出さないことを意味する。さらに、色は弱いキューであるため、場面クラスタ化技術の方が、ピクセル色技術よりも信頼が置ける。

ショット境界モジュール
図１３は、図８に示したショット境界モジュール８１５の動作の詳細を示す詳細流れ図である。ショット境界モジュールは、サブショット境界モジュールの例であるか、または通常、サブショット境界モジュールの多数の構成要素の１つである。一般に、ショット境界モジュール８１５は、ビデオタイムスタンプの不連続性を使用して、または隣接するフレーム間におけるビデオイメージの急な不連続性に編集ポイント８３０を見出す。より具体的には、ショット境界モジュール８１５は、まず、前述した仕方でクリップレット時間制約を判定する（ボックス１３００）。次に、ショット境界が判別される（ボックス１３１０）。前述したとおり、ショット境界は、カメラが「オン」または「オフ」にされたソースビデオ２１０内の場所である。ソースビデオ２１０内のこのカメラ「オン」の場所とカメラ「オフ」の場所の間のビデオ部分が、ショットとして定義される。

制約適用モジュール
図１４は、図８に示した制約適用モジュール８２０の動作の詳細を示す詳細流れ図である。一般に、制約適用モジュール８２０は、編集ポイント８３０を見出してソースビデオ２１０からクリップレットを生成するのに使用される。詳細には、クリップレット時間制約が判定される（ボックス１４００）。この制約は、ユーザが選択すること、あらかじめ選択されていること、または制約適用モジュール８２０がオンザフライ（ｏｎｔｈｅｆｌｙ）で判定することを含め、様々なやり方で判定することができる。前述したとおり、クリップレット時間制約は、クリップレットの時間に対する任意の「ハードな」または「ソフトな」制約であることが可能である。都合のよいサブショット境界が存在しない場合、制約適用モジュール８２０は、時間制約だけに基づいてカットを任意に行うことができる。次に、編集ポイント８３０が、クリップレット時間制約に基づいて判定される（ボックス１４１０）。次に、編集ポイント８３０が、制約適用モジュール８２０からの出力として送られる（ボックス１４２０）。

ビデオクリップレット評価モジュール
クリップレットには、クリップレットに関する情報を提供するのに利用可能な処理技術に基づいて興味度評価が割り当てられることが可能である。例えば、顔検出技術が利用可能である場合、顔を検出するようにそれぞれの個々のクリップレットを処理することができる。次に、クリップレットが顔を含むかどうかなどの、この処理から獲得された情報が、それぞれの個々のクリップレットとともに記憶される。次に、この情報に基づき、各クリップレットに関して、顔検出の興味度評価を判定することができる。興味度評価は、ビデオフレームごとにではなく、クリップレットごとに計算される。

図１５は、図８に示したビデオクリップレット評価モジュール８５０の動作の詳細を示す詳細流れ図である。ビデオクリップレット評価モジュール８５０は、クリップレット興味度評価を個々のクリップレットに割り当てる。図１５に示すとおり、ビデオクリップレット評価モジュール８５０は、クリップレットを入力することから開始する（ボックス１５００）。次に、クリップレットに関する興味度評価情報が、クリップレットとともに記憶される（ボックス１５１０）。次に、使用されるべき所望の評価情報が判定される（ボックス１５２０）。所望の評価情報とは、クリップレット評価を割り当てる際、クリップレットとともに記憶されている評価情報のどれを使用するかを意味する。最後に、ビデオクリップレット評価モジュール８５０が、所望の評価情報を使用してクリップレットに関する興味度評価を計算する（ボックス１５３０）。好ましくは、各クリップレットに対する興味度評価は、全クリップレットに対して正規化される。例えば、顔検出で最高の興味度評価を有するクリップレットを１に等しい値に正規化し、その他のクリップレットに関する顔検出のすべての他の興味度評価を１以下にする。

クリップレット興味度評価は、クリップレットに関して妥当であり、用意されている任意の情報に基づくことが可能である。クリップレット評価情報は、タイムスタンプ、場所スタンプ、オーディオ信号、ビデオ信号、及び情報のすべてを含み、サブショット境界検出に関して前述したとおり解析される。クリップレット評価情報は、クリップレットに関する情報を提供するのに利用可能なあらゆる技術を利用することができる。これには、音声認識、話者認識、顔検出、ズーム検出、パン検出、任意のタイプのオーディオ解析またはオーディオ認識、及び任意のタイプのビデオ解析またはビデオ認識が含まれる。以上の技術の任意のものを使用して、個々のクリップレットに関する興味度評価を生成することができる。例として、興味度評価が顔の検出による場合、顔を含むクリップレットが、顔を有さないクリップレットよりも高い興味度評価を有する。別の例として、興味度評価がクローズアップである場合、ズームイベントの直後のクリップレットが、他のクリップレットよりも高い興味度を有する。

クリップレット興味度評価は、多次元であることが可能である。例えば、クリップレットは、「オーディオ活動レベル」に関する評価、ならびに「ビジュアル活動レベル」及び「顔の出現」に関する別個の評価を有することが可能である。評価は、絶対数値であること、またはクリップレット間の相対的順序（またはランキング）であることが可能である。ビデオクリップレット評価モジュール８５０が、クリップレットに関して個々に、またはすべての可能なクリップレットのセットに関して評価を計算することができる。

例として、評価が、オーディオに基づいてクリップレットに割り当てられるものと想定する。これは、すべての既知のクリップレットにわたって正規化されたオーディオパワー信号の分散を計算することによって行うことができる。ビジョンを使用するクリップレット評価の別の例では、カメラのズームまたはパンが検出され、ズームイベントまたはパンイベントの直後のクリップレットにより高い評価が割り当てられるものと想定する。持続時間を使用するクリップレット評価のさらに別の例は、ｘがユーザの選好または期待に基づくことが可能であるｘ秒間の持続時間を中心とするガウス分布に評価を正比例させることである。

キーフレーム特定モジュール
各クリップレットに関して少なくとも１つのキーフレームを特定することができる。キーフレームは、クリップレットの内容を最もよく要約するクリップレットの代表的なビデオフレームである。少なくとも１つのキーフレームが好ましいが、クリップレットごとに任意の数のキーフレームが存在することが可能である。

図１６は、図８に示したキーフレーム特定モジュール８６０の動作の詳細を示す詳細流れ図である。最初、キーフレーム特定モジュール８６０は、クリップレットを入力として受け取る（ボックス１６００）。次に、検出されるべき所望のキーフレーム情報が判定される（ボックス１６１０）。最後に、その所望のキーフレーム情報を使用して代表的なキーフレームが特定される（ボックス１６２０）。

キーフレームを検出するのに使用される情報は、オーディオ解析及びオーディオ認識、ビデオ解析及びビデオ認識などの前述した処理技術の任意のものから獲得された情報であることが可能である。別法では、キーフレームは、クリップレット内に含まれる情報を参照することなしに検出することができる。例えば、キーフレームは、クリップレットの中央ビデオフレームを検出し、その中央ビデオフレームをキーフレームとして定義することにより、それぞれの個々のクリップレットに関して特定することができる。キーフレーム特定の別の例は、クリップレットの第ｍ番ごとのビデオフレームをサンプリングし、そのサンプリングされたビデオフレームをキーフレームとして定義することである。キーフレーム特定のさらに別の例は、クリップレット内のビデオフレームの色ヒストグラム上のバッタチャリヤ距離に対してビタビ（Ｖｉｔｅｒｂｉ）アルゴリズムを実行することである。コンピュータ対数尤度（ｌｏｇ−ｌｉｋｅｌｉｈｏｏｄ）のピークの場所が、クリップレットに関するキーフレームとして定義される。

キーフレームを特定することの目的は、クリップレットを要約するための個々のクリップレットから最も代表的なビデオフレームを抽出することである。この目的を達するため、特定されたキーフレームは、最大限の相違があり、高い利用価値を有していなければならない。フレーム距離メトリック（metric）及びフレーム有用性測度（ｆｒａｍｅｕｔｉｌｉｔｙｍｅａｓｕｒｅ）が定義される。フレーム距離メトリックは、クリップレットに含まれる２つのビデオフレーム間の類似度を測定する。フレーム距離メトリックは、同一のビデオフレームの場合、ゼロであり、フレームの相違が大きくなるにつれて値が高くなる。フレーム有用性測度は、キーフレームとしてのビデオフレームの適合度を反映する。通常、より明るく（つまり、平均輝度がより高い）、より色彩豊かな（つまり、色ヒストグラム上のエントロピーがより高い）ビデオフレームが、キーフレームとして好ましい。キーフレーム特定の好ましい手法では、キーフレームは、費用関数を最大化する動的プログラミング（またはビタビ）手続きによって特定される。費用関数は、検出されるべき所望の基準または所望のキーフレーム情報をカプセル化する。さらに、各クリップレットに関するキーフレームの最適な数が、ベイズ情報基準（ＢａｙｅｓＩｎｆｏｒｍａｔｉｏｎＣｒｉｔｅｒｉｏｎ；ＢＩＣ）を使用して自動的に判定される。

本発明の以上の説明は、例示及び説明のために提示した。この説明は、すべてを網羅する、または本発明を開示した形態そのものに限定することを意図するものではない。以上の教示に鑑みて、多数の変更形態及び変形形態が可能である。本発明の範囲は、本発明の以上の詳細な説明によってではなく、特許請求の範囲によって限定されるものとする。

本発明の実施形態のより長い単位のビデオ（ソースビデオ）及びビデオフレームとの関係でビデオクリップレットの概念を示す図である。本発明の実施形態のコンピュータユーザインタフェースのシステム及び方法を組み込んだ例示的なクリップレット生成システムの概要を示すブロック図である。本発明の実施形態のコンピューティング装置を示すブロック図である。本発明の実施形態のクリップレットユーザインタフェースの一般的な概要を示す図である。本発明の実施形態の図４に示したクリップレットユーザインタフェースのキーフレームウインドウを拡大して示す図である。本発明の実施形態のクリップレットユーザインタフェースの別の実施形態を示す図である。本発明の実施形態の図６に示したクリップレットユーザインタフェースの実用例を示す図である。本発明の実施形態の図２に示したビデオクリップレットジェネレータの詳細を示す詳細なブロック図である。本発明の実施形態の図２及び８に示したビデオクリップレットジェネレータの動作を示す概要流れ図である。本発明の実施形態の図８に示したサブショット境界モジュールの動作の詳細を示す詳細流れ図である。本発明の実施形態の特徴ベースの手法を使用するサブショット境界モジュールの実用例を示す詳細流れ図である。本発明の実施形態の場面クラスタ化を使用するサブショット境界検出の実用例を示す詳細流れ図である。本発明の実施形態の図８に示したショット境界モジュールの動作の詳細を示す詳細流れ図である。本発明の実施形態の図８に示した制約適用モジュールの動作の詳細を示す詳細流れ図である。本発明の実施形態の図８に示したビデオクリップレット評価モジュールの動作の詳細を示す詳細流れ図である。本発明の実施形態の図８に示したキーフレーム特定モジュールの動作の詳細を示す詳細流れ図である。

符号の説明

１００デジタルソースビデオ
１０５ビデオフレーム
１１０ビデオフレーム
１９０クリップレット生成システム
２００ビデオクリップレットジェネレータ
２０５デジタルビデオデータ
２１０大きいソースビデオ
２１５カメラ
２２０記憶媒体
２３０アナログ−デジタルコンバータ
２４０コンピューティングデバイス
２５０モニタ
２６０ビデオクリップレットユーザインタフェース
３０２プロセッサ
３０４システムメモリ
３０６システムバス
３１０ＲＯＭ
３１２ＲＡＭ
３１４ＢＩＯＳ
３１６ハードディスクドライブ
３１８磁気ディスクドライブ
３２０リムーバル磁気ディスク
３２２光ディスクドライブ
３２４リムーバル光ディスク
３２６ハードディスクドライブインタフェース
３２８磁気ディスクドライブインタフェース
３３０光ドライブインタフェース
３３２ａ、３３２ｂオペレーティングシステム
３３４ａ〜３３４ｃアプリケーションプログラム
３３６ａ、３３６ｂ他のプログラムモジュール
３３８ａ、３３８ｂプログラムデータ
３４０キーボード
３４２ポインティングデバイス
３４４シリアルポートインタフェース
３４８ビデオアダプタ
３５０リモートコンピュータ
３５２メモリ記憶デバイス
３５４ＬＡＮ
３５６ＷＡＮ
３５８ネットワークインタフェース
３６０モデム
４００クリップレット提示領域
４１０クリップレット
４２０キーフレームウインドウ
４３０クリップレットプロパティ提示表示
６００ビデオウインドウ
６１０凡例領域
６２０水平スクロールバー
６３０垂直スクロールバー
６４０カーソル
７００サムネイルユーザインタフェース
７１０クリップレット領域
７１５サムネイルインドウ
７１８リップレット興味度評価領域
７２０クリップレットビデオウインドウ
７２９キー領域
８００ビデオクリップレット結果
８１０サブショット境界モジュール
８１５ショット境界モジュール
８２０制約適用モジュール
８３０編集ポイント
８４０ビデオクリップレット抽出モジュール
８４５ビデオクリップレット
８５０ビデオクリップレット評価モジュール
８６０キーフレーム特定モジュール
８７０１組のビデオクリップレット
８７５クリップレット編集ポイント
８８０ビデオクリップレット評価
８８５１組のキーフレーム

Claims

コンピュータシステムにおける表示デバイス上でソースビデオから生成されたビデオクリップレットを表示するための方法であって、
前記表示デバイス上の表示領域を複数のウインドウに分割するステップと、
前記ビデオクリップレットのそれぞれを前記複数のウインドウのそれぞれの中で表示するステップと、
前記ビデオクリップレットのそれぞれに関するビデオクリップレット評価を
（ａ）興味度評価バーであるグラフィックス表現と、
（ｂ）テキスト表現と
の少なくともどちらかとして表示するステップであって、前記グラフィックス表現は、
ビジュアル活動レベル情報に基づいた興味度を示す第１のインジケータ、
前記ビデオクリプレット内のオーディオ活動レベル情報に基づいた興味度を示す第２のインジケータ、
前記ビデオクリップレット内の顔検出から得られる顔の出現情報に基づいた興味度を示す第３のインジケータ、または
ユーザによる各ビデオクリプレットとの相互作用から蓄積された使用統計情報に基づいた興味度を示す第４のインジケータの内の少なくともいずれか１つを含んでいる、表示するステップと
を備えたことを特徴とする方法。
前記複数のウインドウを２次元構成に配置するステップをさらに備えたことを特徴とする請求項１に記載の方法。
ユーザが、入力デバイスを使用して前記表示領域をスクロールし、クリップレットを含むさらなるウインドウを表出させることを可能にするステップをさらに備えたことを特徴とする請求項１に記載の方法。
ドラッグアンドドロップ機能を提供して、前記ビデオクリップレットの少なくとも１つを、処理するためにアプリケーションにドラッグアンドドロップすることができるようにするステップをさらに備えたことを特徴とする請求項１に記載の方法。
ユーザが、入力デバイスを使用して前記ビデオクリップレットの少なくとも２つをマージすることを可能にするステップであって、前記ビデオクリップレットの第１のクリップレットが、前記ビデオクリップレットの第２のビデオクリップレットとマージされて新しいビデオクリップレットが生成されるようにするステップをさらに備えたことを特徴とする請求項１に記載の方法。
前記ビデオクリップレットの前記第１のクリップレット及び前記第２のクリップレットは、時間的に隣接するクリップレットであることを特徴とする請求項５に記載の方法。