JP2004023798A - デジタルビデオからビデオクリップレットを自動的に生成するためのシステム及びその方法 - Google Patents

デジタルビデオからビデオクリップレットを自動的に生成するためのシステム及びその方法 Download PDF

Info

Publication number
JP2004023798A
JP2004023798A JP2003175466A JP2003175466A JP2004023798A JP 2004023798 A JP2004023798 A JP 2004023798A JP 2003175466 A JP2003175466 A JP 2003175466A JP 2003175466 A JP2003175466 A JP 2003175466A JP 2004023798 A JP2004023798 A JP 2004023798A
Authority
JP
Japan
Prior art keywords
cliplet
video
sub
shot
cliplets
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003175466A
Other languages
English (en)
Inventor
Kentaro Toyama
ケンタロウ トヤマ
Nebojsa Jojic
ネフヨサ ヨイック
Jaco Vermaak
ヤコ バーマーク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2004023798A publication Critical patent/JP2004023798A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/034Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

【課題】より大きいソースビデオから短いビデオセグメント(ビデオクリップレット)を自動的に生成するためのシステム及びその方法を提供すること。
【解決手段】クリップレットは、長さが、生成に先立って決定されており、単一の短いイベントまたはテーマを含むという特性を有する。クリップレット生成方法は、大きいソースビデオ210を処理して、ユーザなどにクリップレット結果を生成する。この方法は、ソースビデオを処理して編集ポイントを決定し、次に、その編集ポイントに基づいてソースビデオからクリップレットを抽出する。抽出されたクリップレットは、時間が重なり合うことが可能である。次に、クリップレット結果は、ユーザなどに提示される。クリップレット生成システムは、クリップレット生成方法に従って大きいソースビデオ210を処理して、クリップレットを生成するビデオクリップレット生成器200を含んでいる。
【選択図】    図2

Description

【0001】
【発明の属する技術分野】
本発明は、デジタルビデオからビデオクリップレット(video cliplet)を自動的に生成するためのシステム及びその方法に関し、より詳細には、デジタル化されたビデオおよびその他のデジタルマルチメディアから短いビデオセグメント(またはビデオ「クリップレット」)を自動的に生成するためのシステム及びその方法に関する。
【0002】
【従来の技術】
ビデオカメラ(またはカムコーダ(camcorder))は、家庭で使用する、アマチュアのビデオカメラ撮影者(amateur videographer)に人気の高いデバイスである。ビデオカメラは、デジタルビデオをメモリデバイスに記憶するデジタルカメラであること、またはビデオ映像(videofootage)を磁気ビデオテープに記憶するアナログのビデオカメラであることが可能である。アナログのビデオカメラでキャプチャされたビデオ映像は、周知の技術を使用してデジタル化された形式に変換することができる。デジタルビデオは、計算デバイス(パーソナルコンピュータなどの)上で実行されるソフトウェアを使用して処理して、ビデオカメラでキャプチャされたデータを編集し、操作することができる。
【0003】
従来のホームデジタルビデオのパラダイムでは、ユーザが、良好なビデオを撮影し、時間のかかるビデオ編集を行ってから、編集済みのムービーを含む単一の長いビデオを出力することを予期している。しかし、このパラダイムは、いくつかの問題を抱えている。1つの問題は、観るのを楽しむことができる良好なビデオは、写すこと、または撮影するのが困難なことである。ホームデジタルビデオは、圧倒的に、アマチュアのビデオカメラ撮影者によって撮影されている。これらのアマチュアは、一般に、ビデオを撮影することの訓練をほとんど受けておらず、したがって、しばしば、何をどのようにビデオに撮影するかについてまずい判断をする。結果として観づらいビデオ映像がもたらされる。
【0004】
他の問題は、生のビデオ映像は、プロによって撮影された(professionally photographed)ときでも、編集するのが困難であり、時間がかかることである。プロの訓練を受けており、ハイエンド(high−end)のツールを使用するプロの編集者が生のビデオをたった数分間の長さの最終バージョンに編集するのに、数時間かかる可能性がある。さらに、ほとんどの生のビデオ映像は退屈であり、数時間の生のビデオを精査することは、特にアマチュアには、極めて退屈なタスクである。
【0005】
さらに他の問題は、アマチュアが使用するための現在のビデオ編集ソフトウェアが、プロ用の編集システムをモデルにしていることである。これにより、ソフトウェアが平均的な消費者に使いづらいものになりがちである。現在のビデオ編集ソフトウェアのユーザインターフェースは、通常、生のビデオ映像の1つのビューをユーザに提供する。タイムライン(timeline)を映像に沿って配置して、ユーザに時間上のオリエンテーション(temporal orientation)を与える。タイムラインは、ビデオ1トラック、ビデオ2トラック、オーディオ1トラックなどの、いくつかの異なる「トラック(track)」を含むことが可能である。ユーザインターフェースは、再生ボタン、早送りボタン、および巻戻しボタンなどの、VCRと同様のコントロールを含む。これらのボタンを使用して、ユーザは、コントロールを使用して映像を先に進めたり、後に戻したりすることによってビデオ映像をブラウズする。ビデオ映像をブラウズするこのプロセスは、「スクラビング(scrubbing)」と呼ばれる。
【0006】
ユーザは、興味を引くビデオ映像を見出すと、開始のカットおよび終了のカットをタイムライン上に置く。この2つのカットの間に、ユーザが保持することを望むビデオ映像が存在する。ビデオ映像上にカットを置くこのプロセスをビデオ映像のその他の部分に関して繰り返すことができる。ビデオをスクラビングしてビデオ映像の中でカットの場所を決定するこの編集プロセスは、退屈で、繰り返しが多く、時間がかかるタスクであり、手作業で行われなければならない。したがって、平均的な消費者には、ビデオを編集するプロセスは、困難で厄介なタスクである。
【0007】
他の問題は、デジタル化されたビデオは、しばしば、大きく、したがって、必要とされるメモリおよび処理能力の量のためにコンピュータを使用して操作し、編集することが困難であることである。大きいビデオは、アップロードするのにも、ダウンロードするのにも長い時間がかかる可能性がある。さらに、サイズのため、大きいビデオを編集することは、ハイエンドのホームコンピュータの場合でさえ、リソースに重い負担がかかる可能性がある。
【0008】
したがって、劣ったビデオ撮影技能を許容し、ビデオを編集することをそれほど退屈でなく、より短時間で、より容易なものにし、扱いにくい大きいビデオで作業する必要性を緩和するホームデジタルビデオパラダイムの必要性がある。
【0009】
【発明が解決しようとする課題】
本発明は、より長い単位のビデオ(つまりソースビデオ)を分割することによってビデオクリップレット(「クリップレット」)を自動的に生成するためのシステム及びその方法に関するものである。クリップレットは、極度に短いデジタルビデオセグメントである。クリップレットは、次の特徴を有する。第1に、クリップレットの長さに対する制約が、クリップレット生成に先立って決定されている。通常、クリップレットの持続時間は、5秒間から10秒間までの範囲にある。第2に、クリップレットは、必ずしも独立したビデオではなく、より大きいビデオに対するポインタと、セグメントエンドポイントの指示が一緒にされたものであることが可能である。第3に、理想的には、クリップレットは、独立することができるビデオの意味的に重要な部分である。言い換えれば、クリップレットは、見る人が、サウンドバイトなどの単一の短いイベントまたはテーマと見なすものを含んでいる。
【0010】
本発明は、このような問題に鑑みてなされたもので、その目的とするところは、より長い単位のビデオを分割することによってビデオクリップレットを自動的に生成するためのシステム及びその方法を提供することにある。
【0011】
【課題を解決するための手段】
本発明のクリップレット生成のシステム及びその方法は、大きいソースビデオではなく、クリップレット、つまり非常に短い持続時間のビデオを主な操作単位とすることにより、従来のホームビデオパラダイムの問題を克服する。具体的には、ビデオクリップレットを使用するホームビデオパラダイムにより、ホームビデオが抱える現在の問題のほとんどすべてが軽減または緩和される。クリップレットの概念を使用することで、アマチュアのビデオカメラ撮影者でさえ、よりよい撮影者、よりよいビデオ編集者になることができる。クリップレットが基本的なビデオ単位であるとき、ユーザは、自らのビデオ撮影(videography)を、クリップレットを撮影することとして考え始める。クリップレットに留意して撮影することは、生のビデオ撮影がより密度の高い内容を有することになることを意味し、これは、ショットがより興味を引くものになることを意味する。また、行われるあらゆる編集が、長く退屈に続くビデオではなく、短いビデオセグメントに対して行われることも意味する。
【0012】
クリップレットは、定義からして、通常のビデオより小さい。サイズがより小さいため、クリップレットは、コンピュータのリソースに重い負担をかけることなく、ホームコンピュータ上で、大きいソースビデオよりも容易に操作することができる。さらに、本発明のクリップレット生成のシステム及びその方法は、大きいソースビデオからクリップレットを自動的に生成し、そのクリップレットをユーザに提示する。クリップレットの開始カットおよび終了カット(つまり編集ポイント)は、ユーザがソースビデオのスクラビング(scrubbing)を行うことを必要とせずに、自動的に生成される。これは、ユーザが、数時間の生のビデオ撮影を閲覧する代わりにクリップレットを使用してソースビデオを操作し、編集するだけでよいことを意味する。クリップレット生成のシステムおよび方法により、大きいソースビデオの編集が、特にアマチュアにとって、より容易で、より楽しめるものになる。
【0013】
一般に、クリップレット生成方法は、大きいソースビデオを処理して、クリップレット結果を提示する(ユーザなどに)ために生成する。具体的には、この方法は、ソースビデオを入力として取り込み、そのソースビデオを処理して可能な編集ポイントを決定する。これらの編集ポイントは、ソースビデオの中でカットが行われるべきポイントであり、特定のクリップレットに対する開始ポイントおよび終了ポイントを表わす。編集ポイントが決定されると、次に、クリップレットが、その編集ポイントに基づいてソースビデオから抽出される。クリップレットは、重なり合うことが可能であり、このことは、第1のクリップレットの終了ポイントが、ソースビデオの中で第2のクリップレットの開始ポイントよりも後にくることが可能であることを意味する。クリップレットは、ソースビデオ全体をカバーしていない可能性があり、これは、2つの隣接するクリップレットの間に空隙があることを意味する。次に、クリップレット生成結果が提示される。クリップレット生成結果は、1組のビデオクリップレット(サムネールまたはプレビュー用ビデオ(previewed video))、クリップレット編集ポイント、ビデオクリップレット評価(rating)、および1組のキーフレームの任意の1つまたは複数、または任意の組み合わせを含む。
【0014】
クリップレット生成システムは、大きいソースビデオを処理して、前述したクリップレット生成方法に従ってクリップレットを生成するビデオクリップレット生成器を含む。ビデオクリップレット生成器は、編集ポイントを決定するための2つのモジュールを含む。このモジュールのそれぞれを独立で、または組み合わせで使用することができる。まず、サブショット境界検出器(sub−shotboundary detector)を使用して、利用可能な技術に応じて規定することができる新しいショット境界またはサブショット境界に基づき、編集ポイントを決定する。次に、制約適用モジュールを使用して、クリップレット時間制約に基づいて編集ポイントを決定する。
【0015】
また、ビデオクリップレット生成器は、編集ポイントを使用してソースビデオからクリップレットを抽出するビデオクリップレット抽出器も含む。ビデオクリップレット評価モジュールを使用して、各クリップレットとともに記憶されている情報に基づき、個々のクリップレットに「興味度評価(interest rating)」を割り当てる。キーフレーム特定モジュールを使用して、個々のクリップレットに関する1つまたは複数のキーフレームを特定する。キーフレームは、個々のクリップレットを代表し、要約するビデオフレームである。
【0016】
本発明は、本発明の態様を例示する以下の説明および添付の図面を参照することによってさらに理解することができる。その他の特徴および利点は、本発明の原理を例として示す添付の図面と併せて考慮される本発明の以下の詳細な説明から明白となる。
【0017】
【発明の実施の形態】
以下、図面を参照して本発明の実施例について説明する。
本発明の以下の説明では、説明の一部を成す添付の図面を参照し、図面では、例として、本発明を実施することができる特定の例を示している。本発明の技術的範囲を逸脱することなく、その他の実施形態を利用することも可能であり、また、構造上の変更を加えることも可能であることを理解されたい。
【0018】
I.ビデオクリップレットの概説
本発明で説明するクリップレット生成のシステム及びその方法は、ソースビデオを処理してビデオクリップレットを生成する。一般に、ビデオクリップレット(または「クリップレット」)は、大きいソースビデオを小さくカットすることによって生成される極短いデジタルビデオセグメントである。クリップレットの長さは、ユーザによって手作業で決定された、またはクリップレット生成のシステムおよび方法によって自動的に決定されたハードな制約またはソフトな制約によって制限される。通常、ビデオクリップレットの長さは、およそ5秒間から10秒間までの範囲にあるものとされるが、実際には、任意の長さであることが可能である。
【0019】
クリップレット生成の目的は、ショット境界と従来考えられているものを2次的にしか考慮せずに、意味のある短いビデオセグメントを抽出することである。したがって、クリップレットは、(サウンドバイトを検出しようと試みるなどの)オーディオキュー、または(ズームインされたクローズアップを検出しようと試みるなどの)ビデオキューなどの他の従来のものではないキューに基づくことが可能である。さらに、クリップレットは、重なり合うことが可能である。クリップレットは、大きいソースビデオ全体のすべてをカバーしなくてもよい。これは、ソースビデオの全く退屈でつまらないセクションを全部、除外できることを意味する。以上のすべてにより、各クリップレットを意味的に重要なビデオ部分にするという目的が達せられる。
【0020】
以下の特徴により、クリップレットは、他のビデオセグメントから区別される。第1に、生成に先立ち、長さ制約(すなわち、クリップレットの長さの制約)が決定される。この制約は、ハードな上限および下限の形態をとること、またはソースビデオ全体にわたる平均クリップレット長、サブショット境界の頻度、クリップレット長の分散、オーディオまたはビデオのローカルな特徴などのその他の要因を考慮に入れるソフトな制約であることが可能である。第2に、クリップレットは、必ずしも独立したビデオである必要がない。クリップレットは、クリップレットを抽出するための大きいソースビデオをどこでカットするかを表わす1対の開始ポイントおよび停止ポイントであること、またはビデオのサブシーケンスの任意の他の表現であることが可能である。第3に、クリップレットは、閲覧者が、単一の短いイベント(サウンドバイトなどの)であると見なす可能性があるものを含む意味的に重要なビデオ部分である。クリップレットは、そのクリップレットをより大きいソースビデオから際立たせる単一のテーマ、または共通スレッド(common thread)を有する。
【0021】
より長いソースビデオと比べてクリップレットの長さが比較的短いことにより、クリップレットを、デジタルビデオではなくデジタル写真のように操作することが可能になる。ビデオクリップレットにより、操作や記憶することが厄介である大きいビデオから逃れることが可能になる。クリップレットは、長く退屈なビデオではなく、短く、刺激的なビデオセグメントに焦点を当てる。消費者は、いくつかの興味を引く場面だけを含む数時間の長いビデオを観ることで退屈することになりがちである。早送りボタンを常に使用する代わりに、クリップレットにより、ユーザは、長いビデオの興味を引く場面、つまり「核心」を抽出することができるようになる。
【0022】
また、クリップレットは、大きいビデオより、操作し、記憶することが容易である。ビデオのサイズが大きいことにより、ビデオをアップロードして共有することに対するユーザの抵抗が、大きいビデオからクリップレットを生成することによって最小限に抑えられる。クリップレットにより、数メガバイトまたは数ギガバイトのビデオが回避される。定義からして、クリップレットは、大きいビデオより小さい。したがって、メモリ、ストレージ、処理能力、帯域幅、または人間の注意が限られているために大きいビデオに対しては実際的でない操作を、クリップレットに対しては容易に行うことができる。クリップレットは、サイズがより小さいため、大きいビデオと比べて、アップロード時間がより短く、帯域幅に対する要求がより少なく、より小さいディスクスペースしか必要とせず、また一般に、管理するのがより容易である。
【0023】
デジタル写真に適用されるほとんどの操作は、ビデオクリップレットに関してもそれに類するものがある。ビデオクリップレットは、サイズが小さいため、タイムスタンプおよび総ピクセル統計で編成されたサムネールを使用してブラウズすること、ドキュメントにカットアンドペースト(cut and paste)を行うこと、および電子メールを介して容易に送信することが可能である。理論上、以上の操作のほとんどが、ビデオに関して既に存在しているが、実際には、通常のホームビデオが余りにも大きく、余りにも長く、余りにも退屈であるため、消費者がその機能を使用することはめったにない。大きいビデオを処理することができないイメージ処理アルゴリズムおよびコンピュータビジョンアルゴリズムをクリップレットに対して容易に使用することができる。イメージ安定化、色補正、パノラマ生成、3次元深度理解(three−dimensionaldepth understanding)、顔認識(face recognition)、個人追跡(person tracking)などの技術をクリップレットに対してリアルタイムで使用することができる。
【0024】
図1は、より長い単位のビデオ(ソースビデオ)およびビデオフレームとの関係でビデオクリップレットの概念を示す図である。長さ、つまり時間Tのデジタルソースビデオ100が、複数のビデオフレーム105を含む。図1に示すとおり、デジタルソースビデオ100は、複数のクリップレットC(1)ないしC(N)に分割される。これらのクリップレットは、様々な長さであることが可能である。
【0025】
以上に説明したとおり、クリップレットC(1)ないしC(N)のそれぞれは、デジタルソースビデオ100の意味的に重要な部分である。一部のケースでは、2つまたはそれより多くのクリップレットの時間が重なり合い、したがって、同一のビデオフレームを共有することが可能である。図1を参照すると、クリップレットC(4)が、長さT(4)を有し、クリップレットC(5)が、長さT(5)を有する。T(4)はT(5)より短いものの、クリップレットC(4)とC(5)は時間が重なり合っている。さらにクリップレットC(4)とC(5)は、符号110で示されるビデオフレームを共有している。
【0026】
II.システムの概要
本発明は、より大きいソースビデオから短いビデオクリップを生成するための自動化されたクリップレット生成のシステム及びその方法を含む。この完全に自動化されたクリップレット生成のシステムおよび方法は、編集ポイントを決定し、その編集ポイントを使用してソースビデオからクリップレットを抽出し、クリップレット、およびその他のクリップレット情報をユーザに提示する。編集ポイントは、時間制約およびサブショット境界を使用することを含め、様々な仕方で決定することができる。
【0027】
図2は、本発明のクリップレット生成システム190の概要を示すブロック図である。一般に、図2に示すとおり、システム190は、デジタルビデオデータ獲得構成要素、ビデオクリップレット生成構成要素、およびクリップレット提示構成要素を含む。より具体的には、デジタルビデオデータ獲得は、ビデオクリップレット生成器200がどのようにデジタルビデオデータ205を獲得するかに関する。デジタルビデオデータ205は、大きいソースビデオ210に含まれる。最初、カメラ215を使用して、ある場面(図示せず)のイメージがキャプチャされる。カメラ215は、デジタルビデオカメラまたはアナログビデオカメラであること、あるいはビデオデータをキャプチャすることができるデジタルカメラであることが可能である。カメラ215がデジタルカメラである場合、キャプチャされたビデオデータは、記憶媒体220の中に記憶されるか、またはビデオクリップレット生成器200に直接に送られる。カメラ215がアナログカメラである場合、キャプチャされたビデオデータは、アナログ−デジタル変換器230を使用してデジタル形式に変換しなければならない。前の場合と同じく、この変換されたデータは、記憶媒体に記憶すること、またはビデオクリップレット生成器200に直接に送ることができる。
【0028】
デジタルビデオデータ205を含む大きいソースビデオ210は、獲得されると、ビデオクリップレット生成器200に送られる。通常、大きいソースビデオ210は、アマチュアのビデオカメラ撮影者によってキャプチャされたおよそ2時間の長さのホームビデオである。計算デバイス(computing device)240上に配置されたビデオクリップレット生成器200を使用して、大きいソースビデオ210から小さいビデオセグメント、つまりクリップレットが抽出される。クリップレットがビデオクリップレット生成器200によって生成された後、次に、ビデオクリップレットユーザインターフェース260を含むモニタ250を使用して、各クリップレットがユーザ(図示せず)に提示される。ビデオクリップレットユーザインターフェース260により、ユーザは、クリップレットを操作し、管理することができるようになる。
【0029】
III.例示的な動作環境およびシステムの詳細
本発明のビデオクリップレット生成システム190は、計算環境において動作するように設計されている。以下の説明は、本発明を実施することができる適切な計算環境の簡単な一般的説明を提供することを意図している。
【0030】
図3は、本発明を実施するのに適した計算装置を示すブロック図である。必須ではないが、本発明は、コンピュータによって実行される、プログラムモジュールなどのコンピュータ実行可能命令の一般的なコンテキストで説明する。一般に、プログラムモジュールには、特定のタスクを行う、または特定の抽象データタイプを実装するルーチン、プログラム、オブジェクト、構成要素、データ構造等が含まれる。さらに、本発明は、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドデバイス、マルチプロセッサシステム、マイクロプロセッサベースの家庭用電化製品またはプログラマブル家庭用電化製品、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ等を含め、様々なコンピュータシステム構成で実施してもよいことが、当分野の技術者には理解されよう。また、本発明は、タスクが、通信網を介してリンクされた遠隔の処理デバイスによって行われる分散計算環境において実施してもよい。分散計算環境では、プログラムモジュールは、メモリ記憶媒体を含め、ローカルのコンピュータ記憶媒体と遠隔のコンピュータ記憶媒体の上に配置されていることが可能である。
【0031】
図3を参照すると、本発明を実施するための例示的なシステムが、図2に示された汎用計算デバイス240を含んでいる。図3は、計算デバイス240の詳細を示している。詳細には、計算デバイス240は、処理ユニット302、システムメモリ304、ならびにシステムメモリ304から処理ユニット302までを含む様々なシステム構成要素を結合するシステムバス306を含む。システムバス306は、様々なバスアーキテクチャの任意のものを使用するメモリバスまたはメモリコントローラ、周辺バス、およびローカルバスを含むいくつかのタイプのバス構造の任意のものであることが可能である。システムメモリは、読取り専用メモリ(ROM)310およびランダムアクセスメモリ(RAM)312を含む。始動中などに、計算デバイス240内部の要素間で情報を転送するのを助ける基本ルーチンを含む基本入力/出力システム(BIOS)314が、ROM310の中に記憶されている。計算デバイス240は、図示していないハードディスクに対して読取りおよび書込みを行うためのハードディスクドライブ316、取外し可能な磁気ディスク320に対して読取りおよび書込みを行うための磁気ディスクドライブ318、およびCD−ROMまたはその他の光媒体などの取外し可能な光ディスク324に対して読取りおよび書込みを行うための光ディスクドライブ322をさらに含む。ハードディスクドライブ316、磁気ディスクドライブ328、および光ディスクドライブ322は、それぞれ、ハードディスクドライブインターフェース326、磁気ディスクドライブインターフェース328、および光ディスクドライブインターフェース330でシステムバス306に接続される。以上のドライブ、および関連するコンピュータ読み取り可能な記録媒体により、コンピュータ可読命令、データ構造、プログラムモジュール、およびその他のデータの不揮発性のストレージが、計算デバイス240に提供される。
【0032】
本発明で説明する例示的な環境は、ハードディスク、取外し可能な磁気ディスク320、および取外し可能な光ディスク324を使用するが、磁気カセット、フラッシュメモリカード、デジタルビデオディスク、ベルヌーイカートリッジ、ランダムアクセスメモリ(RAM)、読取り専用メモリ(ROM)などの、コンピュータがアクセスすることができるデータを記憶することができる他のタイプのコンピュータ読み取り可能な記録媒体も、例示的な動作環境において使用できる。
【0033】
オペレーティングシステム332、1つまたは複数のアプリケーションプログラム334、その他のプログラムモジュール336(ビデオクリップレット生成器200などの)、およびプログラムデータ338を含め、いくつかのプログラムモジュールをハードディスク、磁気ディスク320、光ディスク324、ROM310またはRAM312に記憶することができる。ユーザ(図示せず)は、キーボード340やポインティングデバイス342などの入力デバイスを介して、コマンドおよび情報を計算デバイス240に入力することができる。さらに、カメラ343(ビデオカメラなどの)、ならびに、例えば、マイクロホン、ジョイスティック、ゲームパッド、サテライトディッシュ、スキャナ等を含むその他のデバイス(図示せず)が、計算デバイス240に接続されていることが可能である。以上の他の入力デバイスは、しばしば、システムバス306に結合されたシリアルポートインターフェース344を介して処理ユニット302に接続されるが、パラレルポート、ゲームポート、またはユニバーサルシリアルバス(universal serial bus)(USB)などの他のインターフェースで接続してもよい。また、モニタ250または他の種類の表示装置も、ビデオアダプタ348などのインターフェースを介してシステムバス306に接続される。モニタ346に加えて、パーソナルコンピュータなどの計算デバイスは、通常、スピーカやプリンタなどの他の周辺出力デバイス(図示せず)も含む。
【0034】
計算デバイス240は、遠隔コンピュータ350のような1つまたは複数の遠隔コンピュータに対する論理接続を使用するネットワーク化された環境において動作することが可能である。遠隔コンピュータ350は、別のパーソナルコンピュータ、サーバ、ルータ、ネットワークPC、ピアデバイス、またはその他の一般的なネットワークノードであることが可能であり、通常、計算デバイス240に関連して前述した要素および特徴の多く、またはすべてを含む。ただし、メモリ記憶デバイス352だけを図3に示している。図3に描いた論理接続は、ローカルエリアネットワーク(LAN)354およびワイドエリアネットワーク(WAN)356を含む。そのようなネットワーキング環境は、オフィス、企業全体のコンピュータ網、イントラネット、およびインターネットにおいて一般的である。
【0035】
LANネットワーキング環境において使用されるとき、計算デバイス240は、ネットワークインターフェースまたはネットワークアダプタ358を介してローカルネットワーク354に接続される。WANネットワーキング環境において使用されるとき、計算デバイス240は、通常、インターネットなどのワイドネットワーク356を介して通信を確立するためのモデム360またはその他の手段を含む。内部にあることも、外部にあることも可能なモデム360は、シリアルポートインターフェース344を介してシステムバス306に接続される。ネットワーク化された環境では、計算デバイス240に関して描いたプログラムモジュール、またはプログラムモジュールの部分を遠隔のメモリ記憶デバイス352の中に記憶することができる。図示したネットワーク接続は、例示的なものであり、コンピュータ間で通信リンクを確立する他の手段も使用できる。
【0036】
ビデオクリップレット生成システム190は、クリップレット、およびその他のクリップレット情報を生成するためのビデオクリップレット生成器200を含む。図4は、図2に示したビデオクリップレット生成器200の詳細を示す詳細なブロック図である。一般に、ビデオクリップレット生成器200は、デジタルビデオデータ205を含む大きいソースビデオ210を入力し、ビデオクリップレット結果400の形態でクリップレット情報を出力する。ビデオクリップレット結果は、ユーザが操作し、使用するためにユーザに提示することができるクリップレットに関連する様々な情報を含むことが可能である。
【0037】
ビデオクリップレット生成器200は、編集ポイントを決定する次の少なくとも2つのモジュールを含む。すなわち、(1)サブショット境界モジュール410(例は、ショット境界モジュール415である)、および(2)制約適用モジュール420である。以上のモジュール410、415、420のそれぞれに関する出力が、編集ポイント430である。編集ポイント430は、クリップレットが抽出されるべき大きいソースビデオ210の中のカットポイント、またはカット場所である。モジュール410、415、420のそれぞれを単独で、または任意の組み合わせで使用して編集ポイント430を決定することができる。
【0038】
サブショット境界検出器410は、ソースビデオ210内でサブショットを見出すことによって編集ポイント430を決定する。サブショットは、特定のイベント、または特定のテーマを規定する意味境界として規定される。サブショット境界は、必ずしもショット境界(以下を参照)ではないが、ショット境界であることが可能である。例えば、ある人がビデオの中で話している場合、文の間の休止が、ショット境界ではなくても、サブショット境界として規定するのに好適な場所である可能性がある。サブショット境界検出器410は、単一ショット内であっても、イベントまたはテーマを意味的に分離することができるソースビデオ210の中の場所を探す。
【0039】
ショット境界検出器415は、ソースビデオ210を処理してショット境界を見出すことによって編集ポイント430を決定する。ショット境界は、特定のクリップレット生成システムによって検出されることが可能なサブショット境界のすべてのサブセットを構成する。ショット境界は、カメラが「オン」または「オフ」にされたソースビデオ210の中の場所として規定される。ソースビデオ210内のカメラ「オン」の場所とカメラ「オフ」の場所の間の部分が、ショットとして規定される。
【0040】
制約適用モジュール420は、クリップレット時間制約を使用して編集ポイント430を決定する。クリップレット時間制約は、クリップレットの最小時間および最大時間を示すことが可能である。通常、クリップレット時間制約は、およそ5秒間から10秒間の範囲にあるが、他の時間を使用してもよい。クリップレット時間制約は、「ソフトな」制約であることが可能であり、これは、他の制約、または編集ポイント指示が使用された場合、クリップレット時間制約が譲り、クリップレットの長さが、任意に長く、または短くされるのを許すことを意味する。
【0041】
制約適用モジュール420は、大きいソースビデオ210を取り、サブショット境界が検出されたポイントでクリップレットをカットしようと試みながら、クリップレット時間制約の値に長さが準拠するクリップレットにソースビデオ210を分割する。生成されたクリップレットの完全なセットが時間制約を満たすように、適切な方策が取られる。例えば、制約が、どのクリップレットも10秒間を超える長さであってはならないというハードな制約である場合、秒で検出されたサブショットを有する36秒間のビデオが、4つのセグメントのビデオ(8秒間、7秒間、10秒間、および11秒間の長さ、または10秒間の4つの重なり合うセグメント等の)を生成することが可能である。
【0042】
編集ポイント430が決定されると、ビデオクリップレット抽出器440が、編集ポイント430に基づいてソースビデオ210からクリップレットをカットする。次に、ビデオクリップレット445が、ビデオクリップレット抽出器440からの出力として送られる。カットするプロセスは、物理的にカットすることを全く必要としない可能性があることに留意されたい。というのは、編集ポイント、およびソースビデオ210に対するポインタ自体が、クリップレットを表わすからである。
【0043】
ビデオクリップレット生成器200は、ビデオクリップレット445の中の各クリップレットに関して「興味度評価」を生成するためのビデオクリップレット評価モジュール450も含む。この評価は、フレームごとにではなく、クリップレットごとに計算される。クリップレットごとに評価を割り当てることの利点は、各クリップレットをその評価に基づいてユーザに提示することができることである。クリップレットは、いくつかのフレームを含むので、すべてのクリップレット、およびクリップレットの評価を提示することは、すべてのフレーム、およびフレームの評価を提示することよりもはるかに扱いやすいタスクである。さらに、クリップレットはフレームよりはるかに多くの情報を含むので、最も人気のあるフレームがただ単に提示された場合と比べて、最も人気のあるクリップレットがユーザに提示される方が、ユーザが、ソースビデオ210に関してはるかに多くの情報を獲得することが可能になる。
【0044】
ビデオクリップレット445に含まれるクリップレットに関するキーフレームを決定するためのキーフレーム特定モジュール460が、ビデオクリップレット生成器200内に含まれる。キーフレームは、基準を使用して、キーフレームが、クリップレットに適用されるその選択された基準を最もよく表わすように特定される。クリップレットごとに任意の数のキーフレームが存在することが可能であるが、少なくとも1つのキーフレームが選好される。
【0045】
ビデオクリップレット生成器200の出力が、ビデオクリップレット結果400である。このビデオクリップレット結果400は、ビデオクリップレット生成器200内に含まれるモジュールのそれぞれによって生成された情報を含んでいる。図4に示すとおり、ビデオクリップレット結果400は、ビデオクリップレット抽出器440によって獲得された1組のビデオクリップレット470、ならびに制約適用モジュール420とショット境界検出器415とサブショット境界検出器410の1つまたは複数によって獲得されたクリップレット編集ポイント475を含んでいる。さらに、ビデオクリップレット結果400は、ビデオクリップレット評価モジュール450によって獲得されたビデオクリップレット評価480、およびキーフレーム特定モジュール460によって獲得された1組のキーフレーム485も含んでいる。ビデオクリップレット結果400は、以上のクリップレット情報の任意の組み合わせを可能とする。
【0046】
IV.操作の概観および詳細
図5は、図2及び図4に示したビデオクリップレット生成器200の動作を示す一般的な流れ図である。一般に、ビデオクリップレット生成器200は、大きいソースビデオを処理して提示のためのクリップレット、およびクリップレット情報を生成する。具体的には、ビデオクリップレット生成器200は、まず、処理するためにソースビデオ210を入力する(ボックス500)。次に、編集ポイント430が、サブショット境界を使用し、また場合により、以下に詳述する技術の1つまたは複数を使用して自動的に決定される(ボックス510)。編集ポイント430を使用して、クリップレットがソースビデオ210から抽出される(ボックス520)。最後に、クリップレット結果400が、例えば、操作のためにユーザに提示される。
【0047】
[サブショット境界検出器]
図6は、図4に示したサブショット境界検出器410の動作の詳細を示す詳細な流れ図である。一般に、サブショット境界検出器410は、サブショット境界を使用して編集ポイント430を規定する。サブショット境界検出方法を使用して、ビデオをカットし、クリップレットを生成するのに都合のよいポイントを提供するソースビデオ210の部分に対応する編集ポイント430を見出す。
【0048】
まず、検出されるべきタイプのサブショット境界を規定する(ボックス610)。サブショット境界は、意味的に理にかなった任意のタイプの基準を使用して規定することができる。例えば、サブショット境界のタイプには、次のものが含まれる。従来のショット境界は、あるタイプのサブショット境界である。発言間の任意の時点が、サブショット境界となることが可能である。パン(pan)が行われることをサブショット境界基準として使用して、パンの始め、途中、または終り(ビデオの中の安定したポイントではなく)がサブショット境界として使用されるようにすることができる。同様に、ズームをサブショット境界基準として使用して、ズームの直後のポイントがサブショット境界として使用されるようにすることができる。ズーム基準を使用することは、ビデオカメラ撮影者が、通常、興味を引く主題またはイベントにズームインするという知識に基づいている。場面クラスタ化をサブショット境界基準として使用して、互いに似通った様々な場面が一緒にクラスタ化されて、同様な場面が同じサブショットに属するようにすることができる。さらに、タイムスタンプベースのショット検出、ビデオベースのショット検出、オーディオベースのショット検出、およびオーディオ−ビジュアルベースのショット検出をサブショット境界検出のための基準として使用することができる。さらに、ソースビデオ210のオーディオ信号部分の中の任意の利用可能な特徴を使用するオーディオ解析を使用して、サブショット境界を規定することができる。このオーディオ特徴には、オーディオスペクトル解析、音声認識、およびオーディオパワー変動分解(audio power variance decomposition)が含まれる。ソースビデオ210のビデオ信号の中の任意の利用可能な特徴を使用するビデオ解析を使用してサブショット境界を規定することができる。このビデオ特徴には、いくつかを挙げると、色ヒストグラム、ウェーブレット分解、光フローパラメータ、フーリエ変換係数、および顔検出が含まれる。
【0049】
サブショット境界のタイプが規定されると、サブショット境界が決定される(ブロック620)。次に、編集ポイント430が、クリップレット時間制約およびサブショット境界に基づいて決定される(ボックス630)。最後に、編集ポイント430が、サブショット境界検出器410からの出力として送られる(ボックス640)。サブショット境界は、次の場所、つまり(a)場面の変化、(b)被写体の登場(object entrance)、(c)被写体の退場(object exit)、(d)適合されたモデルにおけるその他の個別の変化、の少なくとも1つで生じることに留意されたい。
【0050】
サブショット境界を視覚的なキューに基づいて見出すことの一例は、隣接するビデオフレームの色ヒストグラム間のバッタチャリヤ(Bhattacharya)距離を計算することである。その距離におけるあるしきい値を超えるピークが、サブショット境界であるものと見なされる。他の方法は、「ビデオの生成モデル」を使用して、処理されているソースビデオ210をモデル化し、背景が大きく変化したときをサブショット境界と規定することである。さらに、サブショット境界は、ある視覚的な要素がビデオに入った、またはビデオから出たポイントとして規定することも可能である。例えば、ある人が場面に入った(登場)、または場面から出た(退場)ときをサブショット境界と規定することが可能である。オーディオキューに基づいてサブショット境界を見出すことの一例は、決められた時間より長いオーディオパワー信号における谷(valley)を見出して沈黙の時点(moment of silence)を決定することである。その谷の中点をサブショット境界として規定することができる。どのタイプのデータも参照することなくサブショット境界を見出すことの一例は、毎N秒間にサブショット境界を生成することであり、ただし、Nは、クリップレット時間制約などの短い時間であることが可能である。前述した基準の任意の1つ、または任意の組み合わせを使用してサブショット境界を規定することができる。
【0051】
サブショット境界検出によって生成された各編集ポイントは、必ずしもクリップレットを生成するのに使用されないことに留意されたい。これは、サブショット境界が確実な編集ポイントではなく、単にカットするための候補に過ぎず、したがって、もたらされるクリップレット自体が多数のサブショット境界を含む可能性があるためである。例えば、サブショット境界が毎0.5秒に見出され、クリップレット時間制約が7秒間であることが可能である。その場合、余りにも頻繁にサブショット境界が存在するので、すべてのサブショット境界は使用されない。
【0052】
図7は、特徴ベースの手法を使用するサブショット検出器420の実施例を示す詳細な流れ図である。特徴ベースの手法を使用することは、ソースビデオ210の中の各ビデオフレームが、特徴ベクトルで節約的に(parsimoniously)表現される(ボックス700)ことを意味する。この例では、特徴ベクトルは、低次元の特徴ベクトルである。特徴ベクトルは、元のビデオフレームを全く参照することなしに、サブショット境界検出プロセス全体で使用される。特定の特徴は様々である可能性があるが、この実施例で使用した特長は、ビデオフレームの各4分の1に関する平均イメージ輝度および色ヒストグラムである。
【0053】
サブショット境界検出は、特徴ベクトルのシーケンスに対してスライディングウインドウを送ることによって行われた(ボックス710)。スライディングウインドウの各位置で、中心の特徴からウインドウ内のすべての他の特徴ベクトルまでの平均距離が計算され(ボックス720)、記憶された(ボックス730)。これにより、記憶された平均距離のそれぞれから構成された1次元信号がもたらされた(ボックス740)。次に、1次元信号の外れ値(outlier)が抽出された(ボックス750)。1次元信号の外れ値は、サブショット境界に対応している。抽出は、堅牢な統計的外れ値検出手続きを使用して行われた。
【0054】
図8は、場面クラスタ化を使用するサブショット境界検出の例を示す詳細な流れ図である。場面クラスタ化は、サブショット境界を規定し、検出するのに使用され、その境界を使用してクリップレットを生成する。場面クラスタ化は、ビデオ、オーディオ、またはビデオとオーディオをともに使用して行うことができる。一般的な考え方は、同様なデータ(ビジュアルデータであるか、オーディオデータであるかにかかわらず)をクラスタ化し、同様なデータのクラスタを使用してクラスを定義することである。ソースビデオ210の中の各フレームにクラスが割り当てられ、フレーム間でクラスの変化が存在する場所にサブショット境界が生じる。
【0055】
場所クラスタ化法は、クラスの知識も、クラス定義の知識もなしに開始される(平均および分散の点などから)。ランダムな推測が行われ、反復プロセスを介して、ビデオフレームがクラスタ化されて、クラスに揃えられる。最終的に、ビデオフレームは、別々のクラスにグループ化され、クラスに関する平均イメージが明らかになる。
【0056】
図8に示したとおり、この実施例では、場面クラスタ化法は、ソースビデオ210からビデオフレームをランダムに選択し、そのフレームに基づいてクラスを定義することから開始する(ボックス800)。次に、各ビデオフレームに関して、そのビデオフレームがクラスのそれぞれに属する確率が判定された(ボックス810)。次に、観察されたデータが平均され、確率で重みが付けられ、これにより、ビデオフレームが、独立した別個のクラスにマージされた。さらに、不変のパラメータが判定され(ボックス820)、変形パラメータが定義された(ボックス830)。変形パラメータは、ビデオフレームを変形して、類似しているが、わずかに変形されたビデオフレームが、それでも同じクラスに属するようにするランダムな変数である。例えば、あるセットのビデオフレームが人物を含み、次のセットのビデオフレームが同一人物のクローズアップを含む場合、ズーム変形パラメータを定義して、両方のセットのビデオフレームが、ズームにかかわらず同一のクラスに属するようにすることが可能である。これは、ズーム不変として知られている。
【0057】
通常、データは、変形されても不変であるような仕方(transformation invariant manner)でクラスタ化される。これは、類似の内容を有するが、移動(左、右、上方、または下方などの)、あるいはズームインまたはズームアウトのために異なっているビデオフレームが、同じであると見なされ、同一のクラスの中に一緒にクラスタ化されることを意味している。他の方法では、いくつかの変形パラメータを不変ではないものとして選択し、場面クラスタ化を定義するのに使用することができる。詳細には、ズームが不変ズームパラメータとして選択された場合、サブショット境界は、ズームが行われるポイントでは規定されない。しかし、ズームが不変変形パラメータではない場合、ソースビデオ210のズームインポイント後などの、ズームが行われるポイントに関してサブショット境界を規定することができる。
【0058】
次に、確率を使用して類似のビデオフレームが、クラスのそれぞれにクラスタ化された(ボックス840)。これは、各回の反復を介して各ビデオフレームが別個の独立したクラスに分離されるように反復プロセスを使用して行われた。最後に、クラスのそれぞれへのビデオフレームのクラスタ化に基づいてサブショット境界が決定された(ボックス850)。
【0059】
前述した場面クラスタ化技術は、ピクセルの色または光度だけでなく、ビデオフレームに対するピクセルの空間的グループ化も考慮に入れる。これにより、サブショット境界を決定する際、他の技術に優る利点が場面クラスタ化技術に与えられる。例えば、場面クラスタ化技術は、ピクセル光度技術と比べて光度の変化の影響をはるかに受けにくい。これは、ピクセル光度技術とは異なり、場面クラスタ化技術は、単にビデオフレーム間で光度の変化があるという理由でサブショット境界を見出さないことを意味する。さらに、色は弱いキューであるため、場面クラスタ化技術の方が、ピクセル色技術よりも信頼が置ける。
【0060】
[ショット境界検出器]
図9は、図4に示したショット境界検出器415の動作の詳細を示す詳細な流れ図である。ショット境界検出器は、サブショット境界検出器の例であるか、または通常、サブショット境界検出器の多数の構成要素の1つである。一般に、ショット境界検出器415は、ビデオタイムスタンプの不連続性を使用して、または隣接するフレーム間におけるビデオイメージの急な不連続性に編集ポイント430を見出す。より具体的には、ショット境界検出器415は、まず、前述した仕方でクリップレット時間制約を決定する(ボックス900)。次に、ショット境界が判別される(ボックス910)。前述したとおり、ショット境界は、カメラが「オン」または「オフ」にされたソースビデオ210内の場所である。ソースビデオ210内のこのカメラ「オン」の場所とカメラ「オフ」の場所の間のビデオ部分が、ショットとして定義される。
【0061】
[制約適用モジュール]
図10は、図4に示した制約適用モジュール420の動作の詳細を示す詳細な流れ図である。一般に、制約適用モジュール420は、編集ポイント430を見出してソースビデオ210からクリップレットを生成するのに使用される。詳細には、クリップレット時間制約が決定される(ボックス1000)。この制約は、ユーザが選択すること、あらかじめ選択されていること、または制約適用モジュール420がオンザフライ(on the fly)で決定することを含め、様々なやり方で決定することができる。前述したとおり、クリップレット時間制約は、クリップレットの時間に対する任意の「ハードな」または「ソフトな」制約であることが可能である。都合のよいサブショット境界が存在しない場合、制約適用モジュールは、時間制約だけに基づいてカットを任意に行うことができる。次に、編集ポイント430が、クリップレット時間制約に基づいて決定される(ボックス1010)。次に、編集ポイント430が、制約適用モジュール420からの出力として送られる(ボックス1020)。
【0062】
[ビデオクリップレット評価モジュール]
クリップレットには、クリップレットに関する情報を提供するのに利用可能な処理技術に基づいて興味度評価が割り当てられることが可能である。例えば、顔検出技術が利用可能である場合、顔を検出するようにそれぞれの個々のクリップレットを処理することができる。次に、クリップレットが顔を含むかどうかなどの、この処理から獲得された情報が、それぞれの個々のクリップレットとともに記憶される。次に、この情報に基づき、各クリップレットに関して、顔検出の興味度評価を決定することができる。興味度評価は、ビデオフレームごとにではなく、クリップレットごとに関連付けられる。ただし、評価プロセスで使用される特徴の計算が、フレームごとに行われており、後にクリップレット評価プロセス中に使用するために記憶されていることが可能である。
【0063】
図11は、図4に示したビデオクリップレット評価モジュール450の動作の詳細を示す詳細な流れ図である。これは、オプションのプロセスであるが、所望される場合、ビデオクリップレット評価モジュール450は、クリップレット評価を個々のクリップレットに割り当てる。図11に示すとおり、ビデオクリップレット評価モジュール450は、クリップレットを入力することから開始する(ボックス1100)。次に、クリップレットに関する評価情報が、クリップレットとともに記憶される(ボックス1110)。次に、使用されるべき所望の評価情報が決定される(ボックス1120)。所望の評価情報とは、クリップレット評価を割り当てる際、クリップレットとともに記憶されている評価情報のどれを使用するかを意味する。最後に、ビデオクリップレット評価モジュール450が、所望の評価情報を使用してクリップレットに関する興味度評価を計算する(ボックス1130)。好ましくは、各クリップレットに対する興味度評価は、全クリップレットに対して正規化される。例えば、顔検出で最高の興味度評価を有するクリップレットを1に等しい値に正規化し、その他のクリップレットに関する顔検出のすべての他の興味度評価を1以下にする。
【0064】
クリップレット評価は、クリップレットに関して妥当であり、用意されている任意の情報に基づくことが可能である。クリップレット評価情報は、タイムスタンプ、場所スタンプ、オーディオ信号、ビデオ信号、および情報のすべてを含み、サブショット境界検出に関して前述したとおり解析される。クリップレット評価情報は、クリップレットに関する情報を提供するのに利用可能なあらゆる技術を利用することができる。これには、音声認識、話者認識、顔検出、ズーム検出、パン検出、任意のタイプのオーディオ解析またはオーディオ認識、および任意のタイプのビデオ解析またはビデオ認識が含まれる。以上の技術の任意のものを使用して、個々のクリップレットに関する興味度評価を生成することができる。例として、興味度評価が顔を検出することに関する場合、顔を含むクリップレットが、顔を有さないクリップレットよりも高い興味度評価を有し、顔を含むクリップレットの中で、より大きいパーセンテージの時間にわたってカメラに向いている顔を含むクリップレットが、より高く評価されることが可能である。他の例として、興味度評価がクローズアップである場合、ズームイベントの直後のクリップレットが、他のクリップレットよりも高い興味度を有する。
【0065】
クリップレット興味度評価は、多次元であることが可能である。例えば、クリップレットは、「オーディオ活動レベル」に関する評価、ならびに「ビジュアル活動レベル」および「顔の出現」に関する別個の評価を有することが可能である。評価は、絶対数値であること、またはクリップレット間の相対的順序(またはランキング)であることが可能である。ビデオクリップレット評価モジュール450が、クリップレットに関して個々に、またはすべての可能なクリップレットのセットに関して評価を計算することができる。
【0066】
例として、評価が、オーディオに基づいてクリップレットに割り当てられるものと想定する。これは、すべての既知のクリップレットにわたって正規化されたオーディオパワー信号の分散を計算することによって行うことができる。ビジョンを使用するクリップレット評価の他の例では、カメラのズームまたはパンが検出され、ズームイベントまたはパンイベントの直後のクリップレットにより高い評価が割り当てられるものと想定する。持続時間を使用するクリップレット評価のさらに他の例は、xがユーザの選好または期待に基づくことが可能であるx秒間の持続時間を中心とするガウス分布に評価を正比例させることである。
【0067】
[キーフレーム特定モジュール]
各クリップレットに関して少なくとも1つのキーフレームを特定することができる。キーフレームは、クリップレットの内容を最もよく要約するクリップレットの代表的なビデオフレームである。クリップレットごとに任意の数のキーフレームが存在することが可能であるが、少なくとも1つのキーフレームが好ましい。
【0068】
図12は、図4に示したキーフレーム特定モジュール460の動作の詳細を示す詳細な流れ図である。最初、キーフレーム特定モジュール460は、クリップレットを入力として受け取る(ボックス1200)。次に、検出されるべき所望のキーフレーム情報が決定される(ボックス1210)。最後に、その所望のキーフレーム情報を使用して代表的なキーフレームが特定される(ボックス1220)。
【0069】
キーフレームを検出するのに使用される情報は、オーディオ解析およびオーディオ認識、ビデオ解析およびビデオ認識などの前述した処理技術の任意のものから獲得された情報であることが可能である。他の方法では、キーフレームは、クリップレット内に含まれる情報を参照することなしに検出することができる。例えば、キーフレームは、クリップレットの中央ビデオフレームを検出し、その中央ビデオフレームをキーフレームとして定義することにより、それぞれの個々のクリップレットに関して特定することができる。キーフレーム特定の他の例は、クリップレットの第m番ごとのビデオフレームをサンプリングし、そのサンプリングされたビデオフレームをキーフレームとして定義することである。キーフレーム特定のさらに他の例は、クリップレット内のビデオフレームの色ヒストグラム上のバッタチャリヤ距離に対してビタビ(Viterbi)アルゴリズムを実行することである。コンピュータ対数尤度(log−likelihood)のピークの場所が、クリップレットに関するキーフレームとして定義される。
【0070】
キーフレームを特定することの目的は、クリップレットを要約するための個々のクリップレットから最も代表的なビデオフレームを抽出することである。この目的を達するため、特定されたキーフレームは、最大限の相違があり、高い利用価値を有していなければならない。フレーム距離メトリックおよびフレーム有用性測度(frame utility measure)が定義される。フレーム距離メトリックは、クリップレットに含まれる2つのビデオフレーム間の類似度を測定する。フレーム距離メトリックは、同一のビデオフレームの場合、ゼロであり、フレームの相違が大きくなるにつれて値が高くなる。フレーム有用性測度は、キーフレームとしてのビデオフレームの適合度を反映する。通常、より明るく(つまり、平均輝度がより高い)、より色彩豊かな(つまり、色ヒストグラム上のエントロピーがより高い)ビデオフレームが、キーフレームとして好ましい。キーフレーム特定の好ましい手法では、キーフレームは、費用関数を最大化する動的プログラミング(またはビタビ)手続きによって特定される。費用関数は、検出されるべき所望の基準または所望のキーフレーム情報をカプセル化する。さらに、各クリップレットに関するキーフレームの最適な数が、ベイズ情報基準(Bayes Information Criterion)(BIC)を使用して自動的に決定される。
【0071】
本発明の以上の説明は、例示および説明のために提示した。この説明は、すべてを網羅する、または本発明を開示した形態そのものに限定することを意図するものではない。以上の教示に鑑みて、多数の変更形態および変形形態が可能である。本発明の技術的範囲は、本発明の以上の詳細な説明によってではなく、本発明の特許請求の範囲によって限定されるものである。
【図面の簡単な説明】
【図1】より長い単位のビデオ(ソースビデオ)およびビデオフレームとの関係でビデオクリップレットの概念を示す図である。
【図2】本発明のクリップレット生成システムの概要を示すブロック図である。
【図3】本発明を実施するのに適した計算装置を示すブロック図である。
【図4】図2に示したビデオクリップレット生成器の詳細を示す詳細なブロック図である。
【図5】図2及び図4に示したビデオクリップレット生成器の動作を示す一般的な流れ図である。
【図6】図4に示したサブショット境界検出器の動作の詳細を示す詳細な流れ図である。
【図7】特徴ベースの手法を使用するサブショット検出器の実施例を示す詳細な流れ図である。
【図8】場面クラスタ化を使用するサブショット境界の実施例を示す詳細な流れ図である。
【図9】図4に示したショット境界検出器の動作の詳細を示す詳細な流れ図である。
【図10】図4に示した制約アプリケーションの動作の詳細を示す詳細な流れ図である。
【図11】図4に示したビデオクリップレット評価モジュールの動作の詳細を示す詳細な流れ図である。
【図12】図4に示したキーフレーム特定モジュール460の動作の詳細を示す詳細な流れ図である。
【符号の説明】
190 クリップレット生成システム
200 ビデオクリップレット生成器
205 デジタルビデオデータ
210 ソースビデオ
215 ビデオカメラ
220 記憶媒体
230 アナログ−デジタル変換器
240 計算デバイス
250 モニタ
260 ビデオクリップレットユーザインターフェース

Claims (41)

  1. ソースビデオを自動的に処理するための方法であって、
    前記ソースビデオの中でサブショット境界を決定するステップと、
    該サブショット境界を使用して前記ソースビデオの編集ポイントを自動的に決定するステップと、
    以降、クリップレットと呼ぶ前記ソースビデオの小さいセグメントを前記クリップレットの開始ポイントおよび終了ポイントを示す前記編集ポイントを使用して抽出するステップと、
    前記クリップレット結果をユーザに提示するステップと
    を有することを特徴とする方法。
  2. ビデオの生成モデルに基づく場面クラスタ化を使用してサブショット境界を決定するステップをさらに含み、該サブショット境界は、(a)場面の変化の場所、(b)被写体の登場の場所、(c)被写体の退場の場所、(d)適合されたモデルにおけるその他の個別の変化の場所の少なくとも1つで生じることを特徴とする請求項1に記載の方法。
  3. オーディオの生成モデルに基づく場面クラスタ化を使用してサブショット境界を決定するステップをさらに含み、該サブショット境界は、(a)発話と発話の間の場所、(b)異なるサウンドタイプの間の場所、(c)適合されたモデルにおけるその他の個別の変化の場所の少なくとも1つで生じることを特徴とする請求項1に記載の方法。
  4. オーディオの生成モデルとビデオの生成モデルの組み合わせに基づく場面クラスタ化を使用するステップをさらに含み、前記サブショット境界は、適合されたモデルにおける個別の変化のところで生じることを特徴とする請求項1に記載の方法。
  5. 前記サブショット境界を決定する仕方として、前記ソースビデオのオーディオ信号における谷の検出を使用してサウンド間または発話間の沈黙の時点を決定するステップをさらに含むことを特徴とする請求項1に記載の方法。
  6. 前記ソースビデオの隣接するフレームの色ヒストグラム間のバッタチャリヤ(Bhattacharya)距離のピークを使用してサブショット境界を決定するステップをさらに含むことを特徴とする請求項1に記載の方法。
  7. 前記サブショット境界を決定するステップは、
    前記ソースビデオの各ビデオフレームを特徴ベクトルで表わすステップと、
    該特徴ベクトルを使用して平均距離を計算するステップと、
    該平均距離から1次元信号を構成するステップと、
    該1次元信号を使用して前記サブショット境界を決定するステップと
    をさらに含むことを特徴とする請求項1に記載の方法。
  8. 前記ショット境界を使用して前記編集ポイントを自動的に決定するステップは、手作業で選択されたクリップレット時間制約を組み込むステップをさらに含むことを特徴とする請求項1に記載の方法。
  9. 前記クリップレット時間制約は、ソフトな制約であることを特徴とする請求項1に記載の方法。
  10. 前記クリップレット時間制約は、ハードな制約であることを特徴とする請求項1に記載の方法。
  11. 前記ショット境界を使用して前記編集ポイントを自動的に決定するステップは、使用するサブショット境界のタイプを自動的に選択するステップをさらに含むことを特徴とする請求項1に記載の方法。
  12. タイムスタンプではなく、フレーム「アンカ(anchor)」またはフレーム署名の形態で編集ポイントを出力するステップをさらに含み、前記フレームアンカは、前記ソースビデオの一意的な時点を計算によって指定する(computaionally specify)ことを特徴とする請求項1に記載の方法。
  13. 前記クリップレットを抽出するステップは、前記クリップレットエンドポイントの間にソースビデオの短縮されたコピーを生成するステップを含むことを特徴とする請求項1に記載の方法。
  14. 前記クリップレットを抽出するステップは、前記クリップレットのエンドポイントを記憶するステップを含むことを特徴とする請求項1に記載の方法。
  15. 前記各クリップレットに関する興味度評価を計算して記憶するステップをさらに含むことを特徴とする請求項1に記載の方法。
  16. 所望のキーフレーム情報を使用して前記クリップレットに関するキーフレームを特定するステップをさらに含むことを特徴とする請求項1に記載の方法。
  17. 前記クリップレット結果は、(a)該クリップレット、(b)前記編集ポイントの少なくとも1つを含むことを特徴とする請求項1に記載の方法。
  18. ビデオフレームを含むビデオを自動的に処理するための方法であって、
    クリップレットの長さを制限するクリップレット時間制約を決定するステップと、
    前記クリップレット時間制約を使用して前記ビデオの編集ポイントを自動的に決定するステップと、
    前記クリップレットに関するクリップレット興味度評価を計算するステップと、
    前記編集ポイントを使用して前記ビデオからクリップレットを抽出するステップと、
    前記クリップレットおよび前記クリップレット興味度評価を提示するステップと
    を有することを特徴とする方法。
  19. 前記クリップレット時間制約は、(a)ハードな制約、および(b)ソフトな制約のどちらかである単一のクリップレットの長さに対する制約であることを特徴とする請求項18に記載の方法。
  20. 前記クリップレット時間制約は、(a)ハードな制約、および(b)ソフトな制約のどちらかである単一のビデオから生成されたすべてのクリップレットの長さのセットに対する制約であることを特徴とする請求項18に記載の方法。
  21. 前記クリップレット時間制約を使用して編集ポイントを自動的に決定するステップは、サブショット境界が全く存在しない場合に行われることを特徴とする請求項18に記載の方法。
  22. 前記クリップレット時間制約を使用して編集ポイントを自動的に決定するステップは、検出されたサブショット境界を参照せずに行われることを特徴とする請求項18に記載の方法。
  23. 前記クリップレット興味度評価が、前記クリップレット中のオーディオ信号の正規化された分散を計算することによってオーディオ興味度に関して決定されることを特徴とする請求項18に記載の方法。
  24. ビデオフレームを含む大きいソースビデオを複数のより小さいセグメントに自動的にカットするための方法であって、
    クリップレットと呼ばれる前記複数のより小さいセグメントのそれぞれに関する開始ポイントおよび終了ポイントに相当する編集ポイントを自動的に決定するステップと、
    前記編集ポイントに基づいて前記大きいソースビデオから前記クリップレットを抽出するステップと
    を含み、前記クリップレットの少なくとも2つは、重なり合い、前記ビデオフレームの少なくとも1つを共有することを特徴とする方法。
  25. サブショット境界を決定し、該サブショット境界を使用して前記編集ポイントを決定するステップをさらに含むことを特徴とする請求項24に記載の方法。
  26. 前記サブショット境界を決定するステップは、
    各ビデオフレームを特徴ベクトルで表わすステップと、
    該特徴ベクトルを使用して平均距離を計算するステップと、
    該平均距離から1次元信号を構成するステップと、
    該1次元信号を使用して前記サブショット境界を決定するステップと
    をさらに含むことを特徴とする請求項25に記載の方法。
  27. 前記特徴ベクトルのシーケンスにスライディングウインドウを通して、前記スライディングウインドウの各位置で中央の特徴ベクトルからすべての他の特徴ベクトルまでの距離を測定することによって前記平均距離を計算するステップをさらに含むことを特徴とする請求項26に記載の方法。
  28. 前記1次元信号の外れ値を抽出してサブショット境界を決定するステップをさらに含むことを特徴とする請求項26に記載の方法。
  29. サブショット境界を使用して編集ポイントを自動的に決定するステップと、
    以降、クリップレットと呼ぶデジタル化されたビデオのセグメントを、前記編集ポイントを使用して前記クリップレットの開始ポイントおよび終了ポイントを決定することで抽出するステップと、
    (a)前記クリップレット、(b)前記編集ポイントの少なくとも1つを含むクリップレット結果を表示するステップと
    を含む前記デジタル化されたビデオを自動的に編集するためのコンピュータ実行可能命令を有することを特徴とするコンピュータ読み取り可能な記録媒体。
  30. 検出されるべき前記サブショット境界のタイプを定義するステップをさらに含むことを特徴とする請求項29に記載のコンピュータ読み取り可能な記録媒体。
  31. (a)オーディオ、(b)ビデオの少なくとも1つの生成モデルに基づく場面クラスタ化を使用して前記サブショット境界を決定するステップをさらに含むことを特徴とする請求項29に記載のコンピュータ読み取り可能な記録媒体。
  32. 変形パラメータ、および前記変形パラメータのそれぞれが不変であるかどうかを定義するステップをさらに含むことを特徴とする請求項31に記載のコンピュータ読み取り可能な記録媒体。
  33. ソースビデオを処理するためのビデオクリップレット生成システムであって、
    前記ソースビデオからのクリップレット、および前記クリップレットに関するクリップレット評価を自動的に生成するためのビデオクリップレット生成器と、
    前記クリップレット、および前記クリップレット評価を含むクリップレット結果を表示し、提示するための前記ビデオクリップレット生成器と通信するビデオクリップレットユーザインターフェースとを含むことを特徴とするビデオクリップレット生成システム。
  34. 前記クリップレットの長さに対する制約であるクリップレット時間制約をさらに含むことを特徴とする請求項33に記載のビデオクリップレット生成システム。
  35. 前記ビデオクリップレット生成器によって前記ソースビデオから生成されたクリップレットのすべての長さの制約セットであるクリップレット時間制約をさらに含むことを特徴とする請求項33に記載のビデオクリップレット生成システム。
  36. 前記クリップレットの開始ポイントおよび終了ポイントを示す前記ビデオクリップレット生成器によって生成された編集ポイントをさらに含むことを特徴とする請求項33に記載のビデオクリップレット生成システム。
  37. 前記ビデオクリップレット生成器は、クリップレット時間制約に基づいて編集ポイントを決定するための制約適用モジュールをさらに含むことを特徴とする請求項33に記載のビデオクリップレット生成システム。
  38. 前記クリップレット時間制約は、ソフトな制約であることを特徴とする請求項37に記載のビデオクリップレット生成システム。
  39. 前記ビデオクリップレット生成器は、サブショット境界に基づいて編集ポイントを決定するためのサブショット境界検出器をさらに含むことを特徴とする請求項33に記載のビデオクリップレット生成システム。
  40. ビデオフレームを含むデジタル化されたビデオを処理するための自動化されたデジタルビデオシステムであって、
    編集ポイントを決定する(a)制約適用モジュール、(b)ショット境界検出器、(c)サブショット境界検出器の少なくとも1つと、
    以降、クリップレットと呼ぶデジタル化されたビデオのセグメントを前記編集ポイントに従って抽出するビデオクリップレット抽出器と、
    前記クリップレットとともに記憶された情報に基づいてそれぞれの個々のクリップレットに関する興味度評価を決定するビデオクリップレット評価モジュールと、
    (a)1組のクリップレット、(b)前記編集ポイント、(c)前記ビデオクリップレット興味度評価、の少なくとも1つを含む1組のビデオクリップレット結果と
    を含むビデオクリップレット生成器を有することを特徴とするデジタルビデオシステム。
  41. 前記ビデオクリップレット生成器は、前記クリップレットの中のどのビデオフレームが前記クリップレットを代表し、要約するかを特定するためのキーフレーム特定モジュールをさらに含むことを特徴とする請求項40に記載の自動化されたデジタルビデオシステム。
JP2003175466A 2002-06-19 2003-06-19 デジタルビデオからビデオクリップレットを自動的に生成するためのシステム及びその方法 Pending JP2004023798A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/176,828 US8238718B2 (en) 2002-06-19 2002-06-19 System and method for automatically generating video cliplets from digital video

Publications (1)

Publication Number Publication Date
JP2004023798A true JP2004023798A (ja) 2004-01-22

Family

ID=29717844

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003175466A Pending JP2004023798A (ja) 2002-06-19 2003-06-19 デジタルビデオからビデオクリップレットを自動的に生成するためのシステム及びその方法

Country Status (3)

Country Link
US (1) US8238718B2 (ja)
EP (1) EP1376584A3 (ja)
JP (1) JP2004023798A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8713030B2 (en) 2009-06-05 2014-04-29 Kabushiki Kaisha Toshiba Video editing apparatus
US10849245B2 (en) 2002-10-22 2020-11-24 Atd Ventures, Llc Systems and methods for providing a robust computer processing unit

Families Citing this family (76)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7954056B2 (en) * 1997-12-22 2011-05-31 Ricoh Company, Ltd. Television-based visualization and navigation interface
US7596755B2 (en) 1997-12-22 2009-09-29 Ricoh Company, Ltd. Multimedia visualization and integration environment
US8266657B2 (en) 2001-03-15 2012-09-11 Sling Media Inc. Method for effectively implementing a multi-room television system
US6263503B1 (en) 1999-05-26 2001-07-17 Neal Margulis Method for effectively implementing a wireless television system
US8635531B2 (en) 2002-02-21 2014-01-21 Ricoh Company, Ltd. Techniques for displaying information stored in multiple multimedia documents
US7917932B2 (en) 2005-06-07 2011-03-29 Sling Media, Inc. Personal video recorder functionality for placeshifting systems
KR100995333B1 (ko) 2004-06-07 2010-11-19 슬링 미디어 인코퍼레이티드 퍼스널 미디어 브로드캐스팅 시스템
US7769756B2 (en) 2004-06-07 2010-08-03 Sling Media, Inc. Selection and presentation of context-relevant supplemental content and advertising
US8346605B2 (en) 2004-06-07 2013-01-01 Sling Media, Inc. Management of shared media content
US7975062B2 (en) 2004-06-07 2011-07-05 Sling Media, Inc. Capturing and sharing media content
US9998802B2 (en) * 2004-06-07 2018-06-12 Sling Media LLC Systems and methods for creating variable length clips from a media stream
US20060198608A1 (en) * 2005-03-04 2006-09-07 Girardi Frank D Method and apparatus for coaching athletic teams
US7996771B2 (en) * 2005-06-17 2011-08-09 Fuji Xerox Co., Ltd. Methods and interfaces for event timeline and logs of video streams
US20090103886A1 (en) * 2005-06-27 2009-04-23 Matsushita Electric Industrial Co., Ltd. Same scene detection method, device, and storage medium containing program
JP4765732B2 (ja) * 2006-04-06 2011-09-07 オムロン株式会社 動画編集装置
US20080143875A1 (en) * 2006-08-17 2008-06-19 Scott Stacey L Method and system for synchronous video capture and output
US8943410B2 (en) 2006-12-22 2015-01-27 Apple Inc. Modified media presentation during scrubbing
US8020100B2 (en) 2006-12-22 2011-09-13 Apple Inc. Fast creation of video segments
US7992097B2 (en) 2006-12-22 2011-08-02 Apple Inc. Select drag and drop operations on video thumbnails across clip boundaries
US20080183844A1 (en) * 2007-01-26 2008-07-31 Andrew Gavin Real time online video editing system and method
US8218830B2 (en) * 2007-01-29 2012-07-10 Myspace Llc Image editing system and method
WO2008137608A1 (en) * 2007-05-01 2008-11-13 Flektor, Inc. System and method for flow control in web-based video editing system
JP2009077105A (ja) * 2007-09-20 2009-04-09 Sony Corp 編集装置および編集方法、プログラム、並びに記録媒体
US8364698B2 (en) * 2008-07-11 2013-01-29 Videosurf, Inc. Apparatus and software system for and method of performing a visual-relevance-rank subsequent search
US8788963B2 (en) * 2008-10-15 2014-07-22 Apple Inc. Scrollable preview of content
EP2419861A1 (en) * 2009-04-14 2012-02-22 Koninklijke Philips Electronics N.V. Key frames extraction for video content analysis
US20100281371A1 (en) * 2009-04-30 2010-11-04 Peter Warner Navigation Tool for Video Presentations
US9564173B2 (en) 2009-04-30 2017-02-07 Apple Inc. Media editing application for auditioning different types of media clips
US8549404B2 (en) 2009-04-30 2013-10-01 Apple Inc. Auditioning tools for a media editing application
US8881013B2 (en) 2009-04-30 2014-11-04 Apple Inc. Tool for tracking versions of media sections in a composite presentation
US8359537B2 (en) * 2009-04-30 2013-01-22 Apple Inc. Tool for navigating a composite presentation
US8621099B2 (en) * 2009-09-21 2013-12-31 Sling Media, Inc. Systems and methods for formatting media content for distribution
US9508011B2 (en) 2010-05-10 2016-11-29 Videosurf, Inc. Video visual and audio query
US8819557B2 (en) 2010-07-15 2014-08-26 Apple Inc. Media-editing application with a free-form space for organizing or compositing media clips
US8910046B2 (en) 2010-07-15 2014-12-09 Apple Inc. Media-editing application with anchored timeline
US8555170B2 (en) 2010-08-10 2013-10-08 Apple Inc. Tool for presenting and editing a storyboard representation of a composite presentation
US8472783B2 (en) * 2010-11-30 2013-06-25 Echostar Technologies L.L.C. Systems and methods for digital video high accuracy fast forward, rewind and skip
US8745499B2 (en) 2011-01-28 2014-06-03 Apple Inc. Timeline search and index
US8775480B2 (en) 2011-01-28 2014-07-08 Apple Inc. Media clip management
US9997196B2 (en) 2011-02-16 2018-06-12 Apple Inc. Retiming media presentations
US11747972B2 (en) 2011-02-16 2023-09-05 Apple Inc. Media-editing application with novel editing tools
US9536564B2 (en) 2011-09-20 2017-01-03 Apple Inc. Role-facilitated editing operations
US11314405B2 (en) * 2011-10-14 2022-04-26 Autodesk, Inc. Real-time scrubbing of online videos
US9154761B2 (en) 2013-08-19 2015-10-06 Google Inc. Content-based video segmentation
EP2851900B1 (en) 2013-09-18 2017-08-23 Nxp B.V. Media content real time analysis and semi-automated summarization for capturing a fleeting event.
EP2950311A1 (en) * 2014-05-30 2015-12-02 Octocam S.r.l. Method, system and mobile terminal for acquiring information about road accidents
WO2016200059A1 (en) 2015-06-10 2016-12-15 Samsung Electronics Co., Ltd. Method and apparatus for providing advertisement content and recording medium
US20170092324A1 (en) * 2015-09-30 2017-03-30 Apple Inc. Automatic Video Compositing
US10269387B2 (en) 2015-09-30 2019-04-23 Apple Inc. Audio authoring and compositing
CN108028054B (zh) 2015-09-30 2020-05-12 苹果公司 对自动生成的音频/视频展示的音频和视频分量进行同步
US10726594B2 (en) 2015-09-30 2020-07-28 Apple Inc. Grouping media content for automatically generating a media presentation
CN107682744B (zh) * 2017-09-29 2021-01-08 惠州Tcl移动通信有限公司 视频片段输出的方法、存储介质及移动终端
JP7265543B2 (ja) 2017-10-17 2023-04-26 ヴェリリー ライフ サイエンシズ エルエルシー 外科用ビデオをセグメント化するためのシステムおよび方法
US10917702B2 (en) 2018-12-13 2021-02-09 At&T Intellectual Property I, L.P. Creating customized short-form content from long-form content
US11348235B2 (en) 2019-03-22 2022-05-31 Verily Life Sciences Llc Improving surgical video consumption by identifying useful segments in surgical videos
US10963841B2 (en) 2019-03-27 2021-03-30 On Time Staffing Inc. Employment candidate empathy scoring system
US10728443B1 (en) 2019-03-27 2020-07-28 On Time Staffing Inc. Automatic camera angle switching to create combined audiovisual file
US11127232B2 (en) 2019-11-26 2021-09-21 On Time Staffing Inc. Multi-camera, multi-sensor panel data extraction system and method
CN111274415B (zh) * 2020-01-14 2024-05-24 广州酷狗计算机科技有限公司 确定替补视频素材的方法、装置及计算机存储介质
CN111417014B (zh) * 2020-03-20 2022-12-13 深圳市企鹅网络科技有限公司 基于在线教育的视频生成方法、系统、设备及存储介质
US11023735B1 (en) 2020-04-02 2021-06-01 On Time Staffing, Inc. Automatic versioning of video presentations
CN111586473B (zh) * 2020-05-20 2023-01-17 北京字节跳动网络技术有限公司 视频的裁剪方法、装置、设备及存储介质
US11244204B2 (en) * 2020-05-20 2022-02-08 Adobe Inc. Determining video cuts in video clips
US11875781B2 (en) * 2020-08-31 2024-01-16 Adobe Inc. Audio-based media edit point selection
US11144882B1 (en) 2020-09-18 2021-10-12 On Time Staffing Inc. Systems and methods for evaluating actions over a computer network and establishing live network connections
TR202018749A2 (tr) * 2020-11-22 2021-03-22 Turkcell Technology Research And Development Co Bi̇r di̇ji̇tal i̇çeri̇k kesi̇ti̇ oluşturma ve paylaşma si̇stemi̇
CN112770061A (zh) * 2020-12-16 2021-05-07 影石创新科技股份有限公司 视频剪辑方法、系统、电子设备及存储介质
CN112911332B (zh) * 2020-12-29 2023-07-25 百度在线网络技术(北京)有限公司 用于从直播视频流剪辑视频的方法、装置、设备和存储介质
CN113204992B (zh) * 2021-03-26 2023-10-27 北京达佳互联信息技术有限公司 视频质量确定方法、装置、存储介质及电子设备
CN113079415B (zh) * 2021-03-31 2023-07-28 维沃移动通信有限公司 视频处理方法、装置及电子设备
US11727040B2 (en) 2021-08-06 2023-08-15 On Time Staffing, Inc. Monitoring third-party forum contributions to improve searching through time-to-live data assignments
US11423071B1 (en) 2021-08-31 2022-08-23 On Time Staffing, Inc. Candidate data ranking method using previously selected candidate data
CN113949828B (zh) * 2021-10-18 2024-04-30 北京达佳互联信息技术有限公司 视频剪辑方法、装置、电子设备及存储介质
CN114299415A (zh) * 2021-12-02 2022-04-08 北京达佳互联信息技术有限公司 一种视频切分方法、装置、电子设备以及存储介质
US11907652B2 (en) 2022-06-02 2024-02-20 On Time Staffing, Inc. User interface and systems for document creation
CN116112743A (zh) * 2023-02-01 2023-05-12 北京有竹居网络技术有限公司 视频处理的方法、装置、设备和存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3332166B2 (ja) 1992-09-30 2002-10-07 株式会社日立製作所 動画像の検索装置
JP3472659B2 (ja) 1995-02-20 2003-12-02 株式会社日立製作所 映像供給方法および映像供給システム
US6195458B1 (en) * 1997-07-29 2001-02-27 Eastman Kodak Company Method for content-based temporal segmentation of video
US6393054B1 (en) * 1998-04-20 2002-05-21 Hewlett-Packard Company System and method for automatically detecting shot boundary and key frame from a compressed video data
US6163510A (en) 1998-06-30 2000-12-19 International Business Machines Corporation Multimedia search and indexing system and method of operation using audio cues with signal thresholds
SE514377C2 (sv) * 1998-08-26 2001-02-19 Gunnar Sparr Teckenigenkänning
US6366296B1 (en) 1998-09-11 2002-04-02 Xerox Corporation Media browser using multimodal analysis
US6774917B1 (en) * 1999-03-11 2004-08-10 Fuji Xerox Co., Ltd. Methods and apparatuses for interactive similarity searching, retrieval, and browsing of video
AUPQ535200A0 (en) * 2000-01-31 2000-02-17 Canon Kabushiki Kaisha Extracting key frames from a video sequence
US6785419B1 (en) * 2000-12-22 2004-08-31 Microsoft Corporation System and method to facilitate pattern recognition by deformable matching

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10849245B2 (en) 2002-10-22 2020-11-24 Atd Ventures, Llc Systems and methods for providing a robust computer processing unit
US11751350B2 (en) 2002-10-22 2023-09-05 Atd Ventures, Llc Systems and methods for providing a robust computer processing unit
US8713030B2 (en) 2009-06-05 2014-04-29 Kabushiki Kaisha Toshiba Video editing apparatus

Also Published As

Publication number Publication date
EP1376584A3 (en) 2004-12-22
US8238718B2 (en) 2012-08-07
EP1376584A2 (en) 2004-01-02
US20030234803A1 (en) 2003-12-25

Similar Documents

Publication Publication Date Title
US8238718B2 (en) System and method for automatically generating video cliplets from digital video
JP5091086B2 (ja) ビデオの短いセグメントを表示するための方法及びグラフィカルユーザインタフェース
Truong et al. Video abstraction: A systematic review and classification
RU2440606C2 (ru) Способ и устройство автоматического генерирования сводки множества изображений
EP1816649B1 (en) Imaging device, information processing method, and computer program
US8195038B2 (en) Brief and high-interest video summary generation
US7986372B2 (en) Systems and methods for smart media content thumbnail extraction
JP5355422B2 (ja) ビデオの索引付けとビデオシノプシスのための、方法およびシステム
KR100827846B1 (ko) 동영상에 포함된 특정 인물을 검색하여 원하는 시점부터재생하기 위한 방법 및 시스템
EP2710594B1 (en) Video summary including a feature of interest
US7599554B2 (en) Method and apparatus for summarizing a music video using content analysis
Lee et al. Portable meeting recorder
Truong et al. Scene extraction in motion pictures
US8542982B2 (en) Image/video data editing apparatus and method for generating image or video soundtracks
US7483624B2 (en) System and method for indexing a video sequence
EP1213915A2 (en) Video and audio recording
US7904815B2 (en) Content-based dynamic photo-to-video methods and apparatuses
JP2003179849A (ja) ビデオコラージュの作成方法および装置、ビデオコラージュ、ビデオコラージュ・ユーザ・インタフェース、ビデオコラージュ作成プログラム
KR20070118635A (ko) 오디오 및/또는 비주얼 데이터의 서머라이제이션
US20030237091A1 (en) Computer user interface for viewing video compositions generated from a video composition authoring system using video cliplets
RU2413990C2 (ru) Способ и устройство для обнаружения границ элемента контента
US20050182503A1 (en) System and method for the automatic and semi-automatic media editing
JP2010531561A (ja) マルチメディアファイルのサマリを自動的に生成する方法及び装置
Fassold et al. Towards automatic cinematography and annotation for 360° video
JP2008199330A (ja) 動画像管理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060526

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080701

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20081001

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20081006

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20081104

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20081107

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081127

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090220