JP2004159331A - ビデオを自動的に編集するためのシステムおよび方法 - Google Patents

ビデオを自動的に編集するためのシステムおよび方法 Download PDF

Info

Publication number
JP2004159331A
JP2004159331A JP2003375014A JP2003375014A JP2004159331A JP 2004159331 A JP2004159331 A JP 2004159331A JP 2003375014 A JP2003375014 A JP 2003375014A JP 2003375014 A JP2003375014 A JP 2003375014A JP 2004159331 A JP2004159331 A JP 2004159331A
Authority
JP
Japan
Prior art keywords
sub
shot
shots
music
instructions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003375014A
Other languages
English (en)
Other versions
JP2004159331A5 (ja
JP4334977B2 (ja
Inventor
Xian-Sheng Hua
シャンシェン ホア
Lie Lu
リエ ル
Yu-Fei Ma
ユフェイ マ
Mingjing Li
ミンジン リ
Hongjiang Zhang
ホンジャン ツァン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2004159331A publication Critical patent/JP2004159331A/ja
Publication of JP2004159331A5 publication Critical patent/JP2004159331A5/ja
Application granted granted Critical
Publication of JP4334977B2 publication Critical patent/JP4334977B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/034Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Television Signal Processing For Recording (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)

Abstract

【課題】 ビデオを自動的に編集してビデオ要約を生成するシステムおよび方法を提供する。
【解決手段】 一態様では、ビデオからサブショットが抽出される。抽出されたサブショットの少なくとも一部分に関して重要度が計算される。その他のサブショットの重要度と比べて比較的高い重要度を有するサブショットに関するそれぞれの相対分布が特定される。特定された相対分布に基づき、特定のサブショットのなかでその他のサブショットに対して一様な分布を示さないサブショットがドロップされる。残っているサブショットがそれぞれの遷移と結合されてビデオ要約が生成される。
【選択図】 図1

Description

本発明は、ビデオデータを利用するシステムおよび方法に関する。詳細には、本発明は、入力音楽ファイルに関連して、または関連せずにビデオデータを自動的に編集することに関する。
本特許出願は、本出願と同じ譲受人に譲渡され、参照により本明細書に組み込まれている2001年6月14日に出願した「ショット検出のための方法および装置(A Method and Apparatus for Shot Detection)」という名称の米国特許出願番号09/882,787、および本出願と同じ譲受人に譲渡され、参照により本明細書に組み込まれている2002年11月1日に出願した「総合的なユーザ注目モデルを生成するためのシステムおよび方法(Systems and Methods for Generating a Comprehensive User Attention Model)」という名称の米国特許出願番号_______に関連する。
カメラ一体型ビデオ(camcorder)が、ビデオを作成するのにプロによってもアマチュアによっても同様にますます使用されるようになっている。しかし、ビデオが作成されると、個人がそのビデオを再び観る機会、またはそのビデオを友人と共用する機会は、めったにない。これは、ある程度、大量の編集されていないビデオデータファイルを見るのに、通常、多量の時間が必要とされることに起因する。これにより、ビデオを要約するための効率的で効果的な処理ツールが緊急に必要とされることになる。
既存のビデオ要約方式またはビデオスキミング(skimming)方式は、サイズを縮減し、ビデオデータを要約する一部のユーザのニーズに適合する可能性がある。ただし、そのような従来の技術を実施するのにコンピュータが使用される場合でさえ、その技術は、通常、相当に時間を消費し、労力がかかり、また、しばしば、専門家でないカメラ一体型ビデオのユーザに都合よく利用できる知識を超えたビデオ処理知識を要する。
以下のシステムおよび方法は、既存のビデオ編集ツールの以上の限界、およびその他の限界に対処する。
ビデオを自動的に編集するシステムおよび方法を説明する。一態様では、ビデオからサブショットが抽出される。抽出されたサブショットの少なくとも一部分に関して重要度(importance measure)が計算される。他のサブショットの重要度と比べて比較的高い重要度を有するサブショットに関するそれぞれの相対分布が特定される。特定された相対分布に基づき、特定のサブショットの中で他のサブショットに対して一様な分布を示さないサブショットがドロップされる。残っているサブショットは、それぞれショット遷移によって結合されて、ビデオ要約を構成する。サブショット境界を音楽ビートと揃え、サブショットの動きの激しさを音楽ムードとマッチさせることにより、独立の音楽源を付帯的な音楽として追加することもできる。
以下の詳細な説明は、添付の図を参照して述べられている。図では、符合の左端の数字が、その符号が最初に現れる図面(「図」)を特定する。
概要
独立の音楽源に関連して、または関連せずにビデオデータシーケンスを自動的に編集するためのシステムおよび方法を説明する。このシステムの入力は、2つのメディアファイル、すなわち、1つのビデオファイルと1つの音楽ファイルである。ビデオファイルは、ビデオチャネルおよび音声チャネルから成る。したがって、実際には、3つの入力データシーケンス、すなわち、ビデオと音声(ビデオファイルからの)、および別個の、または独立の音楽ファイルが存在する。音楽に関連してビデオファイルを自動的に編集するのに、ビデオファイルが、まず、シーン、ショット、およびサブショットに階層式に分割される。次いで、メタデータ特徴が各サブショットから抽出される。以下に説明するとおり、そのような抽出されたサブショットメタデータは、動きの激しさ、カメラの動きのパターン(camera motion pattern)、色エントロピー情報、および音声データ(例えば、ビデオデータなどの音声チャネルからの発話(speech)、非発話(non−speech)、文の境界)のあらゆる組合せを含むことが可能である。
次に、低品質のフレームシーケンス(例えば、劣悪な色エントロピー、異常な動き解析結果等を有するフレームシーケンス)が、抽出されたビデオのショット、サブショット、および/またはシーンから廃棄される。次に、それぞれの残っているサブショットの重要度が、抽出されたメタデータに基づいて計算される。計算された重要度に基づいて抽出された情報から入力ビデオデータシーケンスの要約が生成される。要約は、入力ビデオデータシーケンスから重要な概念を組み込み、入力シーケンスの低い重要度の態様および低品質の態様を濾過して取り除くように生成される。
入力音楽ファイルが、検出された強いビート位置または強いリズム位置に従ってクリップ、つまり「サブ音楽」にセグメント化される。それぞれのムード値が、サブ音楽に関して決められる。それぞれ音楽クリップのムードにおおむね相関するサブショットのいくつかが選択され、音楽クリップと揃えられて、融合される。出力は、音楽の強いビートで生じるサブショット遷移を伴い、ビデオの動きの激しさが、時間に関して音楽のリズムおよび計算されたムードとマッチさせられている自動編集されたビデオ要約である。さらに、自動編集されたビデオ要約の中の文が、カット(clip)されること、または別の形で融合された音楽によって聴き取れなくなることはない。
次のセクションは、音楽ファイルに関連してビデオデータを自動的に編集する例示的な動作環境、ビデオデータを編集するのに使用される例示的なコンピュータプログラム応用例およびプログラムデータ、ならびに専門用語および概念について概説し、また音楽に関連してビデオファイルを自動的に編集する例示的な手続きも提示する。
例示的な動作環境
同様の符号が同様の要素を指す図面を参照すると、本発明が、適切なコンピューティング環境において実施されているのが示されている。必須ではないが、本発明は、パーソナルコンピュータによって実行される、プログラムモジュールなどのコンピュータ実行可能命令の一般的な文脈で説明する。プログラムモジュールには、一般に、特定のタスクを行う、または特定の抽象データタイプを実装するルーチン、プログラム、オブジェクト、構成要素、データ構造等が含まれる。
図1は、音楽に関連してビデオファイルを自動的に編集する以下に説明するシステム、装置、および方法を実施することが可能な適切なコンピューティング環境120の例を示している。例示的なコンピューティング環境120は、適切なコンピューティング環境の一例に過ぎず、本明細書で説明するシステムおよび方法の使用および機能の範囲に関して何ら限定を示唆するものではない。また、コンピューティング環境120が、コンピューティング環境120内に示した構成要素のいずれか1つ、またはいずれかの組合せに関連する依存性または要件を有するものと解釈してはならない。
本明細書で説明する方法およびシステムは、多数の他の汎用、または特殊目的のコンピューティングシステム環境またはコンピューティングシステム構成で動作する。適切である可能性がある周知のコンピューティングシステム、コンピューティング環境、および/またはコンピューティング構成の例には、ハンドヘルドデバイス、マルチプロセッサシステム、マイクロプロセッサベースの家庭用電化製品、またはプログラマブル家庭用電化製品、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、可搬通信デバイス等が含まれるが、以上には限定されない。また、本発明は、通信網を介してリンクされた遠隔の処理デバイスによってタスクが行われる分散コンピューティング環境において実施することも可能である。分散コンピューティング環境では、プログラムモジュールは、ローカルのメモリ記憶デバイスと遠隔のメモリ記憶デバイスの中にともに配置することができる。
図1に示すとおり、コンピューティング環境120は、コンピュータ130の形態で汎用コンピューティングデバイスを含む。コンピュータ130の構成要素には、1つまたは複数のプロセッサまたは処理ユニット132、システムメモリ134、ならびにシステムメモリ134からプロセッサ132までを含む様々なシステム構成要素を結合するバス136が含まれることが可能である。
バス136は、様々なバスアーキテクチャのいずれかを使用するメモリバスまたはメモリコントローラ、周辺バス、アクセラレーテッドグラフィックスポート(accelerated graphics port)、およびプロセッサバスまたはローカルバスを含むいくつかのタイプのバス構造のいずれかの1つまたは複数を表わす。例として、限定としてではなく、そのようなアーキテクチャには、インダストリスタンダードアーキテクチャ(Industry Standard Architecture)(ISA)バス、マイクロチャネルアーキテクチャ(Micro Channel Architecture)(MCA)バス、エンハンストISA(Enhanced ISA)(EISA)バス、ビデオエレクトロニクススタンダーズアソシエーション(Video Electronics Standards Association)(VESA)ローカルバス、およびメザニン(Mezzanine)バスとしても知られるペリフェラルコンポーネントインターコネクツ(Peripheral Component Interconnects)(PCI)バスが含まれる。
コンピュータ130は、通常、様々なコンピュータ可読媒体を含む。そのような媒体は、コンピュータ130がアクセスすることができる任意の可用な媒体であることが可能であり、揮発性媒体と不揮発性媒体、取外し可能な媒体と取外し不可能な媒体がともに含まれる。図1で、システムメモリ134は、ランダムアクセスメモリ(RAM)140などの揮発性メモリ、および/または読取り専用メモリ(ROM)138などの不揮発性メモリの形態でコンピュータ可読媒体を含む。始動中など、コンピュータ130内部の要素間で情報を転送するのを助ける基本ルーチンを含む基本入力/出力システム(BIOS)142が、ROM138の中に記憶されている。RAM140は、通常、プロセッサ132によって即時にアクセスされることが可能であり、かつ/または現在、処理されているデータおよび/またはプログラムモジュールを含む。
コンピュータ130は、他の取外し可能な/取外し不可能な、揮発性/不揮発性のコンピュータ記憶媒体をさらに含むことが可能である。例えば、図1は、取外し不可能な不揮発性の磁気媒体(図示しておらず、通常、「ハードドライブ」と呼ばれる)に対して読取りおよび書込みを行うためのハードディスクドライブ144、取外し可能な不揮発性の磁気ディスク148(例えば、「フロッピー(登録商標)ディスク」)に対して読取りおよび書込みを行うための磁気ディスクドライブ146、およびCD−ROM/R/RW、DVD−ROM/R/RW/+R/RAMまたはその他の光媒体などの取外し可能な不揮発性の光ディスク152に対して読取りおよび書込みを行うための光ディスクドライブ150を示している。ハードディスクドライブ144、磁気ディスクドライブ146、および光ディスクドライブ150はそれぞれ、1つまたは複数のインターフェース154によってバス136に接続される。
以上のドライブおよび関連するコンピュータ可読媒体により、コンピュータ可読命令、データ構造、プログラムモジュール、およびその他のデータの不揮発性ストレージがコンピュータ130に提供される。本明細書で説明する例示的な環境は、ハードディスク、取外し可能な磁気ディスク148、および取外し可能な光ディスク152を使用しているが、磁気カセット、フラッシュメモリカード、デジタルビデオディスク、ランダムアクセスメモリ(RAM)、読取り専用メモリ(ROM)などのコンピュータによってアクセス可能なデータを記憶することができる他のタイプのコンピュータ可読媒体も例示的な動作環境において使用できることが、当分野の技術者には認められよう。
例えば、オペレーティングシステム158、1つまたは複数のアプリケーションプログラム160、他のプログラムモジュール162、およびプログラムデータ164を含め、いくつかのプログラムモジュールが、ハードディスク、磁気ディスク148、光ディスク152、ROM138、またはRAM140に記憶されていることが可能である。
音楽に関連してビデオデータを自動的に編集する本明細書で説明するシステムおよび方法は、動作システム158内部、1つまたは複数のアプリケーションプログラム160内部、他のプログラムモジュール162内部、および/またはプログラムデータ164内部で実施することができる。
ユーザは、キーボード166やポインティングデバイス168(「マウス」などの)入力デバイスを介してコンピュータ130にコマンドおよび情報を与えることができる。他の入力デバイス(図示せず)には、マイクロホン、ジョイスティック、ゲームパッド、サテライトディッシュ、シリアルポート、スキャナ、カメラ等が含まれることが可能である。以上の入力デバイスおよびその他の入力デバイスは、バス136に結合されたユーザ入力インターフェース170を介して処理ユニット132に接続されるが、パラレルポート、ゲームポート、またはユニバーサルシリアルバス(universal serial bus)(USB)などの他のインターフェースおよびバス構造によって接続してもよい。
また、モニタ172または他のタイプの表示デバイスも、ビデオアダプタ174などのインターフェースを介してバス136に接続される。モニタ172に加えて、パーソナルコンピュータは、通常、出力周辺インターフェース175を介して接続することができるスピーカやプリンタなどの他の周辺出力デバイス(図示せず)も含む。
コンピュータ130は、遠隔コンピュータ182のような1つまたは複数の遠隔コンピュータに対する論理接続を使用するネットワーク化された環境において動作することが可能である。遠隔コンピュータ182は、コンピュータ130に関連して本明細書で説明した要素および特徴の多く、またはすべてを含むことが可能である。図1に示した論理接続は、ローカルエリアネットワーク(LAN)177および汎用のワイドエリアネットワーク(WAN)179である。そのようなネットワーキング環境は、オフィス、企業全体のコンピュータ網、イントラネット、およびインターネットで一般的である。
LANネットワーキング環境で使用される場合、コンピュータ130は、ネットワークインターフェースまたはネットワークアダプタ186を介してLAN177に接続される。WANネットワーキング環境で使用される場合、コンピュータは、通常、WAN179を介して通信を確立するためのモデム178、またはその他の手段を含む。内部にあることも、外部にあることも可能なモデム178は、ユーザ入力インターフェース170またはその他の適切な機構を介してシステムバス136に接続することができる。
図1に描いているのは、インターネットによるWANの特定の実施形態である。この場合、コンピュータ130は、モデム178を使用してインターネット180を介して少なくとも1つの遠隔コンピュータ182と通信を確立する。
ネットワーク化された環境では、コンピュータ130に関連して描いたプログラムモジュール、またはプログラムモジュールの部分が、遠隔のメモリ記憶デバイスの中に記憶されることが可能である。したがって、図1に描いたとおり、遠隔のアプリケーションプログラム189は、遠隔コンピュータ182のメモリデバイス上に常駐することが可能である。図示し、説明するネットワーク接続は、例示的であり、コンピュータ間で通信リンクを確立する他の手段も使用できることが認められよう。
図2は、図1の例示的なコンピューティングデバイス120のアプリケーションプログラム160およびプログラムデータ164のさらなる例示的な態様を示すブロック図である。アプリケーションプログラムは、音楽に関連してビデオデータを自動的に編集するようにプログラムデータを操作し、かつ/または生成する。詳細には、システムメモリ134が、例えば、ビデオ編集モジュール202を含むいくつかのアプリケーションプログラムを含むのが示されている。ビデオ編集モジュールは、ビデオデータシーケンス204および音楽ファイル206を入力として受け取る。以上2つの入力204および206は、3つのタイプのデータ、すなわち、ビデオ、音声、および音楽(ビデオおよび音声は、入力ビデオデータシーケンスからである)を含む。
ビデオ編集モジュール202は、メタデータ抽出モジュール208を利用して入力ファイルから情報210〜214を抽出する。詳細には、メタデータ抽出モジュールは、ビデオ構造パース(video structure parsing)(すなわち、シーン、ショット、およびサブショットの抽出)、サブショット特徴抽出、文検出、およびビート/ムード検出を行う。(抽出されたサブショット特徴およびサブ音楽特徴のほとんどは、[0,1]に正規化される。)抽出モジュールは、コンテンツ選択モジュール216による抽出された情報の使用に先立って抽出された情報から低品質のサブショットを除去する。
コンテンツ選択モジュール216は、サブショットのそれぞれの重要度、ならびに音楽クリップのリズムおよびムードにマッチする特性に基づいてサブショットの特定のものを選択する(選択されたサブショットは、「他のデータ」224によって表される)。整列/融合(alignment/fusion)モジュール218が、いくつかの整列基準に基づいて選択されたサブショットを対応する音楽クリップと整列させる。次に、整列されたサブショットとクリップ、つまりサブ音楽が一緒に融合されて自動編集されたビデオ220が生成される。次に、プログラムアプリケーション160およびプログラムデータ164の以上の態様およびその他の態様のそれぞれをより詳細に説明する。
ビデオ構造パース
メタデータ抽出モジュール208は、ショット検出アルゴリズムを使用してビデオデータシーケンス204内のショット境界を検出する。説明のため、ビデオデータシーケンスvは、
シーン={シーン,0≦i<K(SC)} (1)
で表わされる一連のシーンから成る。同様に、ビデオvも、一連のショットおよびサブショットとして、すなわち、
ショット={ショット,0≦i<K(SH)} (2)
サブショット={サブショット,0≦i<K(SS)} (3)
として表わすことができ、ただし、K(SC)、K(SH)、およびK(SS)は、それぞれ、ビデオvの中のシーン(「SC」)、ショット(「SH」)、およびサブショット(「SS」)である。LB(x)、RB(x)、およびLen(x)を使用して、対応する要素xの左境界/右境界、および長さをそれぞれ表わす。K(SS)の代わりにNを使用する。というのは、K(SS)が、以下の数式で非常に頻繁に使用されるからである。
ビデオデータシーケンス204の構造をパースするため、メタデータ抽出モジュール208が、2つの異なる方向に関してデータシーケンスを解析する。第1の方向では、ビデオデータは、ショット、およびサブショットと呼ばれるより小さいセグメントに分割される。一実施形態では、これは、サブショットを特定するのにそれぞれが使用されるフレーム差分曲線(FDC)検出の最大頂または最大ピークを解析することによって達せられる。連続するビデオフレームの中のすべての対応するピクセルの輝度の差分を平均することによってフレーム差分が計算される。生のホームビデオの場合、ほとんどのショット境界は、ハードカット(hard cut)であり、ハードカットは、プロに編集されたビデオと比べて正しく検出するのがより容易である。
図3は、入力ビデオデータシーケンスに関して構造上の態様(例えば、サブショット間の境界)を検出するのにメタデータ抽出モジュール208によって使用される例示的なフレーム差分曲線(FDC)を示す表300である。この例では、3つのサブショット境界が明らかにされている。サブショット境界として適格であるには、FDC上のピークが、ある距離だけ、例えば、サブショットの少なくとも最小の長さだけショット境界から離れていなければならない。ショットにおけるピークが検出された場合、ショットは、そのピークの位置で2つに切断される。この時点で、それぞれサブショットの長さが最大サブショット長(サブショット整列に関連して以下により詳細に説明する)より長い場合、その2つのサブショットにおけるFDCの最大値が探し出され、各サブショットが、そのそれぞれの位置で分割される。このプロセスが、すべてのサブショットの長さが最大サブショット長より長くなくなるまで繰り返される。
メタデータ抽出モジュール208は、他の技術を使用してビデオデータシーケンス204の中のショットを特定することも可能である。例えば、一実施形態では、メタデータ抽出モジュールは、付録の参照文献[1](参照により本明細書に組み込まれている)に記載されるショット検出技術を利用する。別の実施形態では、メタデータ抽出モジュールは、本出願と同じ譲受人に譲渡され、参照により本明細書に組み込まれている2001年6月14日に出願された「ショット検出のための方法および装置(A Method and Apparatus for Shot Detection)」という名称の米国特許出願番号09/882,787に記載されるショット境界検出実施形態を利用する。
ショットおよびサブショットを検出することに続き、メタデータ抽出モジュール208は、第2の異なる方向に関してデータシーケンスを解析して検出されたショットをマージしてグループのショット、つまり「シーン」にする。例えば、付録の、参照により本明細書に組み込まれている参照文献[2]で説明されている力競争(force competition)によるビデオシーン抽出などの、文献において提示されている多数のシーングループ化方法が存在する。この実施形態では、類似度(similarity measure)によって決められた最も類似した隣接するシーン/ショットが、段階的に、より大きい単位に階層式にマージされる。類似度は、色調、彩度、および光度に関する、つまりHSV空間に関する平均され、量子化された色ヒストグラムの交差である。ショットがもはやマージされないポイント、つまり「停止条件」は、ショット類似度しきい値を設定することによって、または所望の数のシーンを決めることによって特定することができる。そのような停止条件は、主観的基準または客観的基準などの任意の数の異なる基準に基づいて手動で、または自動的に構成することができる。
サブショット特徴抽出
特定されたシーン、ショット、およびサブショット210から、メタデータ抽出モジュール208は、ビデオメタデータ212を抽出する。詳細には、サブショットに関して、重要度(「Impt」)、動きの激しさ、およびサブショットが属するシーン(「SC」)およびショット(「SH」)のIDを含め、いくつかの特徴が、サブショットのコンテンツおよび時間的位置に従って抽出される。これらの抽出される特徴は、次のとおり表わされる。
Impt={impt,0≦i<N} (4)
動き={動き,0≦i<N} (5)
SC={sc,0≦i<N},0≦sc<K(SC) (6)
SH={sh,0≦i<N},0≦sh<K(SH) (7)
抽出されるビデオメタデータ212には、例えば、色エントロピー、動きの激しさ、カメラの動きのタイプ/速度、および発話の任意の組合せがさらに含まれる。色エントロピーは、HSV空間における量子化された色ヒストグラム(サブショットにわたって平均された)のエントロピーである。一実施形態では、動きの激しさは、MPEGビデオにおけるBフレームおよびPフレームの動きベクトルの平均の長さを計算することによって得られる。動きの激しさは、動きベクトルフィールドを使用することによって、またより一般的なケースでは、いくつかの周知の技術のいずれかを使用して得ることができる。動きのタイプおよび速度は、いくつかの周知の技術のいずれかを使用して動きベクトルの方向から判定される。
発話/文検出
メタデータ抽出モジュール208は、入力ビデオデータシーケンス204の中の音声チャネルから発話を検出する。例えば、発話セグメントは、付録の参照文献[3](参照により組み込まれている)に記載される技術を使用して特定される。詳細には、そのような例示的な技術を使用して、検出された音声を発話または非発話(例えば、音楽セグメントまたは雑音セグメント)として分類する。
文は、以下のとおり表現される。
ST={st,0≦i<K(ST)} (8)
文の切れ目が、特定された発話セグメント間の相当に長い休止を探し出すことにより、特定された発話セグメントに関して検出され、これにより、文が特定される。
図4は、文のセグメント化の結果を表わす例示的な発話検出データ曲線を示す表400である。発話の中の検出された休止時間が、発話を文にセグメント化するのに使用される。発話データ曲線におけるピークが、休止時間に基づいて文がセグメント化された後、各文の平均エネルギーを表わす。
音楽のビートおよびムードの特定
メタデータ抽出モジュール208が、入力音楽206からの多数の特徴214をセグメント化し、特定する。詳細には、入力音楽ファイルが、相当に強いビートまたはリズムの場所に従って「サブ音楽」、つまりクリップにセグメント化される。「ムード」の特徴が、サブ音楽から特定される。
説明のため、以下の数学記号および数式を使用して、音楽のサブ音楽、ムード、およびビートを表わす。音楽m206のサブ音楽は、
サブ音楽={サブ音楽,0≦i<M} (9)
によって表わされ、Mは、以下に説明する重要度基準に基づいて選択されたいくつかのサブショットを表わす。それぞれの計算されたサブ音楽の対応するムードは、
ムード={ムード,0≦i<M} (10)
によって表わされる。各サブ音楽(最後のサブ音楽を除く)後のビートの強さは、
ビート={ビート,0≦i<M−1} (11)
によって表わされる。
音楽ビートは、いくつかの高度なアルゴリズムを使用して検出することができる。例えば、入力音楽206のビートは、付録の参照文献[4](参照により本明細書に組み込まれている)に記載されているアルゴリズムを使用して検出することができる。ただし、この実施形態では、メタデータ抽出モジュール208は、スライディングウインドウ(sliding window)におけるエネルギー変動の局所極大を探し出すことにより、ビートを検出する。(スライディングウインドウは、ある長さのウインドウである。スライディングウインドウは、重なり合いを伴って、または伴わずにデータシーケンスから一部分を選択するのに使用される。例えば、100秒間のデータシーケンスに対する5秒間を有するスライディングウインドウは、0〜5秒のセグメント、次に1〜6秒のセグメント、2〜7秒のセグメント、...95〜100秒のセグメントであることが可能である。)入力音楽206のムードは、サブ音楽におけるビート周波数から計算される。
図5は、音楽における検出された強いビートおよび強いムードを明らかにする例示的なデータ曲線を示す表である。各線分が、1つのサブ音楽を表わし、高さが、そのサブ音楽の「ムード」/強さを示す。
図6は、音楽206の入力データシーケンス、ビデオ204(1)の入力データシーケンス、および音声204(2)の入力データシーケンスの例示的な態様を示す表600である。詳細には、図6の音楽データシーケンス、ビデオデータシーケンス、および音声データシーケンスは、抽出されたビデオメタデータおよび音声メタデータ、ならびに特定された音楽クリップ、つまり「サブ音楽」に関して示されている。ビデオデータシーケンスと音声データシーケンスは、並列に(すなわち、同一のデータシーケンスの一部として)入力される。これは、組合せで、ビデオデータシーケンスと音声データシーケンスが、入力ビデオデータシーケンス204を表わすからである。
音楽206データセグメント、ビデオ204(1)データセグメント、および音声204(2)データセグメントは、互いに垂直に並べられて、特定された構造(例えば、シーン、ショット、サブショット/サブ音楽、および文の境界)に関するデータ関係を示している。例えば、表の水平軸は、入力データシーケンスの長さ、またはサイズを表わす。この例は、入力音楽セグメントを入力ビデオデータシーケンス(ビデオおよび音声)に比べて小さいものとして示しているが、入力音楽セグメントは、ビデオデータシーケンスより大きい、または時間が長いことも可能である。
入力データシーケンス成分に関して、音楽206は、相当に強いビートまたはリズムの場所に従って「サブ音楽」、つまりクリップにセグメント化されているものとして示されている。クリップのそれぞれは、音楽データ線に直交する線分で示されている。ビデオデータ204(1)は、ショットおよびサブショットにセグメント化されているのが示され、ショットとサブショットの隣接した組合せが、シーンを表わす。ショットおよびサブショットは、ビデオデータ線に垂直な対応する線分で特定されている。音声データ204(2)は、文を特定するように解析されているものとして示されている。文は、音声データ線のすぐ上に並べられた対応する線分で示すとおり、音声データ線に対して境界および長さを有するものとして示されている。
コンテンツ選択
この時点で、図2を参照すると、入力ビデオシーケンス204のビデオ構造210およびメタデータ212(例えば、動きの激しさ、色エントロピー、音声文/エネルギー等)の態様が、ビデオデータシーケンスから抽出されている。さらに、音楽クリップ、つまりサブ音楽、リズム、およびムードの特徴214が、入力音楽206から抽出されている。コンテンツ選択モジュール216は、それらの抽出され、計算された特徴210〜216を解析して、一連のサブショットを入力音楽206と整列させ、統合し、または融合して自動編集されたビデオ220を生成するために選択する。(整列および融合は、整列−融合プログラムモジュール218によって行われる)。自動編集されたビデオは、基本的に、入力音楽に関連して編集されている入力ビデオデータシーケンスの要約である。
コンテンツ選択モジュール216は、抽出されたビデオのショット、サブショット、および/またはシーン210から低品質のフレームシーケンス(例えば、劣悪な色エントロピー、異常な動き解析結果等を有するフレームシーケンス)を取り除く。例えば、相当に低い色エントロピーで特定された非常に暗いイメージ、または非常に明るいイメージ、および均質なイメージ(例えば、床または壁)が、特定されたサブショットから取り除かれる。非常に暗いイメージ、または非常に明るいイメージは、ビデオ露出パラメータがうまく設定されていない場合に生成される可能性がある。均質なイメージ(例えば、床または壁)は、誤った焦点設定によって生じさせられる可能性がある。
カメラの動きのタイプおよび速度を解析することにより、非常に高速なパン(pan)またはズームを表わすビデオセグメントが、検出され、取り除かれる。そのようなビデオセグメントは、マシンを停止させることなく視点を急速に変えることにより、または素早くズームインする/ズームアウトすることにより生じさせられる可能性がある。さらに、動き解析を使用して、検出されたビデオショットおよびビデオサブショットから激しく揺れ動くイメージを取り除く。この場合、7つのパラメータを使用してどこでカメラが揺れているかを特定する。7つのパラメータとは、グレー階調度、色ヒストグラム、順方向予測比(forward prediction ratio)A、非予測比B、動きベクトルの大きさ、動きベクトルの分散、および動きベクトルの方向ヒストグラムである。後の5つのパラメータはすべて、MPEGストリームの中のPフレームの動きベクトルフィールドに基づいて計算される。2つの比、AおよびBは、以下のとおり定義される。
Figure 2004159331
Figure 2004159331
一実施形態では、カメラ揺れ検出中、15フレームのサイズを有するスライディングウインドウが、以上のパラメータの統計値を計算するのに使用される。つまり、平均のグレー階調度、色ヒストグラム差、平均の順方向予測比A、平均の非予測比B、動きベクトルの平均の大きさ、動きベクトルの平均分散、および動きベクトルの優勢な方向である。以上の統計パラメータに基づき、次の2つのステップでカメラの動きを検出する。
1)平均Aが、しきい値および平均Bより低い場合、動きベクトルの平均の大きさ、および動きベクトルの平均分散は、それぞれ、しきい値よりも大きく、他方、現在のビデオクリップがカメラの揺れの候補である優勢なカメラの動きは全く存在しない。
2)平均のグレー階調度がより低い値を有し、色ヒストグラム差が当該のクリップにおいて高い場合、当該のクリップは、カメラが揺れているセグメント(camera shaking segment)であると確認される。
相対サブショット重要度を計算すること
抽出されたビデオ構造210から低品質のサブショットを取り除くことに続き、コンテンツ選択モジュール216は、それぞれの残っているサブショットに関する重要度を計算する。入力ビデオデータシーケンスの要約222が、計算された重要度に基づいて抽出された情報から生成される。要約は、入力シーケンスのより低い重要度の態様およびより低い品質の態様が既に濾過されて取り除かれており、入力ビデオデータシーケンスからの重要な概念を組み込むように生成される。
一実施形態では、抽出された/計算された色エントロピー、動きの激しさ、カメラの動きのタイプ/速度、および発話の特徴212が組み合わされて「重要度」が生成される。例えば、重要度は、以下に基づく。
impt=p色エントロピー+p動きの激しさ+pタイプ+p発話 (12)
ただし、
p1+p2+p3+p4=1、かつ
Figure 2004159331
p={p,1≦i<4}の値は、ユーザのバイアスに基づいて決められる。
図7は、例示的な色エントロピーのデータ曲線、動きの激しさのデータ曲線、および計算されたサブショット重要度のデータ曲線を示す表700であり、これらのデータ曲線に関する情報は、入力データシーケンスから抽出され、かつ/または計算されている。
この実施形態は、サブショット重要度を決める要因として色エントロピー、動きの激しさ、カメラの動きのタイプ/速度、および発話の組合せを利用するが、その他の技術を使用することも可能である。例えば、別の実施形態では、「総合的なユーザ注目モデルを生成するためのシステムおよび方法(Systems and Methods for Generating a Comprehensive User Attention Model)」という名称の米国特許出願(参照により組み込まれている)に記載される技術を使用して、サブショット重要度を決めることも可能である。
最適化ベースのサブショット選択
一実施形態では、コンテンツ選択モジュール216が、重要なサブショットを入力音楽206との整列および融合のために選択するための最適化ベースのサブショット選択動作を実施する。選択されたサブショット210は、計算されたサブ音楽ムード214とマッチさせられる。選択されたサブショットは、ビデオ要約222の中でショットを構成し、最終的にシーンを構成するその他の選択されたサブショット(まだ音楽と整列または融合させられていない)に対して一様に分布している。最適化ベースのサブショット選択動作を以下の制約、つまり数式に関連して説明する。
Θが、M個のサブショットを含む{0,1,2,...,N−1}というすべてのサブショット部分集合の集合を表わすものとすると、問題(例えば、全体のサブショットの集合から重要なサブショットを選択し、同時に、音楽を選択されたサブショットとマッチさせ、シーンレベルおよびショットレベルにおいて、選択されたサブショットの分布をほぼ正規分布にすること)は、以下のとおり表わされる。
最大化/最小化目的関数(m,v,θ)、ただし、θ∈Θ (15)
他のサブショットより高い相対重要度のサブショットを選択するのに、コンテンツ選択モジュール216は、サブショットの正規化された重要度を以下に従って測定する。
Figure 2004159331
サブショットを音楽ムードとマッチさせるのに、コンテンツ選択モジュール216は、選択されたサブショットの音楽ムードシーケンスと動きの激しさのシーケンスの相関係数を利用する。つまり、
Figure 2004159331
ただし、
Figure 2004159331
(便宜上、E(x)で表わすこともする)およびD(x)は、シーケンスxの平均および分散を表わし、上付き文字θは、対応するシーケンスが、元のシーケンスの選択されたサブシーケンスであることを意味する。すなわち、
−1≦ρ(m,v,θ)≦1 (18)
コンテンツ選択モジュール216は、正規化されたエントロピーを介して分布の一様性を表わし、正規化されたエントロピーは、シーンレベルでは、以下に基づく。
Figure 2004159331
ショットレベルにおける分布の一様性は、次のとおり表わされる。H(SH)(m,v,θ)=H(SH(θ))。したがって、分布の一様性の全体的な測度は、以下のとおりである。
H(m,v,θ)=k(SC)(m,v,θ)+k(SH)(m,v,θ)、ただし、k,k≧0,k+k=1 (20)
以上の公式において、
0≦H(m,v,θ)≦1 (21)
したがって、最適化ベースのサブショット選択を行うのに、以下を満たすθを特定する。
Figure 2004159331
すなわち、
−α≦F(m,v,θ)≦1 (23)
(26)で(ρ+1)/2をρで置き換えると、F(m,v,θ)を[0,1]に正規化することができる。以下に説明するとおり、以上の最適化ベースのサブショット選択アルゴリズムは、非線形0−1プログラミング問題としてさらに明確に書き換えることができる。
詳細には、部分集合θ∈Θを以下のとおり、N次元の0−1シーケンスxによって表わすこともできる。
Figure 2004159331
重要度I(m,v,θ)は、以下のとおり書き換えることができる。
Figure 2004159331
これは、線形関数である。
以上に鑑みて、サブショット分布の一様性の測度を以下のとおり、書き換えることができる。
Figure 2004159331
上式で、
Figure 2004159331
であり、上式で、|・|は、有限集合の中の要素の数を表わす。この測度は、非線形である。前述した最適化ベースのサブショット選択動作の「動き−ムード」マッチング測度も同様なやり方で書き換えることができ、これも、線形関数ではない。
したがって、最適化ベースのサブショット選択動作は、以下のとおり非線形の0−1整数プログラミング問題として書き直される。
Figure 2004159331
Θの中の要素の数、つまり可能な解空間のサイズは、以下のとおりである。
Figure 2004159331
NおよびMが大きい場合、この値は、指数関数さえよりも急速に増加する。これに鑑みて、最適化ベースのサブショット選択は、NP困難問題(すなわち、非決定論的多項式時間困難問題(Non−deterministic Polynomial−time hard problem))である。したがって、局所最適解を見つけるのに次元を減らすアルゴリズムおよび遺伝的アルゴリズムが使用される。
例えば、次元を減らすことに関して、MおよびNが大きい場合、探索空間は非常に大きい。ただし、MおよびNが十分に小さい場合、数式の複雑さは急速に減少する。これにより、この問題を網羅的な探索によって解決することができるより小さい下位問題に分けるように啓発される。妥当な方法は、ビデオの中のシーンの数に従って音楽をいくつかのセグメントに分割することであり、すると、目的関数が音楽の各セグメントに関して最適化される。シーン数は、コントロールされる。したがって、音楽の各セグメントに割り当てられるサブ音楽の数は、シーンに入るように制約される。各下位問題を解決した後、全体的な結果が、自動編集されたビデオ220である最終的な解である。
NP困難問題を解決するための一般的な探索法は、周知の遺伝的アルゴリズム手法であり、これは、多項式時間における大域最適解は保証しないが、十分に良好な解を提供する。遺伝的アルゴリズムを使用するため、2つの問題に対処する。1つは、解(ポピュレーション(population))の符号化法である。都合のよいことには、この問題は、0−1プログラミングであり、したがって、その0−1シーケンスを直接に可能な解の、すなわち、遺伝的アルゴリズムのポピュレーションの符号とする。
第2の問題は、どのように親の解から子の解を生成するかである。この問題に関して、容認できる解の近傍は、(24)に示した制約を満たさなければならない。したがって、次の方法を使用して単一の親による子の遺伝子を生成することができる。
0≦R<R<R<R<N (31)
によって表わされる(0,N)で4つの整数をランダムに生成する。「対立遺伝子」クリップ[R,R)および[R,R)が交換されて子の解(または「染色体」)が獲得される。遺伝的アルゴリズムは、最大回数の反復に達したとき、または所望の結果が達せられたときに停止される。
以上に鑑みて、3つの部分から成る最適化ベースのサブショット選択アルゴリズムの客観的な態様だけを単純化することができる。これは、制約のないプログラミング問題であることを想い起こされたい。この3つの部分には、サブショット重要度、サブショット/ムード相関、および分布の一様性の測度が含まれる。数式(28)、I(m,v,x)は、線形関数である。
ビデオの最も重要な部分だけを残しておくことを望む場合、I(m,v,x)を目的関数とする。すると、問題は、非常に特殊なものになり、行う必要があるのは、ビデオからM個の最も重要なサブショットを選ぶことだけである。ただし、この種の結果は、実質的に最適な解を与えない可能性がある。というのは、多数の同様なサブショットが選択される可能性があるからである。これに鑑みて、分布の一様性を使用して、選択されたサブショットの一様な分布が存在することを確実にする。つまり、以下の最適化問題を解決することによって付帯的な音楽を伴わないビデオ要約を自動的に生成することができる。
Figure 2004159331
ただし、Iは、重要度であり、Hは、分布の一様性の測度であり、Mは、選択されたサブショットの数である。
エントロピーは、非線形関数である。ただし、以下のとおり、エントロピーの代わりに平均偏差を使用して分布の一様性を測定する場合、
Figure 2004159331
測度は、区分的な線形の目的関数として書き直すことができる。つまり、
DN(m,v,x)=1−λ・MD(m,v,x) (34)
であり、ただし、λは、上式の第2項を間隔[0,1]に正規化するのに使用される係数である。MD(m,v,x)の最小値は、ゼロであり、
Figure 2004159331
である。したがって、λを以下のように選択する
Figure 2004159331
ショットレベルで、分布の一様性を同様なやり方で書き直すことができる。分布の一様性の測度を区分的関数に移すことにより、0−1プログラミングにおける前の探求結果を利用することができる。各シーンにある数の選択されたサブショットを割り当てることにより、分布の一様性の測度は、非常に低くはなくなる。したがって、相当に一様に分布してもいる十分に重要なサブショットを特定することができる。
数式32〜36で表現される以上の単純化は、選択されたサブショットを音楽とマッチさせない最適化ベースのビデオ要約/編集技術を介してビデオ要約222を生成するのに使用される。また、音楽マッチング以外のいくつかのさらなる制約を追加することを望む場合、それらの制約に従って所望の最適化結果が獲得される。
例えば、目的関数から相関係数を抽出して、制約として使用することができる。これにより、所与のホームビデオに対して最適にマッチする音楽を選択することができる。例えば、ビデオv、およびいくつかの異なる音楽ファイルm,m,...,mに対して最適化手続きを適用する。相関係数を最大の値、すなわち、m,=arg max ρ(m、v、θ)にする音楽が、そのビデオに対して最適にマッチする音楽である。さらに、3つの成分の1つまたは複数を強調する必要がある場合、その1つまたは複数を制約とすること、または数式(29)および(32)においてその1つまたは複数により大きい重みを与えることができる。
選択されたサブショットと音楽の整列および融合
整列/融合モジュール218は、選択されたサブショット(コンテンツ選択モジュール216によって選択された)と音楽を以下の整列基準に関して整列させる。すなわち、
出力ビデオにおけるサブショット遷移(これは、出力ビデオにおけるショット遷移である)が音楽のビートに対応するようにするサブショット境界と音楽ビートの整列の基準、
文がサブショット境界によって途中で切断されないようにするサブショット境界と文の整列の基準、および
コンテンツ選択モジュール216の最適化ベースのサブショット選択動作に関連して前述した音楽ムードを動きの激しさとマッチさせる整列基準である。
以上の整列基準を実施するため、整列−融合モジュール218が、サブショットの長さとサブ音楽の長さを編集して、それぞれの長さが実質的に同じであるようにする。(説明のため、最大の長さと最小の長さを以下の構文で表わす、LmaxおよびLmin)。この目的で、選択されたサブショットの長さが対応するサブ音楽より長い場合、サブショットは、等しい長さになるまで短くされる。反対に、サブショットの長さがサブ音楽より短い場合、サブショットは、同一のショットの中にある隣接するサブショットとマージされる。文の整列に関しては、文が1つのサブショットの中に含まれることを確実にするようにサブショット境界が移動される。文、および対応するサブショットが対応するサブ音楽より長い場合、文がフェードアウトされるか、または代替として、サブ音楽が、相当に類似したムードマッチを有する別のサブ音楽とマージされる。
オプションとして、前述したサブショット/文/サブ音楽整列動作を最適化することができる。整列後の目的関数値は、特定のサブショットに関する最適化ベースのサブショット選択手続き(コンテンツ選択モジュール216動作を参照されたい)における前に計算した値と比べて相当に変化している可能性がある。これは、説明した整列動作が、サブショットの対応する特徴を(例えば、サブショットを短くすること、またはマージすることによって)変化させる可能性があるためである。整列される前と整列された後のサブショットの特徴の差を考慮に入れるため、整列されたサブショットの特徴は、元の選択されたサブショットの特徴にできる限り実質的に近いところまで修正する。
例えば、サブショットは、長さが対応するサブ音楽、サブ音楽より長い選択されたサブショットであり、サブショットを切断する必要があるものと想定する。SSが、長さがLen(サブ音楽)に等しいサブショットのすべてのサブシーケンスを表わすものとする。すると、整列されたサブショットは、
Figure 2004159331
によって決定され、ただし、Impt(SS)および動き(SS)は、SSの重要度および動きの激しさをそれぞれ表わす。反対に、サブショットの長さがLen(サブ音楽)より短い場合、サブショットに隣接するサブショットをマージさせ、次に前述した手続きを行う。さらに、整列されたサブショットの特徴を使用して適合性を(自動編集されたビデオ220に組み込むためにサブショットを特定する、または選択するのに使用される遺伝的アルゴリズムにおける目的関数値)を計算することができ、これにより、整列によって生じさせられる誤差がさらに良好に小さくされることが可能である。
整列−融合モジュール218が、選択され、整列されたサブショット224と音楽206を融合し、または統合して自動編集されたビデオ220を生成する。これを実現するため、多数の異なるサブショット間遷移が使用される。2つのサブショット間の遷移のタイプは、以下のとおり記述されるその2つのショットの類似性に基づいて決定される。
シーンID=シーンIDi+1である場合、フェードアウトする/フェードインし、そうではなく、
シーンID≠シーンIDi+1である場合、その他のタイプからランダムに選択する
この実施形態では、それぞれのサブショット間で使用するために最大で15の異なるタイプの遷移から選択することができる。これらのサブショット遷移は、選択され、整列されたサブショット224を音楽206と融合して自動編集されたビデオファイル220にするマイクロソフトコーポレーションのDirectX(登録商標)によって提供される。
2つのそれぞれのサブショット間の遷移の長さは、対応するサブ音楽224のビートの強さによって決まり、以下の数式(38)によって記述される。
遷移の長さ=1−ビート (38)
ただし、0≦i<M−1である。ビデオ/音楽のより多くの特徴、およびユーザのバイアスを考慮に入れることによってより複雑な遷移選択法を設計することができる。
代替の実施形態−規則ベースのサブショット選択
例えば、次元を減らすこと、および遺伝的アルゴリズムを使用することによって前述した最適化ベースのサブショット選択の数式を解決する代わりに、他の基準を使用して、サブショットを後に入力音楽206と整列させるために選択することができる。
例えば、コンテンツ選択モジュール210は、いくつかの規則ベースの基準を使用して音楽206をMSSで表わされるK(SC)個のセグメントに分割することができる。これらのセグメントは、前述した音楽クリップまたはサブ音楽には対応しない。各セグメントの長さは、以下によって定義されるシーンの平均サブショット重要度によって決まる。
Figure 2004159331
次に、コンテンツ選択モジュールは、音楽セグメントに対して各シーン、シーンからサブショットを選択し、シーンから選択されるサブショットの数は、MSSの中のサブ音楽の数に等しい。
このようにして、一度に音楽の1つのセグメントと1つのビデオシーンだけを考慮するだけでよい。また、シーンに関しては、選択がショットに関して行われるようにプロセスを繰り返すことができる。シーンの中のショットの数が割り当てられたサブショット数より多い場合、最も重要度の低いショットがドロップされる。その後、各ショットから1つの最も重要なサブショットが選択され、音楽との関連で互いに結合される。
音楽に関連してビデオを自動的に編集する手続き
図8は、独立の音楽源に関連してビデオを自動的に編集する例示的な手続き800を示す流れ図である。説明のため、この手続きの動作を図2のコンピュータプログラムアプリケーション160およびプログラムデータ164に関連して説明する。ブロック802で、メタデータ抽出モデルが、入力ビデオデータシーケンス204からメタデータ(ショット、サブショット、シーン、動きの激しさ、カメラ注目(camera attention)等)を抽出し、かつ/または計算する。ブロック804で、メタデータ抽出モデルは、独立の音楽源206からメタデータ(サブ音楽、リズム、ムード等)を抽出し、かつ/または計算する。
ブロック806で、コンテンツ選択モジュール216が、抽出されたビデオ構造210から低品質のサブショットを取り除く。ブロック808で、コンテンツ選択モジュールは、残っているサブショットのそれぞれの重要度を計算する。ブロック802で、コンテンツ選択モジュールは、少なくともある程度、サブブロックの動きの激しさ(抽出されたビデオメタデータ212の一部)を計算されたサブ音楽ムード(抽出された音楽特徴214の一部)とマッチさせることに基づき、入力ビデオデータ204の要約222を表わすサブショットを選択する。図2の例では、選択されたサブショットは、「その他のデータ」224によって表わされている。
ブロック812で、整列/融合モジュール218が、前述したとおり、いくつかの整列基準に従って選択されたサブショットをサブ音楽と整列させる。ブロック814で、整列/融合モジュールが、整列されたサブショットをサブ音楽と融合して自動編集されたビデオ220を生成する。
結論
前述したシステムおよび方法は、入力音楽に関連して入力ビデオデータシーケンスを自動的に編集する。このシステムおよび方法を構造上の特徴および方法上の動作に特有の言葉遣いで説明してきたが、頭記の特許請求の範囲で定義する主題は、説明した特定の特徴および動作に必ずしも限定されない。むしろ、特定の特徴および動作は、請求の主題を実施する例示的な形態として開示している。
音楽に関連してビデオデータを自動的に編集するシステムおよび方法を実施することが可能な例示的なコンピューティング環境を示すブロック図である。 図1のコンピューティング環境において特定された、音楽に関連してビデオデータを自動的に編集するコンピュータプログラムアプリケーションを表わす例示的なアプリケーションプログラム、および自動ビデオ編集プロセス中にその例示的なアプリケーションプログラムによって操作され、生成されるデータを表わす例示的なプログラムデータのさらなる態様を示すブロック図である。 例えば、サブショット境界を含む入力ビデオデータシーケンスの構造上の態様を検出するのに使用される抽出されたビデオメタデータ(フレーム差分)を表わす例示的なフレーム差分曲線(FDC)を示す表の図である。 シーケンスセグメント化操作の結果を表わす例示的な速度検出データ曲線を示す表の図である。 入力音楽ファイルからの音楽クリップ、つまり「サブ音楽(submusic)」に関して強いビートおよび強いムードを検出するのに使用される例示的な抽出された音楽メタデータを示す表の図である。 特に、入力ビデオシーケンスから抽出されたメタデータ(ビデオおよび音声)、および入力音楽ファイルから抽出された音楽メタデータ(音楽クリップ、つまり「サブ音楽」)に関して示した音楽データシーケンス、ビデオデータシーケンス、および音声データシーケンスの例示的な態様を示す表の図である。 特に、色エントロピー、動きの激しさ、および計算されたサブショット重要度データ値を互いとの関係で示した抽出されたビデオメタデータに関する例示的な値を示す表の図である。 独立の音楽源に関連してビデオを自動的に編集する例示的な手続き800を示す流れ図である。
符号の説明
134 システムメモリ
160 アプリケーションプログラム
164 プログラムデータ
202 ビデオ編集モジュール
204 ビデオデータシーケンス
206 音楽
208 メタデータ抽出モジュール
210 シーン、ショット、サブショット
212 抽出されたビデオメタデータ
214 抽出された音楽の特徴
216 コンテンツ選択モジュール
218 整列−融合モジュール
220 自動編集されたビデオ
222 入力ビデオデータの要約
224 データ
226 他のモジュール
(付録−参照文献)
[1]D. Zhang、W. Qi、H. J. Zhang、「新しいショット検出アルゴリズム」、マルチメディアに関する第2回IEEE環太平洋地域会議(2nd IEEE Pacific-Rim Conf on Multimedia)(PCM2001)、63〜70ページ、中国、北京、2001年10月
[2]T. Lin、H. J. Zhang、「力競争によるビデオシーン抽出」、マルチメディアに関するIEEE国際会議および展示会(IEEE Intl Conf on Multimedia and Expo)(ICME001)日本、東京、早稲田大学、2001年8月22〜25日
[3]L. Lu、H. Jiang、H. J. Zhang、「堅牢な音声分類およびセグメント化の方法」、第9回マルチメディア(9th ACM Multimedia)、203〜211ページ、2001年
[4]Eric D. Scheirer、「音響音楽信号のテンポおよびビートの解析」、米国音響学会ジャーナル(Journal of Acoustical Society of America)、103 (1):588〜601ページ、1998年

Claims (54)

  1. ビデオデータシーケンスを自動的に編集してビデオ要約を生成するための方法であって、
    前記ビデオデータシーケンスからサブショットを抽出する動作と、
    前記サブショットの少なくとも一部分に関する重要度を計算する動作と、
    その他のサブショットの重要度と比べて相対的により高い重要度を有する前記一部分の特定のサブショットを割り出す動作と、
    前記特定のサブショットのなかの各サブショットの相対分布を特定する動作と、
    前記特定のサブショットの各サブショットの相対分布に基づき、前記特定のサブショットのなかでその他のサブショットに対して一様な分布を有さないサブショットを前記特定のサブショットからドロップする動作と、
    前記特定のサブショットのなかの残っているサブショットをそれぞれのショット遷移と結合して前記ビデオ要約を生成する動作とを含むことを特徴とする方法。
  2. 前記サブショットの前記一部分は、前記サブショットの相当に高い方の品質のサブショットから成ることを特徴とする請求項1に記載の方法。
  3. 前記割り出す動作と、前記特定する動作と、前記ドロップする動作は、以下の最適化
    Figure 2004159331
    に基づくものであり、ここで、Iは、重要度であり、Hは、分布の一様性の測度であり、Mは、選択されたサブショットの数であることを特徴とする請求項1に記載の方法。
  4. ビデオデータシーケンスを自動的に編集してビデオ要約を生成するためのコンピュータプログラム命令を含むコンピュータ可読媒体であって、
    前記コンピュータプログラム命令は、
    前記ビデオデータシーケンスからサブショットを抽出する動作、
    前記サブショットの少なくとも一部分に関する重要度を計算する動作、
    その他のサブショットの重要度と比べて相対的により高い重要度を有する前記一部分の特定のサブショットを割り出す動作、
    前記特定のサブショットのなかの各サブショットの相対分布を特定する動作、
    前記特定のサブショットの各サブショットの相対分布に基づき、前記特定のサブショットのなかでその他のサブショットに対して一様な分布を有さないサブショットを前記特定のサブショットからドロップする動作、および
    前記特定のサブショットのなかの残っているサブショットをそれぞれのショット遷移と結合して前記ビデオ要約を生成する動作のためにプロセッサによって実行可能であることを特徴とする媒体。
  5. 前記サブショットの前記一部分は、前記サブショットの相当に高い方の品質のサブショットから成ることを特徴とする請求項4に記載のコンピュータ可読媒体。
  6. 前記割り出すためのコンピュータプログラム命令、前記特定するためのコンピュータプログラム命令、および前記ドロップするためのコンピュータプログラム命令は、以下の最適化
    Figure 2004159331
    に基づくものであり、ここで、Iは、重要度であり、Hは、分布の一様性の測度であり、Mは、選択されたサブショットの数であることを特徴とする請求項4に記載のコンピュータ可読媒体。
  7. ビデオデータシーケンスを自動的に編集してビデオ要約を生成するためのコンピューティングデバイスであって、
    プロセッサと、
    前記プロセッサに結合されたメモリであって、
    前記ビデオデータシーケンスからサブショットを抽出する動作、
    前記サブショットの少なくとも一部分に関する重要度を計算する動作、
    その他のサブショットの重要度と比べて相対的により高い重要度を有する前記一部分の特定のサブショットを割り出す動作、
    前記特定のサブショットのなかの各サブショットの相対分布を特定する動作、
    前記特定のサブショットの各サブショットの相対分布に基づき、前記特定のサブショットのなかでその他のサブショットに対して一様な分布を有さないサブショットを前記特定のサブショットからドロップする動作、および
    前記特定のサブショットのなかの残っているサブショットをそれぞれのショット遷移と結合して前記ビデオ要約を生成する動作のためにプロセッサによって実行可能であるコンピュータプログラム命令を含むメモリとを含むことを特徴とするコンピューティングデバイス。
  8. 前記サブショットの前記一部分は、前記サブショットの相当に高い方の品質のサブショットから成ることを特徴とする請求項7に記載のコンピューティングデバイス。
  9. 前記割り出すための命令、前記特定するための命令、および前記ドロップするための命令は、以下の最適化
    Figure 2004159331
    に基づくものであり、ここで、Iは、重要度であり、Hは、分布の一様性の測度であり、Mは、選択されたサブショットの数であることを特徴とする請求項7に記載のコンピューティングデバイス。
  10. 独立の音楽源に関連してビデオデータシーケンスを自動的に編集するための方法であって、
    サブショットおよびサブ音楽を含むメタデータを前記ビデオデータシーケンスおよび前記独立の音楽源から抽出する動作と、
    前記サブショットの少なくとも一部分に関する重要度を計算する動作と、
    その他のサブショットの重要度と比べて比較的高い重要度を有する前記一部分の特定のサブショットを割り出す動作と、
    前記サブ音楽のそれぞれに関するそれぞれのムードを割り出す動作と、
    サブショットの動きの激しさをサブ音楽のムードにマッチさせて前記サブショットの特定のサブショットを割り出す動作と、
    前記特定のサブショットを対応するサブ音楽と整列させる動作と、
    整列されたサブショットを対応するサブ音楽と融合して自動編集されたビデオを生成する動作とを含むことを特徴とする方法。
  11. 前記抽出する動作は、フレーム差分曲線を生成して前記ビデオデータシーケンスの中のサブショットを割り出す動作をさらに含むことを特徴とする請求項10に記載の方法。
  12. 前記抽出する動作は、
    前記ビデオデータシーケンスを第1の方向で解析してショットおよびサブショットを割り出す動作と、
    前記ビデオデータシーケンスを第2の方向で解析して検出されたショットおよびサブショットをマージして1つまたは複数のシーンにする動作とをさらに含むことを特徴とする請求項10に記載の方法。
  13. 前記整列させる動作は、サブショット境界と音楽ビートの整列の基準、サブショット境界と文の整列の基準、および音楽ムードを動きの激しさとマッチさせる整列の基準に基づくことを特徴とする請求項10に記載の方法。
  14. 前記抽出する動作は、
    ショット、シーン、サブショットに関する動きの激しさおよび色エントロピー、ならびに前記ビデオデータシーケンスの音声チャネルからの発話データを割り出す動作と、
    前記発話データから文の境界を検出する動作と、
    前記独立の音楽源をそれぞれビートの位置に従って前記サブ音楽にセグメント化する動作とをさらに含むことを特徴とする請求項10に記載の方法。
  15. 前記サブショットから低品質のサブショットをドロップして相当に高い方の品質のサブショットを残す動作と、
    前記相当に高い方の品質のサブショットに関する重要度を計算する動作と、
    前記サブ音楽に関するムード値を計算する動作とを抽出する動作の後、マッチさせる動作の前にさらに含み、前記サブショットの特定のサブショットを前記サブ音楽にマッチさせる動作は、前記重要度にさらに基づき、前記特定のサブショットが、前記特定のサブショットの中で代表されないサブショットの重要度と比べて比較的高い重要度を有するサブショットであるように選択されるようにすることを特徴とする請求項10に記載の方法。
  16. 前記整列させる動作は、1つまたは複数のサブショットの長さを変更して対応するサブショットの長さと対応するサブ音楽の長さが実質的に同じであるようにする動作をさらに含むことを特徴とする請求項10に記載の方法。
  17. 前記整列させる動作が、前記特定のサブショットの1つまたは複数のサブショットの中で検出された始まりと終りを有する文がカットされないように行われることを特徴とする請求項10に記載の方法。
  18. 前記融合させる動作が、整列されたサブショットの中の文が対応するサブ音楽との関係で聴き取れなくされないように行われることを特徴とする請求項10に記載の方法。
  19. 前記ビデオデータシーケンスは、ビデオフレームを含む方法であって、
    前記ビデオフレームおよび/または前記サブショットの視覚上の品質を検出する動作と、
    低品質のビデオフレームおよび/または低品質のサブショットをドロップして相当に高い方の品質のフレームおよび/またはサブショットを残す動作とを抽出する動作の後、マッチさせる動作の前にさらに含むことを特徴とする請求項10に記載の方法。
  20. 前記ドロップされるフレームおよび/またはドロップされるサブショットは、ドロップされるフレームシーケンスおよび/またはドロップされるサブショットシーケンスを含み、低品質のフレームおよび/または低品質のサブショットは、劣悪な色エントロピー、および異常な動き解析結果の属性の任意の組合せに対応することを特徴とする請求項19に記載の方法。
  21. 独立の音楽源に関連してビデオデータシーケンスを編集するためのコンピュータ実行可能命令を含むコンピュータ可読媒体であって、
    前記コンピュータ実行可能命令は、
    サブショットおよびサブ音楽を含むメタデータを前記ビデオデータシーケンスおよび前記独立の音楽源から抽出するための命令と、
    前記サブショットの少なくとも一部分に関する重要度を計算するための命令と、
    その他のサブショットの重要度と比べて比較的高い重要度を有する前記一部分の特定のサブショットを割り出すための命令と、
    前記サブ音楽のそれぞれに関するそれぞれのムードを割り出すための命令と、
    それぞれサブショットの動きの激しさを前記それぞれムードにマッチさせて、前記独立の音楽源と整列させ、融合させる前記サブショットの特定のサブショットを割り出すための命令と、
    前記特定のサブショットを対応するサブ音楽と整列させるための命令と、
    整列されたサブショットを対応するサブ音楽と融合して自動編集されたビデオを生成するための命令を含むことを特徴とするコンピュータ可読媒体。
  22. 前記抽出するための命令は、検出されたショットおよびサブショットをマージして1つまたは複数のシーンにするためのコンピュータプログラム命令をさらに含むことを特徴とする請求項21に記載のコンピュータ可読媒体。
  23. 前記コンピュータプログラム命令は、前記抽出するための命令の後、前記マッチさせる命令の前、前記サブショットから低品質のサブショットをドロップして相当に高い方の品質のサブショットを残すための命令をさらに含むことを特徴とする請求項21に記載のコンピュータ可読媒体。
  24. 前記整列させる動作は、サブショット境界と音楽ビートの整列の基準、サブショット境界と文の整列の基準、および音楽ムードを動きの激しさとマッチさせる整列の基準に基づくことを特徴とする請求項21に記載のコンピュータ可読媒体。
  25. 前記整列させるための命令は、対応するサブショットの長さと対応するサブ音楽の長さが実質的に同じになるように1つまたは複数のサブショットの長さを変更するための命令をさらに含むことを特徴とする請求項21に記載のコンピュータ可読媒体。
  26. 前記整列させる動作が、前記特定のサブショットの1つまたは複数のサブショットの中で検出された始まりと終りを有する文がカットされないように行われることを特徴とする請求項21に記載のコンピュータ可読媒体。
  27. 前記マッチさせるための命令は、前記それぞれのムードを
    Figure 2004159331
    に従って特定するための命令をさらに含み、ただし、E(x)およびD(x)はそれぞれ、シーケンスxの平均値および分散値を表わし、上付き文字θは、元のシーケンスの選択されたサブシーケンスを含む対応するシーケンスを表わすことを特徴とする請求項21に記載のコンピュータ可読媒体。
  28. 前記マッチさせるための命令は、分散の一様性を測定するのにエントロピーではなく平均偏差の使用を介して前記特定のサブショットを選択するための命令をさらに含むことを特徴とする請求項21に記載のコンピュータ可読媒体。
  29. 前記マッチさせるための命令は、前記特定のサブショットが、
    Figure 2004159331
    に従って一様に分布するように前記特定のサブショットを選択するための命令をさらに含み、
    ただし、
    Figure 2004159331
    ただし、|・|は、有限集合の中の要素の数を表わすことを特徴とする請求項21に記載のコンピュータ可読媒体。
  30. 前記マッチさせるための命令は、
    Figure 2004159331
    に従って前記特定のサブショットを選択するための命令をさらに含むことを特徴とする請求項21に記載のコンピュータ可読媒体。
  31. 前記マッチさせるための命令は、
    前記サブショットの少なくとも一部分に関して、対応するサブショット色エントロピー、およびカメラの動きのタイプおよび速度にそれぞれが基づくそれぞれの重要度を計算するための命令をさらに含み、前記特定のサブショットは、前記特定のサブショットの1つではないサブショットと比べてそれぞれより高い重要度値を有することを特徴とする請求項21に記載のコンピュータ可読媒体。
  32. 前記それぞれの重要度は、前記対応するサブショットの中で発話が検出されたかどうかにさらに基づくことを特徴とする請求項31に記載のコンピュータ可読媒体。
  33. 前記融合するための命令は、前記特定のサブショットの2つの間の、前記2つの類似性に基づき、長さを有する遷移を生成する動作をさらに含むことを特徴とする請求項21に記載のコンピュータ可読媒体。
  34. 前記長さは、前記サブ音楽の対応するサブ音楽の中のビートの強さに基づくことを特徴とする請求項33に記載のコンピュータ可読媒体。
  35. 前記ビデオデータシーケンスは、ビデオフレームを含み、前記方法は、
    前記ビデオフレームおよび/または前記サブショットの視覚上の品質を検出する動作と、
    低品質のビデオフレームおよび/または低品質のサブショットをドロップして相当に高い方の品質のビデオフレームおよび/またはサブショットを残す動作とを抽出する動作の後、マッチさせる動作の前にさらに含むことを特徴とする請求項21に記載のコンピュータ可読媒体。
  36. 前記ドロップされるフレームおよび/またはドロップされるサブショットは、ドロップされるフレームシーケンスおよび/またはドロップされるサブショットシーケンスを含み、低品質のフレームおよび/または低品質のサブショットは、劣悪な色エントロピー、および異常な動き解析結果の属性の任意の組合せに対応することを特徴とする請求項35に記載のコンピュータ可読媒体。
  37. 前記マッチさせるための命令は、前記特定のサブショットが、前記特定のサブショットの複数のサブショットから成るシーンおよび/またはショットにわたって一様に分布するように前記特定のサブショットを選択するための命令をさらに含むことを特徴とする請求項21に記載のコンピュータ可読媒体。
  38. 前記特定のサブショットが、前記シーンにわたって一様に分布するように前記特定のサブショットを選択するための前記命令は、
    Figure 2004159331
    に基づくことを特徴とする請求項37に記載のコンピュータ可読媒体。
  39. 前記特定のサブショットが、前記ショットにわたって一様に分布するように前記特定のサブショットを選択するための前記命令は、
    (SH)(m,v,θ)=H(SH(θ)
    に基づくことを特徴とする請求項37に記載のコンピュータ可読媒体。
  40. 独立の音楽源に関連してビデオデータシーケンスを編集するためのコンピューティングデバイスであって、
    プロセッサと、
    前記プロセッサに結合されたメモリであって、
    サブショットおよびサブ音楽を含むメタデータを前記ビデオデータシーケンスおよび前記独立の音楽源から抽出する動作、
    前記サブショットの少なくとも一部分に関する重要度を計算する動作、
    その他のサブショットの重要度と比べて比較的高い重要度を有する前記一部分の特定のサブショットを割り出す動作、
    それぞれサブ音楽ビートに基づいて前記サブ音楽のそれぞれに関するそれぞれのムードを計算する動作、
    それぞれのサブショットの動きの激しさを前記それぞれのムードにマッチさせて、前記独立の音楽源と整列させて融合する前記サブショットの特定のサブショットを割り出す動作、
    前記特定のサブショットを対応するサブ音楽と整列させて、前記特定のサブショットが、前記特定のサブショットによって代表されるショットおよび/またはシーンにわたって一様に分布するようにする動作、および
    整列されたサブショットを対応するサブ音楽と融合して自動編集されたビデオを生成する動作のために前記プロセッサによって実行可能なコンピュータプログラム命令を含むメモリとを含むことを特徴とするコンピューティングデバイス。
  41. 整列させる動作は、サブショット境界と音楽ビートの整列の基準、サブショット境界と文の整列の基準、および音楽ムードを動きの激しさとマッチさせる整列の基準に基づくことを特徴とする請求項40に記載のコンピューティングデバイス。
  42. 前記整列させるための命令は、検出された文をカットせずに、対応するサブショットの長さと対応するサブ音楽の長さが実質的に同じになるように1つまたは複数のサブショットの長さを変更するための命令をさらに含むことを特徴とする請求項40に記載のコンピューティングデバイス。
  43. 前記マッチさせるための命令は、前記それぞれのムードを
    Figure 2004159331
    に従って特定するための命令をさらに含み、ただし、E(x)およびD(x)はそれぞれ、シーケンスxの平均値および分散値を表わし、上付き文字θは、元のシーケンスの選択されたサブシーケンスを含む対応するシーケンスを表わすことを特徴とする請求項40に記載のコンピューティングデバイス。
  44. 前記マッチさせるための命令は、分散の一様性を測定するのにエントロピーではなく平均偏差の使用を介して前記特定のサブショットを選択するための命令をさらに含むことを特徴とする請求項40に記載のコンピューティングデバイス。
  45. 前記マッチさせるための命令は、
    Figure 2004159331
    に従って前記特定のサブショットを選択するための命令をさらに含むことを特徴とする請求項40に記載のコンピューティングデバイス。
  46. 前記マッチさせるための命令は、
    前記サブショットの少なくとも一部分に関して、対応するサブショット色エントロピー、およびカメラの動きのタイプおよび速度にそれぞれが基づくそれぞれの重要度を計算するための命令をさらに含み、前記特定のサブショットは、前記特定のサブショットの1つではないサブショットと比べてそれぞれより高い重要度値を有することを特徴とする請求項40に記載のコンピューティングデバイス。
  47. 前記それぞれの重要度は、前記対応するサブショットの中で発話が検出されたかどうかにさらに基づくことを特徴とする請求項46に記載のコンピューティングデバイス。
  48. 前記融合するための命令は、前記特定のサブショットの2つの間の、前記2つの類似性に基づき、長さを有する遷移を生成する動作をさらに含むことを特徴とする請求項40に記載のコンピューティングデバイス。
  49. 前記長さは、前記サブ音楽の対応するサブ音楽の中のビートの強さに基づくことを特徴とする請求項48に記載のコンピューティングデバイス。
  50. 前記マッチさせるための命令は、前記特定のサブショットが、前記特定のサブショットの複数のサブショットから成るシーンおよび/またはショットにわたって一様に分布するように前記特定のサブショットを選択するための命令をさらに含むことを特徴とする請求項40に記載のコンピューティングデバイス。
  51. 前記特定のサブショットが、前記ショットにわたって一様に分布するように前記特定のサブショットを選択するための前記命令は、以下の数式
    (SH)(m,v,θ)=H(SH(θ)
    に基づくことを特徴とする請求項50に記載のコンピューティングデバイス。
  52. 前記ビデオデータシーケンスは、ビデオフレームを含み、前記コンピュータプログラム命令は、
    前記ビデオフレームおよび/または前記サブショットの視覚上の品質を検出するための命令と、
    低品質のビデオフレームおよび/または低品質のサブショットをドロップして相当に高い方の品質のビデオフレームおよび/またはサブショットを残すための命令とを抽出する動作の後、マッチさせる動作の前にさらに含むことを特徴とする請求項40に記載のコンピューティングデバイス。
  53. 前記ドロップされるフレームおよび/またはドロップされるサブショットは、ドロップされるフレームシーケンスおよび/またはドロップされるサブショットシーケンスを含み、低品質のフレームおよび/または低品質のサブショットは、劣悪な色エントロピー、および異常な動き解析結果の属性の任意の組合せに対応することを特徴とする請求項52に記載のコンピューティングデバイス。
  54. 独立の音楽源に関連してビデオデータシーケンスを編集するためのコンピューティングデバイスであって、
    サブショットおよびサブ音楽を含むメタデータを前記ビデオデータシーケンスおよび前記独立の音楽源から抽出するための手段と、
    前記サブショットの少なくとも一部分に関する重要度を計算するための手段と、
    その他のサブショットの重要度と比べて比較的高い重要度を有する前記一部分の特定のサブショットを割り出すための手段と、
    それぞれサブ音楽ビートに基づいて前記サブ音楽のそれぞれに関するそれぞれのムードを計算するための手段と、
    それぞれのサブショットの動きの激しさを前記それぞれのムードにマッチさせて、前記独立の音楽源と整列させて融合する前記サブショットの特定のサブショットを割り出すための手段と、
    前記特定のサブショットを対応するサブ音楽と整列させて、前記特定のサブショットが、前記特定のサブショットによって代表されるショットおよび/またはシーンにわたって一様に分布するようにするための手段と、
    整列されたサブショットを対応するサブ音楽と融合して自動編集されたビデオを生成するための手段とを含むことを特徴とするコンピューティングデバイス。
JP2003375014A 2002-11-01 2003-11-04 ビデオを自動的に編集するためのシステムおよび方法 Expired - Fee Related JP4334977B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/286,348 US7127120B2 (en) 2002-11-01 2002-11-01 Systems and methods for automatically editing a video

Publications (3)

Publication Number Publication Date
JP2004159331A true JP2004159331A (ja) 2004-06-03
JP2004159331A5 JP2004159331A5 (ja) 2006-12-21
JP4334977B2 JP4334977B2 (ja) 2009-09-30

Family

ID=32093580

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003375014A Expired - Fee Related JP4334977B2 (ja) 2002-11-01 2003-11-04 ビデオを自動的に編集するためのシステムおよび方法

Country Status (3)

Country Link
US (1) US7127120B2 (ja)
EP (1) EP1416490B1 (ja)
JP (1) JP4334977B2 (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007135905A1 (ja) * 2006-05-18 2007-11-29 Pioneer Corporation データ処理装置、その方法、そのプログラム、および、そのプログラムを記録した記録媒体
JP2009088836A (ja) * 2007-09-28 2009-04-23 Panasonic Corp コンテンツ撮影装置
WO2009116582A1 (ja) * 2008-03-19 2009-09-24 国立大学法人 北海道大学 動画検索装置および動画検索プログラム
US8577210B2 (en) 2009-07-29 2013-11-05 Sony Corporation Image editing apparatus, image editing method and program
JP2014033417A (ja) * 2012-08-06 2014-02-20 Nippon Hoso Kyokai <Nhk> 映像処理装置及びプログラム
US8731302B2 (en) 2009-07-29 2014-05-20 Sony Corporation Moving image extracting apparatus, program and moving image extracting method
US9210428B2 (en) 2009-07-31 2015-12-08 Sony Corporation Apparatus and method of adaptive block filtering of target slice
WO2016098430A1 (ja) * 2014-12-15 2016-06-23 ソニー株式会社 情報処理方法、映像処理装置及びプログラム
US9712821B2 (en) 2009-07-31 2017-07-18 Sony Corporation Image processing apparatus and method
WO2021085105A1 (ja) * 2019-10-28 2021-05-06 ソニー株式会社 情報処理装置、提案装置、情報処理方法および提案方法
JP2021532472A (ja) * 2018-07-31 2021-11-25 マーベル アジア ピーティーイー、リミテッド 複数のオブジェクトタイプのためのメタデータ生成

Families Citing this family (94)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6870956B2 (en) 2001-06-14 2005-03-22 Microsoft Corporation Method and apparatus for shot detection
US7458017B2 (en) 2001-06-26 2008-11-25 Microsoft Corporation Function-based object model for use in website adaptation
US7093001B2 (en) * 2001-11-26 2006-08-15 Microsoft Corporation Methods and systems for adaptive delivery of multimedia contents
WO2003101097A1 (en) * 2002-05-28 2003-12-04 Yesvideo, Inc. Summarization of a visual recording
US7246306B2 (en) 2002-06-21 2007-07-17 Microsoft Corporation Web information presentation structure for web page authoring
US7065707B2 (en) 2002-06-24 2006-06-20 Microsoft Corporation Segmenting and indexing web pages using function-based object models
US7098117B2 (en) * 2002-10-18 2006-08-29 The Regents Of The University Of Michigan Method of fabricating a package with substantially vertical feedthroughs for micromachined or MEMS devices
US20040088723A1 (en) * 2002-11-01 2004-05-06 Yu-Fei Ma Systems and methods for generating a video summary
US7274741B2 (en) 2002-11-01 2007-09-25 Microsoft Corporation Systems and methods for generating a comprehensive user attention model
US7116716B2 (en) * 2002-11-01 2006-10-03 Microsoft Corporation Systems and methods for generating a motion attention model
US7203901B2 (en) * 2002-11-27 2007-04-10 Microsoft Corporation Small form factor web browsing
EP1431956A1 (en) * 2002-12-17 2004-06-23 Sony France S.A. Method and apparatus for generating a function to extract a global characteristic value of a signal contents
JP4125140B2 (ja) * 2003-01-21 2008-07-30 キヤノン株式会社 情報処理装置、情報処理方法ならびにプログラム
US7164798B2 (en) * 2003-02-18 2007-01-16 Microsoft Corporation Learning-based automatic commercial content detection
US7260261B2 (en) * 2003-02-20 2007-08-21 Microsoft Corporation Systems and methods for enhanced image adaptation
JP2006525537A (ja) * 2003-04-14 2006-11-09 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ コンテンツ解析を用いて音楽ビデオを要約する方法及び装置
US8718128B2 (en) * 2003-05-07 2014-05-06 Canon Kabushiki Kaisha Moving image processing method and apparatus
US7400761B2 (en) * 2003-09-30 2008-07-15 Microsoft Corporation Contrast-based image attention analysis framework
KR20050033949A (ko) * 2003-10-07 2005-04-14 삼성전자주식회사 휴대용 단말기의 오토줌임 제어방법
US7471827B2 (en) 2003-10-16 2008-12-30 Microsoft Corporation Automatic browsing path generation to present image areas with high attention value as a function of space and time
US7483618B1 (en) * 2003-12-04 2009-01-27 Yesvideo, Inc. Automatic editing of a visual recording to eliminate content of unacceptably low quality and/or very little or no interest
WO2005069172A1 (ja) * 2004-01-14 2005-07-28 Mitsubishi Denki Kabushiki Kaisha 要約再生装置および要約再生方法
CN1942970A (zh) * 2004-04-15 2007-04-04 皇家飞利浦电子股份有限公司 生成对用户具有特定情绪影响的内容项的方法
US9053754B2 (en) 2004-07-28 2015-06-09 Microsoft Technology Licensing, Llc Thumbnail generation and presentation for recorded TV programs
US7986372B2 (en) * 2004-08-02 2011-07-26 Microsoft Corporation Systems and methods for smart media content thumbnail extraction
US7391907B1 (en) * 2004-10-01 2008-06-24 Objectvideo, Inc. Spurious object detection in a video surveillance system
US7752548B2 (en) * 2004-10-29 2010-07-06 Microsoft Corporation Features such as titles, transitions, and/or effects which vary according to positions
JP4305921B2 (ja) * 2004-11-02 2009-07-29 Kddi株式会社 動画像話題分割方法
US7450752B2 (en) * 2005-04-07 2008-11-11 Hewlett-Packard Development Company, L.P. System and method for automatic detection of the end of a video stream
US20060271855A1 (en) * 2005-05-27 2006-11-30 Microsoft Corporation Operating system shell management of video files
JP5076892B2 (ja) * 2005-06-27 2012-11-21 パナソニック株式会社 同一シーン検出装置およびプログラムを格納した記憶媒体
US20070112811A1 (en) * 2005-10-20 2007-05-17 Microsoft Corporation Architecture for scalable video coding applications
US8180826B2 (en) 2005-10-31 2012-05-15 Microsoft Corporation Media sharing and authoring on the web
US7773813B2 (en) * 2005-10-31 2010-08-10 Microsoft Corporation Capture-intention detection for video content analysis
US8196032B2 (en) * 2005-11-01 2012-06-05 Microsoft Corporation Template-based multimedia authoring and sharing
US7599918B2 (en) * 2005-12-29 2009-10-06 Microsoft Corporation Dynamic search with implicit user intention mining
US20070245376A1 (en) * 2006-04-13 2007-10-18 Concert Technology Corporation Portable media player enabled to obtain previews of media content
US7603434B2 (en) * 2006-04-13 2009-10-13 Domingo Enterprises, Llc Central system providing previews of a user's media collection to a portable media player
US8316081B2 (en) 2006-04-13 2012-11-20 Domingo Enterprises, Llc Portable media player enabled to obtain previews of a user's media collection
US20070244985A1 (en) * 2006-04-13 2007-10-18 Concert Technology Corporation User system providing previews of a user's media collection to an associated portable media player
US20070245378A1 (en) * 2006-04-13 2007-10-18 Concert Technology Corporation User system providing previews to an associated portable media player
US20070245377A1 (en) * 2006-04-13 2007-10-18 Concert Technology Corporation Central system providing previews to a portable media player
US8392183B2 (en) 2006-04-25 2013-03-05 Frank Elmo Weber Character-based automated media summarization
US7945142B2 (en) * 2006-06-15 2011-05-17 Microsoft Corporation Audio/visual editing tool
US20080019669A1 (en) * 2006-07-18 2008-01-24 Sahra Reza Girshick Automatically editing video data
US20080019661A1 (en) * 2006-07-18 2008-01-24 Pere Obrador Producing output video from multiple media sources including multiple video sources
JP2010505176A (ja) * 2006-09-27 2010-02-18 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ サマリ生成方法
US7792868B2 (en) * 2006-11-10 2010-09-07 Microsoft Corporation Data object linking and browsing tool
US8375302B2 (en) * 2006-11-17 2013-02-12 Microsoft Corporation Example based video editing
US8347213B2 (en) 2007-03-02 2013-01-01 Animoto, Inc. Automatically generating audiovisual works
DE102007013811A1 (de) * 2007-03-22 2008-09-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren zur zeitlichen Segmentierung eines Videos in Videobildfolgen und zur Auswahl von Keyframes für das Auffinden von Bildinhalten unter Einbeziehung einer Subshot-Detektion
US20080263433A1 (en) * 2007-04-14 2008-10-23 Aaron Eppolito Multiple version merge for media production
US9576302B2 (en) * 2007-05-31 2017-02-21 Aditall Llc. System and method for dynamic generation of video content
US9032298B2 (en) * 2007-05-31 2015-05-12 Aditall Llc. Website application system for online video producers and advertisers
US20080320516A1 (en) * 2007-06-25 2008-12-25 Microsoft Corporation Tailored channel for content consumption
KR101138396B1 (ko) 2007-09-11 2012-04-26 삼성전자주식회사 Iptv 단말기에서 컨텐츠 재생 방법 및 장치
US20090083790A1 (en) * 2007-09-26 2009-03-26 Tao Wang Video scene segmentation and categorization
US20090113480A1 (en) * 2007-10-24 2009-04-30 Microsoft Corporation Non-media-centric packaging of content
US8190986B2 (en) * 2008-05-19 2012-05-29 Microsoft Corporation Non-destructive media presentation derivatives
US20090132326A1 (en) * 2007-11-16 2009-05-21 Microsoft Corporation Integrating ads with media
US8630497B2 (en) * 2007-11-27 2014-01-14 Intelliview Technologies Inc. Analyzing a segment of video
US20090150939A1 (en) * 2007-12-05 2009-06-11 Microsoft Corporation Spanning multiple mediums
US7772991B2 (en) * 2008-01-09 2010-08-10 Ford Global Technologies, Llc Accident avoidance during vehicle backup
JP2009200713A (ja) * 2008-02-20 2009-09-03 Sony Corp 画像処理装置、画像処理方法、プログラム
US20100128181A1 (en) * 2008-11-25 2010-05-27 Advanced Micro Devices, Inc. Seam Based Scaling of Video Content
US8379728B2 (en) * 2009-04-17 2013-02-19 Texas Instruments Incorporated Adaptive real-time video prediction mode method and computer-readable medium and processor for storage and execution thereof
GB2470570B (en) * 2009-05-27 2014-07-16 Snell Ltd Determining a regional shot change parameter
WO2011056994A2 (en) * 2009-11-04 2011-05-12 Board Of Regents, The University Of Texas System Adaptive automatic exposure apparatus and method for digital images
US8467610B2 (en) 2010-10-20 2013-06-18 Eastman Kodak Company Video summarization using sparse basis function combination
US9271035B2 (en) 2011-04-12 2016-02-23 Microsoft Technology Licensing, Llc Detecting key roles and their relationships from video
US9117483B2 (en) * 2011-06-03 2015-08-25 Michael Edward Zaletel Method and apparatus for dynamically recording, editing and combining multiple live video clips and still photographs into a finished composition
EP2724343B1 (en) * 2011-06-21 2020-05-13 Nokia Technologies Oy Video remixing system
US20140317480A1 (en) * 2013-04-23 2014-10-23 Microsoft Corporation Automatic music video creation from a set of photos
US10373470B2 (en) 2013-04-29 2019-08-06 Intelliview Technologies, Inc. Object detection
US9495608B2 (en) * 2013-07-02 2016-11-15 Sony Corporation Smart feeling sensing tag for pictures
US9418703B2 (en) 2013-10-09 2016-08-16 Mindset Systems Incorporated Method of and system for automatic compilation of crowdsourced digital media productions
US9667886B2 (en) * 2014-03-27 2017-05-30 Sony Corporation Apparatus and method for editing video data according to common video content attributes
CA2847707C (en) 2014-03-28 2021-03-30 Intelliview Technologies Inc. Leak detection
US10943357B2 (en) 2014-08-19 2021-03-09 Intelliview Technologies Inc. Video based indoor leak detection
US9799376B2 (en) * 2014-09-17 2017-10-24 Xiaomi Inc. Method and device for video browsing based on keyframe
EP3223516A4 (en) * 2014-12-15 2018-08-01 Sony Corporation Information processing method, video processing device, and program
US10462519B2 (en) 2015-06-19 2019-10-29 Disney Enterprises, Inc. Generating dynamic temporal versions of content
US20170092324A1 (en) * 2015-09-30 2017-03-30 Apple Inc. Automatic Video Compositing
EP3998610A1 (en) 2015-09-30 2022-05-18 Apple Inc. Synchronizing audio and video components of an automatically generated audio/video presentation
US10269387B2 (en) 2015-09-30 2019-04-23 Apple Inc. Audio authoring and compositing
US10726594B2 (en) 2015-09-30 2020-07-28 Apple Inc. Grouping media content for automatically generating a media presentation
US10223358B2 (en) 2016-03-07 2019-03-05 Gracenote, Inc. Selecting balanced clusters of descriptive vectors
US10276189B1 (en) * 2016-12-28 2019-04-30 Shutterstock, Inc. Digital audio track suggestions for moods identified using analysis of objects in images from video content
US11915722B2 (en) * 2017-03-30 2024-02-27 Gracenote, Inc. Generating a video presentation to accompany audio
US20200034244A1 (en) * 2018-07-26 2020-01-30 EMC IP Holding Company LLC Detecting server pages within backups
US10915566B2 (en) * 2019-03-01 2021-02-09 Soundtrack Game LLC System and method for automatic synchronization of video with music, and gaming applications related thereto
US11720933B2 (en) * 2019-08-30 2023-08-08 Soclip! Automatic adaptive video editing
CN111432141B (zh) * 2020-03-31 2022-06-17 北京字节跳动网络技术有限公司 一种混剪视频确定方法、装置、设备及存储介质
CN114268814A (zh) * 2021-11-29 2022-04-01 广州繁星互娱信息科技有限公司 音乐视频的获取方法、装置和存储介质及电子设备

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5442633A (en) 1992-07-08 1995-08-15 International Business Machines Corporation Shortcut network layer routing for mobile hosts
KR100215586B1 (ko) 1992-11-09 1999-08-16 모리시타 요이찌 다이제스트 화상 자동생성 장치 및 다이제스트 화상 자동생성 방법
JP2765674B2 (ja) 1993-12-16 1998-06-18 インターナショナル・ビジネス・マシーンズ・コーポレイション データ供給装置
US5530963A (en) 1993-12-16 1996-06-25 International Business Machines Corporation Method and system for maintaining routing between mobile workstations and selected network workstation using routing table within each router device in the network
US5642294A (en) 1993-12-17 1997-06-24 Nippon Telegraph And Telephone Corporation Method and apparatus for video cut detection
US5659685A (en) 1994-12-13 1997-08-19 Microsoft Corporation Method and apparatus for maintaining network communications on a computer capable of connecting to a WAN and LAN
US5625877A (en) 1995-03-15 1997-04-29 International Business Machines Corporation Wireless variable bandwidth air-link system
US5774593A (en) 1995-07-24 1998-06-30 University Of Washington Automatic scene decomposition and optimization of MPEG compressed video
JPH09130732A (ja) 1995-11-01 1997-05-16 Matsushita Electric Ind Co Ltd シーンチェンジ検出方法および動画像編集装置
US5835163A (en) 1995-12-21 1998-11-10 Siemens Corporate Research, Inc. Apparatus for detecting a cut in a video
US5884056A (en) 1995-12-28 1999-03-16 International Business Machines Corporation Method and system for video browsing on the world wide web
US5911008A (en) 1996-04-30 1999-06-08 Nippon Telegraph And Telephone Corporation Scheme for detecting shot boundaries in compressed video data using inter-frame/inter-field prediction coding and intra-frame/intra-field coding
US5920360A (en) 1996-06-07 1999-07-06 Electronic Data Systems Corporation Method and system for detecting fade transitions in a video signal
US5959697A (en) 1996-06-07 1999-09-28 Electronic Data Systems Corporation Method and system for detecting dissolve transitions in a video signal
TW303555B (en) 1996-08-08 1997-04-21 Ind Tech Res Inst Digital data detecting method
US5751378A (en) 1996-09-27 1998-05-12 General Instrument Corporation Scene change detector for digital video
US6075926A (en) 1997-04-21 2000-06-13 Hewlett-Packard Company Computerized method for improving data resolution
US5983273A (en) 1997-09-16 1999-11-09 Webtv Networks, Inc. Method and apparatus for providing physical security for a user account and providing access to the user's environment and preferences
US6166735A (en) 1997-12-03 2000-12-26 International Business Machines Corporation Video story board user interface for selective downloading and displaying of desired portions of remote-stored video data objects
US5956026A (en) 1997-12-19 1999-09-21 Sharp Laboratories Of America, Inc. Method for hierarchical summarization and browsing of digital video
US5990980A (en) 1997-12-23 1999-11-23 Sarnoff Corporation Detection of transitions in video sequences
US6462754B1 (en) 1999-02-22 2002-10-08 Siemens Corporate Research, Inc. Method and apparatus for authoring and linking video documents
GB2356080A (en) 1999-11-05 2001-05-09 Sony Uk Ltd Generation system for audio, video or a combination thereof where metadata is generated and stored or recorded with the audio/video signal
EP1168840A3 (en) 2000-06-30 2003-12-17 Kabushiki Kaisha Toshiba Method and apparatus for special video reproduction modes
US20020157116A1 (en) 2000-07-28 2002-10-24 Koninklijke Philips Electronics N.V. Context and content based information processing for multimedia segmentation and indexing
GB0029880D0 (en) 2000-12-07 2001-01-24 Sony Uk Ltd Video and audio information processing
US20020166123A1 (en) 2001-03-02 2002-11-07 Microsoft Corporation Enhanced television services for digital video recording and playback
US6643665B2 (en) 2001-05-10 2003-11-04 Hewlett-Packard Development Company, Lp. System for setting image intent using markup language structures
US7333712B2 (en) 2002-02-14 2008-02-19 Koninklijke Philips Electronics N.V. Visual summary for scanning forwards and backwards in video content
US7065707B2 (en) 2002-06-24 2006-06-20 Microsoft Corporation Segmenting and indexing web pages using function-based object models
US20040040041A1 (en) 2002-08-22 2004-02-26 Microsoft Corporation Interactive applications for stored video playback
US7054888B2 (en) 2002-10-16 2006-05-30 Microsoft Corporation Optimizing media player memory during rendering
US7043477B2 (en) 2002-10-16 2006-05-09 Microsoft Corporation Navigating media content via groups within a playlist
US7136874B2 (en) 2002-10-16 2006-11-14 Microsoft Corporation Adaptive menu system for media players

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4764924B2 (ja) * 2006-05-18 2011-09-07 パイオニア株式会社 データ処理装置、その方法、そのプログラム、および、そのプログラムを記録した記録媒体
WO2007135905A1 (ja) * 2006-05-18 2007-11-29 Pioneer Corporation データ処理装置、その方法、そのプログラム、および、そのプログラムを記録した記録媒体
JP2009088836A (ja) * 2007-09-28 2009-04-23 Panasonic Corp コンテンツ撮影装置
WO2009116582A1 (ja) * 2008-03-19 2009-09-24 国立大学法人 北海道大学 動画検索装置および動画検索プログラム
US9031389B2 (en) 2009-07-09 2015-05-12 Sony Corporation Image editing apparatus, image editing method and program
US8577210B2 (en) 2009-07-29 2013-11-05 Sony Corporation Image editing apparatus, image editing method and program
US8731302B2 (en) 2009-07-29 2014-05-20 Sony Corporation Moving image extracting apparatus, program and moving image extracting method
US9955161B2 (en) 2009-07-31 2018-04-24 Sony Corporation Apparatus and method of adaptive block filtering of target slice
US10491894B2 (en) 2009-07-31 2019-11-26 Sony Corporation Image processing apparatus and method
US9215460B2 (en) 2009-07-31 2015-12-15 Sony Corporation Apparatus and method of adaptive block filtering of target slice
US10855984B2 (en) 2009-07-31 2020-12-01 Sony Corporation Image processing apparatus and method
US9712821B2 (en) 2009-07-31 2017-07-18 Sony Corporation Image processing apparatus and method
US10841580B2 (en) 2009-07-31 2020-11-17 Sony Corporation Apparatus and method of adaptive block filtering of target slice based on filter control information
US9872023B2 (en) 2009-07-31 2018-01-16 Sony Corporation Image processing apparatus and method
US9210428B2 (en) 2009-07-31 2015-12-08 Sony Corporation Apparatus and method of adaptive block filtering of target slice
US10182231B2 (en) 2009-07-31 2019-01-15 Sony Corporation Image processing apparatus and method
US10306224B2 (en) 2009-07-31 2019-05-28 Sony Corporation Apparatus and method of adaptive block filtering of target slice based on filter control information
JP2014033417A (ja) * 2012-08-06 2014-02-20 Nippon Hoso Kyokai <Nhk> 映像処理装置及びプログラム
US10325627B2 (en) 2014-12-15 2019-06-18 Sony Corporation Information processing method and image processing apparatus
JPWO2016098430A1 (ja) * 2014-12-15 2017-09-28 ソニー株式会社 情報処理方法、映像処理装置及びプログラム
US10847185B2 (en) 2014-12-15 2020-11-24 Sony Corporation Information processing method and image processing apparatus
WO2016098430A1 (ja) * 2014-12-15 2016-06-23 ソニー株式会社 情報処理方法、映像処理装置及びプログラム
JP2021532472A (ja) * 2018-07-31 2021-11-25 マーベル アジア ピーティーイー、リミテッド 複数のオブジェクトタイプのためのメタデータ生成
US11734363B2 (en) 2018-07-31 2023-08-22 Marvell Asia Pte, Ltd. Storage edge controller with a metadata computational engine
US11748418B2 (en) 2018-07-31 2023-09-05 Marvell Asia Pte, Ltd. Storage aggregator controller with metadata computation control
JP7419621B2 (ja) 2018-07-31 2024-01-23 マーベル アジア ピーティーイー、リミテッド 複数のオブジェクトタイプのためのメタデータ生成
WO2021085105A1 (ja) * 2019-10-28 2021-05-06 ソニー株式会社 情報処理装置、提案装置、情報処理方法および提案方法
US11895288B2 (en) 2019-10-28 2024-02-06 Sony Group Corporation Information processing device, proposal device, information processing method, and proposal method

Also Published As

Publication number Publication date
US7127120B2 (en) 2006-10-24
JP4334977B2 (ja) 2009-09-30
EP1416490B1 (en) 2014-09-24
US20040085341A1 (en) 2004-05-06
EP1416490A1 (en) 2004-05-06

Similar Documents

Publication Publication Date Title
JP4334977B2 (ja) ビデオを自動的に編集するためのシステムおよび方法
Hua et al. Optimization-based automated home video editing system
Wang et al. Write-a-video: computational video montage from themed text.
US8879788B2 (en) Video processing apparatus, method and system
JP4340907B2 (ja) オーディオビジュアルサマリ作成方法および装置
US20160358628A1 (en) Hierarchical segmentation and quality measurement for video editing
JP4699476B2 (ja) 映像要約装置
Hua et al. AVE: automated home video editing
EP1496701A1 (en) Meta data edition device, meta data reproduction device, meta data distribution device, meta data search device, meta data reproduction condition setting device, and meta data distribution method
KR100717402B1 (ko) 멀티미디어 데이터의 장르를 판단하는 장치 및 방법
EP1132812A1 (en) Method of detecting dissolve/fade in mpeg-compressed video environment
JP2002125178A (ja) メディア・セグメント化システムおよび関連する方法
US8224157B2 (en) Method and apparatus for extracting spatio-temporal feature and detecting video copy based on the same in broadcasting communication system
JP2007336106A (ja) 映像編集支援装置
US8433566B2 (en) Method and system for annotating video material
JP5096259B2 (ja) 要約コンテンツ生成装置および要約コンテンツ生成プログラム
JP2009060413A (ja) 動画特徴抽出方法およびシステムならびに動画検索方法およびシステム
Huang et al. A film classifier based on low-level visual features
JP5054608B2 (ja) コンテンツ評価方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2006014084A (ja) 映像編集装置、映像編集プログラム、記録媒体、および映像編集方法
US9135509B2 (en) Determining representative images for a video
Zhang Intelligent keyframe extraction for video printing
CN114286199B (zh) 一种基于神经网络模型的短视频片段自动生成方法及系统
JP2005203895A (ja) データ重要度評価装置及び方法
Bailer et al. Comparison of content selection methods for skimming rushes video

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061106

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061106

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080812

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20081111

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20081114

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20081211

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20081216

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090113

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090210

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090511

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090529

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090624

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120703

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120703

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130703

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees