JP2009539273A - ビデオクリップからのキーフレーム候補の抽出 - Google Patents

ビデオクリップからのキーフレーム候補の抽出 Download PDF

Info

Publication number
JP2009539273A
JP2009539273A JP2008553258A JP2008553258A JP2009539273A JP 2009539273 A JP2009539273 A JP 2009539273A JP 2008553258 A JP2008553258 A JP 2008553258A JP 2008553258 A JP2008553258 A JP 2008553258A JP 2009539273 A JP2009539273 A JP 2009539273A
Authority
JP
Japan
Prior art keywords
segment
pan
motion
candidate
zoom
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008553258A
Other languages
English (en)
Other versions
JP2009539273A5 (ja
Inventor
ルオ,チエポ
エドモン モーリス パパン,クリストフ
Original Assignee
イーストマン コダック カンパニー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by イーストマン コダック カンパニー filed Critical イーストマン コダック カンパニー
Publication of JP2009539273A publication Critical patent/JP2009539273A/ja
Publication of JP2009539273A5 publication Critical patent/JP2009539273A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/786Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using motion, e.g. object motion or camera motion
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/102Programmed access in sequence to addressed parts of tracks of operating record carriers
    • G11B27/105Programmed access in sequence to addressed parts of tracks of operating record carriers of operating discs

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Studio Devices (AREA)

Abstract

シーンもしくはカメラの並進、又はシーンのスケーリングを示すビデオクリップ上でグローバルモーション算出を実施すること;該グローバルモーション算出に基づいて複数のビデオセグメントを形成し、そして所定の一連のカメラモーションクラスに従って各セグメントをラベリングすること;そして該ラベリングされたセグメントからキーフレーム候補を抽出し、そして、各カメラモーションクラスに対応するルール及びオブジェクトモーションに対応するルールを使用することによって、各候補に対する信頼性スコアを計算することを含んで成る順次キーフレーム選択のための候補フレームを決定するためにデジタルビデオクリップを分析する方法。

Description

本発明は概ねデジタル画像処理分野に関し、そしてより具体的には、ビデオクリップからキーフレームを抽出する際に用いることができる方法に関する。
ビデオからキーフレーム(KF)を抽出することは、多くの適用分野において極めて重要である。多くの利用シナリオは、ビデオからのプリント(プリントされるべき最良のフレームの選択又は示唆)、ビデオサマリー(例えば数秒間で結婚式の動画を見ること)、ビデオ圧縮(キーフレーム品質をコード時に最適化すること)、ビデオ・インデキシング、ビデオ検索、及びビデオ編成を含む。一般に、キーフレームは、良好な品質及び高い意味的重要性を示すべきである。しかしながら、何が正確にキーフレームであるかは、ときに用途に依存することがある。要件のレベルが異なることもあり得る。ビデオからスチール写真をプリントするためには、画質に大きな重きを置くことが必要である。高速ブラウジングのためには、意味的な代表性を高めることが必要となる。キーフレーム抽出は、カメラ(デジタルカメラ、ビデオカメラ、及びカメラ付き携帯電話機を含む)内、デスクトップ画像/ビデオ編集/管理ソフトウェア内に提供される特徴、及びオンライン画像/ビデオサービスによって提供される特徴となることができる。
キーフレーム抽出は新しい問題ではない。しかし、従来技術は、制約された構造を有するスポーツ又はニュースのビデオに焦点が当てられている。このようなビデオは、よく定義された共通の構造及び特徴と一致する。例えばフィールド競技(サッカー、フットボール、野球、ラグビー、及びクリケットを含む)においては、区別可能なカラフルなユニフォームを着た2つの対抗チーム及びレフェリーがおり、また芝生又は人工芝上の囲まれた競技エリア、フィールドライン及びゴール、解説者の声及び観客の応援があり、そして最後にスクリーン上のグラフィック(スコアボード)がある。少数の標準的「ビュー」:フィールド・ビュー、ズーム・イン、及びクローズアップ、があることが多い。他のタイプのスポーツ、例えばラケット・スポーツ、バスケットボール、並びにニュースのビデオは、種々異なる構造化特徴集合を共有する。より重要なことには、所定の状況内のキーフレームが関連する、曖昧ではないグラウンド・トゥルースがある。対照的に、一般消費者によるビデオは、テーマのあるビデオ(例えば結婚式、誕生日パーティ)でさえ、同じレベルの共通の構造及び特徴を有しておらず、キーフレーム選択は、観察者の関連付け、感情価値、及び他のファクターに起因する高いレベルの主観を受けやすい。
加えて、画質(コントラスト、露光、カメラぶれ)は、画像形成装置が優れており、また画像形成条件がよくコントロールされているので、スポーツ及びニュースのビデオにおける場合の懸念にはめったにならない。スポーツ及びニュースのビデオからキーフレームを抽出するためのシステムの例は、Avrithis, Y.S., Doulamis, A.D., Doulamis, N.D., 及びKollias, S.D., 「A Stochastic Framework for Optimal Key Frame Extraction from MPEG video Databases」, Computer Vision and Image Understanding, 75(1/2), 1999, pp. 3-24; Liu T., Zhang, H.J.、及びQi, F., 「A novel video key-frame-extraction algorithm based on perceived motion energy model」、IEEE Trans. Cir. Sys. Video Techno, 13(10), 2003, pp. 1006-1013; Y. Rui, A. Gupta, 及びAcero, 「Automatically extracting highlights for TV Baseball programs」、ACM Multimedia 2000, pp 105-115; B. Li及びM. I. Sezan, 「Event Detection and Summarization in Sports Video」、IEEE Workshop on Content-based Access of Image and Video Libraries (CBAIVL), 2001, pp. 132-140を含む。
ビデオ機能を有するデジタルカメラ(最近の製品の特徴)によって捕捉された短い動画クリップは、種々多様である。一般消費者によるビデオの機会及び状況の多様性は、制約されない。プロによるビデオとは反対に、特殊効果がなく、厳重に定義された構造がなく、プロによる編集がなく、そしてビデオクリップはただ1つのショットしか表さない。その意味では、短いクリップからのビデオ要約は、ビデオショット・セグメント化を実施することを必要としないので、潜在的には、ビデオカメラによって記録されたものよりも容易である。プロによるビデオと比較して、カメラぶれが頻繁に存在し、そして露光がしばしば問題となる。何よりも、一般消費者によるビデオの最大の難関は、その制約されない内容、及び構造の欠如である。Tong Zhangは、米国特許出願公開第2005/0228849号明細書「intelligent key-frame extraction from a video」において、累積カラー・ヒストグラム、カラーレイアウトの相違、カメラモーション評価、運動中のオブジェクトの追跡、顔検出、及び音声事象検出を含む特徴のコラージュに基づく消費者によるビデオのプリントのための知的キーフレーム抽出方法を記述した。具体的には、Zhangは、ビデオ内の有意義な内容を検出するために選択された各分析の集合を、各ビデオフレーム上で実施することにより、ビデオ内の一連のビデオフレームの中から一群の候補キーフレーム集合を選択するステップ;候補キーフレームをクラスター集合に配列するステップ;各候補キーフレームの相対的重要性に応じて、候補キーフレームのうちの1つを各クラスターから選択するステップを含むビデオからキーフレーム集合を抽出する方法を開示した。
キーフレーム抽出の用途は、例えば所望のキーフレーム数の点で大きく異なる場合があるので、スケーリング可能なビデオ表示を生成することができるフレキシブルなフレームワークを提供することがしばしば望ましい。該当するキーフレームの最適な数は、ビデオの複雑さに高く依存する。複雑さは、多くの特徴:カメラモーション、シーン内容、運動中のオブジェクト間の動き及び相互作用、照明及びカメラの設定に起因する画質(IQ)などの関数である。ビデオ継続時間も、ビデオの複雑さを引き起こし得るパラメータであり、動画クリップは長ければ長いほど、より多くの事象を含む傾向があり、ひいてはより多くのキーフレームを要求する。
最良の代表性基準を定義し、次いで、入力データを前提として「最良」のキーフレームを得るためにはどの特徴を使用することができるかを決定する必要もある。米国特許出願公開第2005/0228849号明細書に使用されているように種々異なる特徴は、これらの効果及び計算コストの点で著しく異なる。妥当なスピードで妥当な性能を達成するために、できる限り少ない特徴を使用することが望ましい。
さらに、一般消費者によって撮影されたビデオクリップは構造化されていないので、カメラマンの全般的な意図に関連する手がかり、すなわちカメラ及びオブジェクトのモーション記述子にだけ依存するべきである。特定の内容にのみ適用可能なルールは、使用を制限し、そしてビデオ内容に関する事前情報を必要とするにすぎない。
従って、画像内容とは無関係に、信頼性の高い、効率的なシステムを設計することが望ましい。
本発明は、上記問題点の1つ又は2つ以上を克服することに関する。本発明による方法は:
a. シーンもしくはカメラの並進、又はシーンのスケーリングを含むカメラモーションに関して画像捕捉中に情報が提供されるように、カメラ内にカメラモーションセンサを用意すること;
b. グローバルモーション算出(global motion estimate)に基づいて複数のビデオ・セグメントを形成し、そして所定の一連のカメラモーションクラスに従って各セグメントをラベリングすること;そして
c. 該ラベリングされたセグメントからキーフレーム候補を抽出し、そして、各カメラモーションクラスに対応するルール、及びオブジェクトモーションに対応するルールを使用することによって、各候補に対する信頼性スコアを計算すること
により、順次(subsequent)キーフレーム選択のための候補フレームを決定するためにデジタルビデオクリップを分析する。
本発明の1つの形態は、最も効果的且つ効率的な特徴として、モーションに基づく記述子に焦点を当てる。カメラ及びオブジェクトモーションを算出し、そしてこれをモーション記述子集合を駆動するために使用する。主要タイプのカメラモーション(パン、ズーム...)に基づいて、ビデオクリップを同種セグメント集合に分ける。専用のルールは、候補キーフレームが各セグメントから抽出されるのを可能にする。画質(IQ)又は意味的分析(例えば皮膚、顔又は表現)に基づいて相補的記述子を使用することにより、手間がかかっても、より満足のゆく結果をもたらすことができる。
本発明の重要な特徴は、候補のランク付けである。信頼性スコアを各候補に付して、そして適合度の順に全ての候補をランク付けするために、これを後で使用する。これにより、特定用途において必要であることを前提として、我々が候補から任意のキーフレーム部分集合を得ることができるように、スケーリング可能なフレームワークがもたらされる。
本発明のこれら及びその他の形態、目的、特徴、及び利点は、好ましい態様の下記詳細な説明、及び添付の特許請求の範囲を検討することから、また添付の図面を参照することによって、より明らかに理解・評価されることになる。
多くの基本的な画像・ビデオ処理アルゴリズム及び方法がよく知られているので、本説明は具体的には、本発明に従う方法の一部を形成する、又は本発明に従う方法とより直接的に協働するアルゴリズム・ステップ及び方法ステップに向けられることになる。このようなアルゴリズム及び方法の他の部分、及びここに具体的には提示、示唆又は記述されていない、ビデオ信号を生成、及びその他の形で処理するためのハードウェア又はソフトウェアは、当業者に知られている構成要素、成分、及び素子から選択することができる。以下の記述において、本発明は、ソフトウェア・プログラムとして典型的に実施される方法として説明する。このようなソフトウェアの同等物をハードウェアにおいても構成できることは、当業者には容易に明らかである。下記構成要素において本発明に従って説明されたシステムを考えると、本発明の実施のために有用な、ここに具体的には提示、示唆又は記述されていないソフトウェアは、従来通りのものであり、そして当業者の技術範囲に含まれる。
本発明が、フレームのそれぞれが赤、緑、及び青画素値から成る二次元アレイであるか、又は光強度に対応するモノクロ値アレイである、典型的には時間順序のフレームであるデジタルビデオを利用することであることに注目するのは有益である。しかしながら、画素値は、赤、緑、青以外の成分形態で保存することができ、圧縮又は解凍することができ、そして他の感覚データ、例えば赤外線を含むこともできる。本明細書中に使用されるデジタル画像又はフレームは、二次元アレイ全体、又は処理されるべきその任意の部分を意味する。加えて、好ましい態様を、1秒当たり30フレームから成る典型的なビデオ、及び480行及び680列の画素の典型的なフレーム解像度を参照しながら説明するが、異なるフレーム速度及び解像度から成るデジタルビデオを使用しても、同等に成功できるか又は少なくとも許容可能な範囲で成功できることは当業者には明らかであろう。用語の問題に関しては、デジタル画像の第x行及び第y列を意味する座標(x,y)に配置されたフレームの画素値は、ここでは、位置(x,y)におけるそれぞれ赤、緑及び青デジタル画像チャネルの値を意味する三つ組の値[r(x,y),g(x,y),b(x,y)]を含むものとする。加えて、フレームは時間インスタンスtで識別される。
図1を参照すると、本発明の概観ブロックダイヤグラムが示されている。入力されたビデオクリップ10は先ずグローバルモーション算出20を受ける。評価されたグローバルモーションに基づいて、次いでビデオクリップ10を、ビデオ・セグメント化30を介して複数のセグメント(オーバラップしていても、していなくてもよい)に分ける。各セグメント31は、パン(左又は右)、チルト(アップ又はダウン)、ズーム・イン、ズーム・アウト、高速パン、及び固定(定常)を含む所定の一連のカメラモーションクラス32のうちの1つに対応する。複数の候補キーフレーム42を発生させるために、セグメント31毎に、一連の所定のルール41に従ってキーフレーム候補抽出40を行う。また、適合度の順番で全ての候補42をランク付けするために、候補フレーム毎に、信頼性スコア(図示せず)を計算する。ユーザー指定総数51及び候補のランク順に従って、最終キーフレーム選択50を行う。本発明の好ましい態様の場合、最終キーフレーム52は、各セグメント31内の少なくとも最高ランク付けフレームを含む。
一般消費者によって撮影されたビデオクリップは構造化されていないので、特定の内容にのみ適用可能なルールは、使用を制限し、そしてさらに消費者にとって有用であるべきビデオ内容に関する事前情報を必要とするにすぎない。一般に、カメラマンの全般的な意図に関連する手がかりにだけしか頼ることはできない。通常は支配的なグローバルモーションに対応するカメラモーションは、カメラマンの意図の予測を可能にする。「ズーム・イン」は、カメラマンが特定の領域又はオブジェクトに関心を持つことを示す。カメラ「パン」は、運動中のオブジェクトを追跡するか、又は周囲を走査することを示す。最後に、高速パンは、関心の欠如、又は新しい関心領域(ROI)に向かう素早い移行と解釈することができる。二次モーション又はローカルモーションはしばしば、オブジェクトの運動を示す。これら2つのモーション記述レベルは組み合わさって、ビデオ分析のための強力な方法を提供する。
本発明の好ましい態様の場合、J.-M. Odobez及びP. Bouthemy、「Robust Multiresolution Estimation of Parametric Motion Models」、J. Vis. Comm. Image Rep., 6(4):348-365、1995によるアルゴリズムが、カメラモーションのためのプロキシとしてグローバルモーション算出20において使用される。この方法をここで要約する。θは、モーションに基づく記述ベクトルを意味する。その最初の3つの成分は、カメラモーションに対応し、そして単純な並進とともにズーミング及び回転を明らかにすることができる6パラメータ・アフィン型モデルの評価から推論される。記述子は並進パラメータa1及びa2、並びにグローバル発散(スケーリング)divに依存する。最後の記述子は二次モーションの量及び分布を評価する。我々は、二次モーションを、グローバルモーションモデルによっては明らかにされない残りの変位と呼ぶ。このような時空間変化は、主に3Dシーン内部で運動するオブジェクトに起因する。変位フレーム差分(DFD)は、カメラモーションが一旦補償された時の残余モーションに対応する。われわれはまた、空間情報(画像中心に対する二次モーションの平均距離)と、二次モーションの面積パーセンテージとを組み合わせる。θの第4の成分によって与えられる。
Figure 2009539273
関数thHystは、ヒステリシス閾値に依存し、NΛは活性画素pの数であり、そして正規化線形関数wdtcは、中心に位置する運動中の領域を優遇する。
ビデオを、カメラモーション及びオブジェクトモーションに関して特徴づけることができる。カメラモーションはかなり連続的であり、ビデオクリップを、図1のステップ30において同種のセグメントに有意義に分割することができる。オブジェクトの活動は不安定ではあるが、しかしまだ有用な特徴である。図2を参照すると、この例におけるビデオクリップは、一連の下記カメラモーションから成る:パン(周囲)、ズーム・イン、ズーム・アウト、高速パン、固定、パン(オブジェクトの追跡)、及び固定。なお「ズーム・イン」は、カメラからの機械的/光学的作用によって、又はカメラマンの(オブジェクトに向かう)モーションによって、又はオブジェクトの(カメラに向かう)運動によって生じさせることができる。しかしながら、これらのモーションは、アルゴリズムの観点からは、「見掛け」ズーム・インとして同等である。
オブジェクトモーションに関しては、図2のビデオクリップ例は、一連の下記オブジェクトモーションから成る:オブジェクトモーションなし、高オブジェクトモーション、及び最後に、低オブジェクトモーション。なお、オブジェクトモーションセグメントの境界は、カメラモーションの境界とは必ずしも一致しない。
図2の参照を続けると、本発明によれば、図1のステップ40においてセグメント毎に候補フレームを選択するために、ルールを策定し、信頼性関数を定義する。パンである第1のセグメントに関しては、周囲全体に範囲が及ぶように(印を付けたように)2つのキーフレームを選択することが望ましい。後続のズーム・イン及びズーム・アウトセグメントの場合、ズーミング作用がストップしたときに、各セグメントの終わりにキーフレームを選択するべきである。高速パンセグメントのためのキーフレームを抽出することは、通常は必要でない。なぜならば、これが注意を払わない移行であるにすぎないからである。オブジェクトモーションは高速パンの後期段階中に始まるが、カメラが一旦定常になったときにキーフレームを抽出することが必要であるに過ぎない。運動中のオブジェクトに従うようにカメラがパンするのに伴って、1つのキーフレームが抽出されるべきである。最後に、オブジェクトが定常のカメラから遠ざかるのに伴って、別のキーフレームが選択される。
上記例に使用されるルールは、一般的な性質の目的を有している。これらは、オブジェクトが何であるか、周囲が何であるか、又はオブジェクトモーションが何であるかといういかなる意味情報にも依存していない。従って、これらは、任意の他のビデオクリップに適用することができる。これらの一般的ルールを図3において要約する。
本発明はカメラモーションに基づく4つのクラス:「パン」、「ズーム・イン」、「ズーム・アウト」、及び「固定」を区別する。なお、「チルト」は「パン」と同様に扱われ、(容易な変更を伴わずに)同じクラスとして処理される。また、記述子objがビデオ・セグメント化中に使用され、このセグメント化は、(6パラメータ・モデル毎の)経時的なスケーリング・並進曲線に適応閾値を適用することを伴う。以下に、各カメラモーションクラスに関して詳細に説明する。
低速カメラ・パンは、有意な領域を走査するのにより長い時間を費やす。セグメント化閾値をパンセグメントの長さlに依存させることは適切であるように見えるが、しかしこれは因果関係の判らない問題である。なぜならば、その長さ自体を知るために並進データを先ずセグメント化することが必要であるからである。この問題を克服するために、小さな並進閾値を使用することにより、おおざっぱなセグメント化を可能にする。カメラ・ビューが著しく変化しない場合には、パンセグメントを抽出する必要はない。より長いパンを扱うときには、適応閾値thpanはより低い。本発明の好ましい態様の場合、thpanは、フレーム幅wを正規化係数γで掛け算したものに等しい距離を走査するのに必要なカメラ単位並進量として定義される。正規化係数γは、それを超えると画像内容が十分に異なると考えられる値を表す。
時間全体にわたって、強い冗長性が存在する。計算時間を節約するために、フレーム毎にモーションを評価しないことが有利である。代わりに、捕捉フレーム速度とは無関係に、一定の時間的サンプリング速度を時間全体にわたって維持する。tsは、時間的サブサンプリング・ステップを意味する(捕捉フレーム速度を1秒当たりのフレームサンプルの固定数で割り算したもの)。ビデオに付けられた時間基準は、R0として示され、これは物理的時間を表す。R1として示される第2時間基準は、サブサンプリングされた時間に関連する。従って、
Figure 2009539273
フレーム数Nは、l’・tsに等しく、ここで継続時間l’はR1において考えられる。最後に適応閾値は
Figure 2009539273
である。
スケーリング曲線をセグメント化するために同様の方法が用いられる。この場合、カバーすべき最小距離を考える必要はなく、その代わりに最小ズーム比を考える必要がある。スケーリング・プロセスが短い場合には、その振幅は、考えられるのに十分に高くなければならない。基準R1において、スケーリング比は、
Figure 2009539273
に対して一般化される。
div(t)が閾値thzoomであり、そして時間全体にわたって一定であると仮定するならば、この表現は、所期の総スケーリング比γsと比較して、長さl’の所与のセグメントに沿ったズームモーション全体を反映することができる:
Figure 2009539273
従って、適応ズーム閾値は
Figure 2009539273
によって与えられる。
KF候補は、かなり大きい抽出フレーム集合を形成し、フレームのそれぞれは、信頼性値によって特徴付けられる。このような値はカメラモーションクラス間で異なるものの、これは常に記述子のロバスト性、セグメントの長さ、モーション記述子の規模、及びカメラマンの意図に関する想定の関数である。
本発明において、候補を選択するために高レベル戦略が用いられる。これらの戦略は主に領域知識に基づく。ズーム・イン・カメラ操作は一般にROIに焦点を当てる。これはカメラからの機械的/光学的作用によって、又はカメラマンのモーション、又はオブジェクトの運動によって生じさせることができる。これらのシナリオは、アルゴリズムの観点からは、見掛けズーム・インとして同等である。オブジェクトが最接近したときのモーションの終了に焦点を当てることが望ましい。
典型的には、周囲を捕捉するためにカメラ・パンが用いられる。運動中のオブジェクトを追跡することにより、パンと類似するカメラ並進を生じさせることもできる。2つのシナリオ間を区別化するための1つの方法は、オブジェクトモーション記述子objを利用することである。しかし、その信頼性は、カメラモーションを保証する能力に依存する。KF候補は、ローカルモーション記述子及びグローバル並進パラメータに基づいて抽出される。カメラモーションに依存する候補は、最小及び累積パンニング距離におけるローカル並進に依存する信頼性関数に従って得られる。他の候補は、大きいオブジェクトモーションを有するフレームである。
最後に、「固定」又は定常セグメントに関して、本発明の1つの態様の場合、単にセグメントの中央点に配置されたフレームを選択することが妥当である。好ましい態様は、適切なフレームを選択するために、画質(例えば鮮鋭度、コントラスト)又は意味的記述子(例えば顔の表現)を含む追加の手がかりからの情報を使用するべきである。
本発明の好ましい態様の場合、主な目標は、最小数のKFによって、捕捉された周囲全体に範囲が及ぶようにすることである。一般消費者によるビデオにおけるシーン内容が静的であることはめったにないので、大きいオブジェクトモーションを考える必要もある。空間的な広がりをカバーすることと、オブジェクトモーション活動を捕捉することとは、性質上全く異なっており、そしてこれらの間の妥協点を選ぶことは重要なことである。確かに、オブジェクトモーションの欠如は、カメラマンの意図が周囲を走査することであったことを意味する。加えて、累積距離に基づく候補には、より高い信頼性スコアが割り当てられる。
空間オーバラップを低減するために、確率関数dspatを、累積カメラ変位の関数として策定する。これは、セグメント開始時にはヌルであり、そして累積変位の関数として増大する。シーン内容は、dspatが1に達したときに十分に異なるものと判断される。一旦dspatが1に達したら、新しいプロセスが再び累積カメラ変位を計算し始める前にその値を0にリセットする。シャープな移行を回避するために、その値はガウスの法則に従って0まで急速に減少する(例えば次の3つのフレーム内)。なお、カメラモーションはtsフレーム毎に計算されるにすぎないので、累積カメラ変位は近似値である。図4は、dspatだけを使用して抽出されたトップ候補フレームを示す。各フレームは明確な内容を含んでおり、すなわち、これらのいずれか1つを見逃すことは、風景全体の一部を見逃すことになる。
カメラマンのより微妙な行動を考慮する価値がある。図4に示すように、パンの休止又は減速がしばしば特定の関心を示すことが注目される。確率関数dknow=G(μ,σ)を使用して、ローカル並進最小値であるような領域に、より高い重要性を割り当てることは理にかなっている。ここで関数Gは、ローカル最小値の位置としてのμと、またグローバルモーション算出時に得られる並進曲線から計算された標準偏差としてのσとを伴うガウス関数である。関数dknowから抽出された候補フレームの例を図4に示す。dspat及びdknowから得られた候補フレームは冗長であり得るので、グローバル信頼性関数dpan
Figure 2009539273
を使用してdspatとdknowとを組み合わせる必要があり、この場合α1+α2=1なので、dpanは0と1との間にある。典型的には、α1=α2=0.5を選択することにより、いずれかの基準を優遇しない。
図4を参照すると、(中央の行におけるカメラ並進曲線の昇降によって示されるように)パン速度が一定ではないパンセグメントから、候補を抽出する。上側の行において、空間的オーバラップを低減しつつ、周囲全体に範囲が及ぶようにするために、6つのフレームを抽出する。下側の行において、並進曲線における最小点に従って、追加の5つのフレームを選択する。
ここで図5を参照すると、パンセグメントから抽出された候補とともに、関数dpanの例が示されている。候補フレームをランク付けするために、信頼性値dpanが使用される。0と0.5との間のモードは、高いパーセンテージの新しい内容を表示するだけであるのに対して、0.5を上回る値のモードは、高いパーセンテージの新しい内容に相当し、そしてまた並進最小値(パン休止)に近い。関数dpanは、我々がこのような候補フレームをランク付けするのを可能にする。
高速パンは、高速モーションでのROIに向かう移行、又はオブジェクトの追跡を表す。両方の事例において、フレームはモーションの重度のぼやけを含み、従って有用ではない。このようなセグメントからKFを抽出しないことが理にかなっている。並進値に基づく正規化信頼性係数cが導入される。本発明の好ましい態様の場合、係数cは、シグモイド関数:
Figure 2009539273
によって再形成され、ここでkは、並進閾値thHighにおける勾配であり、そしてc(thHigh)=0.5である。係数cはdpan
Figure 2009539273
に対する重み係数として作用する。
係数cは、小さな並進の場合には1に近く、パラメータkに従って、thHighの付近で減少し、そして最終的に、大きい並進に対して0に接近する。
ズームセグメントからの候補選択は、領域知識によって引き起こされ、すなわち、KFは、ズームセグメントの終わりに抽出されることになっている。信頼性関数dzoomは、並進によって影響を与えることができる。なぜならば、大きいパンモーションはしばしば、誤ったスケーリング比評価を招くからである。等式8と同様に、Cpanは、並進成分w0(t)のユークリッド基準(tは、候補キーフレームの同じセグメント内部にある最大ズームと関連する時間である)と、並進パラメータtrMax(これは、thHighとは異なる可能性がある)との間の差に基づいた指数項を特徴とするシグモイド関数を意味する。
係数cpanは、大きいパンが発生したときのスケーリング比の信頼性が低下することの尺度を提供する。2つの連続するフレーム間の高いズームは、カメラのモータの物理的制限に起因するものではおそらくない。オブジェクトがカメラに向かって素早く動くとしても、これは結果としてモーションのぼやけをもたらす。本発明の好ましい態様の場合、2つの隣接するフレーム間の、最大許容スケーリング比thsは、0.1(10%)に設定され、そして等式4において導入されたfzoom比は:
Figure 2009539273
に変更され、ここでステップ関数は
Figure 2009539273
である。
最後に、正規化関数Nを適用した後、等式10は、
Figure 2009539273
として書き換えられ、そして、ズーム候補の信頼性関数dzoomは、
Figure 2009539273
である。
ここで図6を参照すると、一連のズーム・インセグメントからの候補抽出の例が示されている。上側の行は、(見掛け)カメラ・スケーリングに関するプロットである。下側の行は、信頼性関数dzoomに従って順序づけられた候補フレームのランクを表示している。これらの候補の実際の位置は、スケーリング内に印で示している。
ズーム・アウトセグメントが同様に処理され、ここでは候補はセグメントの終わりに抽出される。しかし、ズーム・アウトモーションが、周囲のより広いビューを捕捉するという理由で重要であったとしても、ズーム・アウトセグメントからの候補キーフレームの抽出はしばしば冗長である。後続のセグメントは一般に、類似の内容を有するフレームを含む。本発明の場合、ズーム・アウトセグメントの終わりに、単一の候補フレームが抽出されるが、しかし、冗長性を取り除くために、これを、次のセグメントで抽出されたキーフレームと比較することになる。冗長性を確認するために、最も単純な測定基準は、ヒストグラム差分及びフレーム差分である。本発明の好ましい態様の場合、各フレームは、サイズM×Nの同じ数Lのブロックに分割され、そしてブロック毎にカラーモーメント(平均及び標準偏差)が計算される。対応するブロックは、これらのカラーモーメントの点で比較される。カラーモーメント間の距離が所定の閾値を下回ると、2つのブロックは類似と見なされる。ブロックの大部分(例えば90%)が類似していると、2つのフレームは類似と見なされる。
候補はまた、グローバルモーションモデルによっては明らかにされない残りの変位(二次モーション)から推論することができるオブジェクトモーション活動に基づいて選択される。このような時空間変化は、主に3Dシーン内部で運動するオブジェクトに起因する。大きいオブジェクトモーションはしばしば興味深い。従って、記述子objのローカル最大値は、第2の候補集合を提供する。なおこれらの信頼性は、カメラモーションによって導かれた候補と比較してしばしば低い。例えば、モーション評価が失敗に終わるときに高い「アクション」値が発生することがあり、そしてこの値は必ずしも真のオブジェクトモーションを表さない。
二次モーションを定量化する少なくとも2つの方法がある。J.-M. Odobez及びP. Bouthemyによって教示されたように、評価されたグローバルモーションモデルからの偏差を計算するために、M−推定子の後に、最終データ値を使用することができる。別の方法は、カメラモーションに対して各フレーム対を補償することである。モーション補償は、前のフレームの各区分がどこに移動したかに関して、連続するフレーム間の相違を記述する方法である。時間t+dtにおけるフレームIは、カメラモーションに対して補償され、そしてオブジェクトモーションは等式1によって与えられる。
「固定」セグメントにおけるオブジェクトモーションに対応する信頼性関数は、その長さの関数である。カメラモーションなしの長い時間は、カメラマンの特定の関心を示す。先ず、セグメント長はlfix(基準R1における)は、lfix∈[0,100]となるように総ビデオ継続時間のパーセンテージとして再スケーリングされる。さらに、関心の増大は10秒〜12秒セグメントよりも1秒から2秒までのセグメントの方が高いと想定することは妥当であると思われる。換言すれば、信頼性関数dfix(obj)は、非線形に増大する。本発明の好ましい態様の場合、この観察はx/(1+x)によってモデル化される。従って、
Figure 2009539273
「パン」セグメントにおけるオブジェクトモーションの信頼性値は、一般に低い。なぜならば、このオブジェクトモーションは、大きいカメラモーションの存在において生じるからである。信頼性スコアは、パン中の並進量に関連し、より高い信頼度は一般に、小さな並進中の、オブジェクトモーションに基づく候補に関連する。本発明の好ましい態様の場合、変更:
Figure 2009539273
と共に、同様の関数が使用され、ここでは、並進パラメータaの指数iは1又は2(水平軸及び鉛直軸に対応)である。
「ズーム」セグメントにおけるオブジェクトモーションに対応する信頼性値は、ゼロに設定される。なぜならば、ズームセグメント内部のオブジェクトモーションは信頼性が低いからである。従って、dzoom(obj)=0であり、オブジェクトモーションに基づいて候補が抽出されることはない。
本発明は、主としてカメラモーション及びオブジェクトモーションの手がかりを用いて実施されるが、当業者ならば、本発明の範囲を逸脱することなしに、費用を追加して結果を改善するために、相補的記述子、例えば画質(IQ)、意味的分析(例えば皮膚、顔又は表現)を使用することができる。
図1の最後のステップ50において、初期候補42から最終キーフレーム52が選択される。各候補の信頼性値は、ランクの順序付けを可能にする。KF間にスペースを置くために、その信頼性値が余りにも低いのでない限り、1セグメント当たり少なくとも1つのキーフレーム(最高ランクの候補)が抽出される。キーフレームのユーザー指定数(user specified number)NKFを満たすために、最高信頼性値を有する残りの候補を使用する。2つの候補の値が余りにも接近している場合、高い方の信頼性値を有するただ1つの候補が維持される。好ましい態様は、適切なフレームを選択するために、画質(例えば鮮鋭度、コントラスト)又は意味的記述子(例えば顔の表現)を含む追加の手がかりからの情報を使用するべきである。
図1は、本発明によるキーフレーム抽出法の概観を示すブロックダイヤグラムである。 図2は、いくつかのカメラモーションクラスとオブジェクトモーションクラスとを含むビデオクリップを、図1に示した補間検出法に従う、このようなモーションに応じた所望のキーフレーム抽出と共に示す図である。 図3は、本発明のカメラモーション分類に応じたキーフレーム抽出のためのルールの概要を示す。 図4は、パンセグメントからの候補抽出のためのビデオクリップを示す図である。 図5は、カメラモーションにおける休止を含むパンセグメントからの候補抽出のためのビデオクリップを示す図である。 図6は、ズーム・インセグメントからの候補抽出のためのビデオクリップを示す図である。
符号の説明
10 入力デジタルビデオ
20 グローバルモーション算出
30 ビデオ・セグメント化
31 ビデオ・セグメント
32 カメラモーションクラス
40 候補フレーム抽出
41 ルール
42 候補フレーム
50 キーフレーム選択
51 キーフレーム数
52 キーフレーム

Claims (22)

  1. 順次キーフレーム選択のための候補フレームを決定するためにデジタルビデオクリップを分析する方法であって:当該方法は、
    a. シーンもしくはカメラの並進、又はシーンのスケーリングを示すビデオクリップ上でグローバルモーション算出を実施すること;
    b. 該グローバルモーション算出に基づいて複数のビデオセグメントを形成し、そして所定の一連のカメラモーションクラスに従って各セグメントをラベリングすること;そして
    c. 該ラベリングされたセグメントからキーフレーム候補を抽出し、そして、各カメラモーションクラスに対応するルール及びオブジェクトモーションに対応するルールを使用することによって、各候補に対する信頼性スコアを計算すること
    を含んで成る。
  2. 該所定のカメラモーションクラスが、パン(左又は右、及びチルトアップ又はダウン)、ズーム(イン又はアウト)、高速パン、又は固定を含む請求項1に記載の方法。
  3. 該ルールが、パンルール、ズームルール、高速パンルール、及び固定ルールを含む請求項2に記載の方法。
  4. 該パンルールが、パンセグメントからのフレーム間の空間的オーバラップを低減しながら、周囲空間をカバーするように複数のフレームを抽出することを含む請求項3に記載の方法。
  5. 該パンルールが、該パンモーションが減速された時点に位置するフレームを抽出することを含む請求項3に記載の方法。
  6. 該ズームルールが、ズーム・イン又はズーム・アウトセグメントの終点のところで候補フレームを抽出することを含む請求項3に記載の方法。
  7. 該高速パンルールが、高速パンセグメントから候補フレームを抽出しないことを含む請求項3に記載の方法。
  8. 該固定ルールが、固定セグメントの中央点のところに配置された候補フレームを抽出することを含む請求項3に記載の方法。
  9. 該オブジェクトモーションルールが、セグメント長に関連する信頼性スコアを有する固定セグメントについての候補フレームを抽出し、パンの際の並進量に関連する信頼性スコアを有するパンセグメントについての候補フレームを抽出することを含み、そして、高速パンセグメント及びズームセグメントについての、オブジェクトモーションに基づくフレームのための候補フレームを抽出しない請求項1に記載の方法。
  10. キーフレームを決定するためにデジタルビデオクリップを分析する方法であって:当該方法は、
    a. シーンもしくはカメラの並進、又はシーンのスケーリングを示すビデオクリップ上でグローバルモーション算出を実施すること;
    b. 該グローバルモーション算出に基づいて複数のビデオセグメントを形成し、そして所定の一連のクラスに従って各セグメントをラベリングすること;
    c. 該ラベリングされたセグメントからキーフレーム候補を抽出し、そして各ラベルと関連するルールを使用することにより、各候補に対する信頼性スコアを計算すること;そして
    d. 各候補の信頼性スコアに基づいて、該候補フレームからキーフレームを選択すること
    を含んで成る。
  11. 該信頼性スコアに従って、該選択されたキーフレームをランク付けすることをさらに含む請求項10に記載の方法。
  12. ステップdが、キーフレームを選択するために、該ランク付け及びユーザー指定数を採用することを含む請求項11に記載の方法。
  13. キーフレームを選択するために該ランク付け及びユーザー指定数を採用することが、所定閾値を上回る信頼性スコアがある場合に、各セグメントから少なくとも1つのキーフレームを選択することを含む請求項12に記載の方法。
  14. キーフレームを選択するために該ランク付け及びユーザー指定数を採用することが、キーフレームの該ユーザー指定数を満たすために最高信頼性値を有する残りの候補からキーフレームを選択することを含む請求項13に記載の方法。
  15. 該所定のカメラモーションクラスが、パン(左又は右、及びチルトアップ又はダウン)、ズーム(イン又はアウト)、高速パン、又は固定を含む請求項10に記載の方法。
  16. 該ルールが、パンルール、ズームルール、高速パンルール、及び固定ルールを含む請求項15に記載の方法。
  17. 該パンルールが、パンセグメントからのフレーム間の空間的オーバラップを低減しながら、周囲空間をカバーするように複数のフレームを抽出することを含む請求項16に記載の方法。
  18. 該パンルールが、該パンモーションが減速された時点に位置するフレームを抽出することを含む請求項16に記載の方法。
  19. 該ズームルールが、ズーム・イン又はズーム・アウトセグメントの終点のところで候補フレームを抽出することを含む請求項16に記載の方法。
  20. 該高速パンルールが、高速パンセグメントから候補フレームを抽出しないことを含む請求項16に記載の方法。
  21. 該固定ルールが、固定セグメントの中央点のところに配置された候補フレームを抽出することを含む請求項16に記載の方法。
  22. 該オブジェクトモーションルールが、セグメント長に関連する信頼性スコアを有する固定セグメントについての候補フレームを抽出し、パン中の並進量に関連する信頼性スコアを有するパンセグメントについての候補フレームを抽出することを含み、そして、高速パンセグメント及びズームセグメントについての、オブジェクトモーションに基づくフレームのための候補フレームを抽出しない請求項10に記載の方法。
JP2008553258A 2006-02-03 2007-01-23 ビデオクリップからのキーフレーム候補の抽出 Pending JP2009539273A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/346,708 US7889794B2 (en) 2006-02-03 2006-02-03 Extracting key frame candidates from video clip
PCT/US2007/001854 WO2007092156A2 (en) 2006-02-03 2007-01-23 Extracting key frame candidates from video clip

Publications (2)

Publication Number Publication Date
JP2009539273A true JP2009539273A (ja) 2009-11-12
JP2009539273A5 JP2009539273A5 (ja) 2011-04-07

Family

ID=38230058

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008553258A Pending JP2009539273A (ja) 2006-02-03 2007-01-23 ビデオクリップからのキーフレーム候補の抽出

Country Status (4)

Country Link
US (1) US7889794B2 (ja)
EP (1) EP1979908A2 (ja)
JP (1) JP2009539273A (ja)
WO (1) WO2007092156A2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017512398A (ja) * 2014-02-27 2017-05-18 トムソン ライセンシングThomson Licensing 映像を提示する方法及び装置
JP2022526513A (ja) * 2019-08-29 2022-05-25 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 ビデオフレームの情報ラベリング方法、装置、機器及びコンピュータプログラム

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050249429A1 (en) * 2004-04-22 2005-11-10 Fuji Photo Film Co., Ltd. Method, apparatus, and program for image processing
US7860320B2 (en) * 2006-06-26 2010-12-28 Eastman Kodak Company Classifying image regions based on picture location
US8934717B2 (en) * 2007-06-05 2015-01-13 Intellectual Ventures Fund 83 Llc Automatic story creation using semantic classifiers for digital assets and associated metadata
US8805101B2 (en) * 2008-06-30 2014-08-12 Intel Corporation Converting the frame rate of video streams
CN101931773A (zh) * 2009-06-23 2010-12-29 虹软(杭州)多媒体信息技术有限公司 视频处理方法
US9565479B2 (en) * 2009-08-10 2017-02-07 Sling Media Pvt Ltd. Methods and apparatus for seeking within a media stream using scene detection
US8520088B2 (en) 2010-05-25 2013-08-27 Intellectual Ventures Fund 83 Llc Storing a video summary as metadata
US8605221B2 (en) 2010-05-25 2013-12-10 Intellectual Ventures Fund 83 Llc Determining key video snippets using selection criteria to form a video summary
US8446490B2 (en) 2010-05-25 2013-05-21 Intellectual Ventures Fund 83 Llc Video capture system producing a video summary
US8619150B2 (en) 2010-05-25 2013-12-31 Intellectual Ventures Fund 83 Llc Ranking key video frames using camera fixation
US8599316B2 (en) 2010-05-25 2013-12-03 Intellectual Ventures Fund 83 Llc Method for determining key video frames
US8432965B2 (en) 2010-05-25 2013-04-30 Intellectual Ventures Fund 83 Llc Efficient method for assembling key video snippets to form a video summary
US9271035B2 (en) 2011-04-12 2016-02-23 Microsoft Technology Licensing, Llc Detecting key roles and their relationships from video
US8983192B2 (en) 2011-11-04 2015-03-17 Google Inc. High-confidence labeling of video volumes in a video sharing service
US9087242B2 (en) 2011-11-04 2015-07-21 Google Inc. Video synthesis using video volumes
US9260122B2 (en) * 2012-06-06 2016-02-16 International Business Machines Corporation Multisensor evidence integration and optimization in object inspection
US20140157096A1 (en) * 2012-12-05 2014-06-05 International Business Machines Corporation Selecting video thumbnail based on surrounding context
US9253503B2 (en) * 2012-12-18 2016-02-02 Xerox Corporation Computationally efficient motion estimation with learning capabilities for video compression in transportation and regularized environments
US10104394B2 (en) 2014-01-31 2018-10-16 Here Global B.V. Detection of motion activity saliency in a video sequence
US11170037B2 (en) 2014-06-11 2021-11-09 Kodak Alaris Inc. Method for creating view-based representations from multimedia collections
US10664687B2 (en) 2014-06-12 2020-05-26 Microsoft Technology Licensing, Llc Rule-based video importance analysis
US9934423B2 (en) 2014-07-29 2018-04-03 Microsoft Technology Licensing, Llc Computerized prominent character recognition in videos
US9646227B2 (en) * 2014-07-29 2017-05-09 Microsoft Technology Licensing, Llc Computerized machine learning of interesting video sections
US9373054B2 (en) * 2014-09-02 2016-06-21 Kodak Alaris Inc. Method for selecting frames from video sequences based on incremental improvement
US10089532B2 (en) 2015-02-23 2018-10-02 Kodak Alaris Inc. Method for output creation based on video content characteristics
US10708571B2 (en) * 2015-06-29 2020-07-07 Microsoft Technology Licensing, Llc Video frame processing
KR20170098079A (ko) * 2016-02-19 2017-08-29 삼성전자주식회사 전자 장치 및 전자 장치에서의 비디오 녹화 방법
US10157638B2 (en) * 2016-06-24 2018-12-18 Google Llc Collage of interesting moments in a video
WO2018058321A1 (en) * 2016-09-27 2018-04-05 SZ DJI Technology Co., Ltd. Method and system for creating video abstraction from image data captured by a movable object
GB2558868A (en) * 2016-09-29 2018-07-25 British Broadcasting Corp Video search system & method
CN108615043B (zh) * 2016-12-12 2021-05-25 中移(杭州)信息技术有限公司 一种视频分类方法及系统
CN110612530B (zh) 2016-12-16 2023-10-13 ams 国际有限公司 用于选择脸部处理中使用的帧的方法
US9916863B1 (en) * 2017-02-24 2018-03-13 Gopro, Inc. Systems and methods for editing videos based on shakiness measures
CN108267121A (zh) * 2018-01-24 2018-07-10 锥能机器人(上海)有限公司 一种可变场景下多设备的视觉导航方法及系统
WO2020060113A1 (en) 2018-09-21 2020-03-26 Samsung Electronics Co., Ltd. Method for providing key moments in multimedia content and electronic device thereof
CN109922379B (zh) * 2019-02-22 2022-01-04 深圳前海微众银行股份有限公司 广告视频优化方法、装置、设备及计算机可读存储介质
CN113032631A (zh) * 2021-02-24 2021-06-25 北京工业大学 一种基于全局运动统计特征的团队体育视频关键帧提取方法
CN113099128B (zh) * 2021-04-08 2022-09-13 杭州竖品文化创意有限公司 一种视频处理方法与视频处理系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002084488A (ja) * 2000-07-18 2002-03-22 Fuji Xerox Co Ltd ビデオ生成システム及びカスタムビデオ生成方法
JP2005276220A (ja) * 2004-03-24 2005-10-06 Hewlett-Packard Development Co Lp ビデオからのインテリジェントなキーフレーム抽出

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5793886A (en) * 1996-12-19 1998-08-11 Eastman Kodak Company Method of adjusting image pixel values within an image sequence by interpolation of target cumulative histograms for images to be adjusted
EP0919099B1 (en) * 1997-03-14 2001-11-21 CSELT Centro Studi e Laboratori Telecomunicazioni S.p.A. Circuit for motion estimation in digitised video sequence encoders
US6721454B1 (en) * 1998-10-09 2004-04-13 Sharp Laboratories Of America, Inc. Method for automatic extraction of semantically significant events from video
US6549643B1 (en) * 1999-11-30 2003-04-15 Siemens Corporate Research, Inc. System and method for selecting key-frames of video data
JP2001251632A (ja) * 1999-12-27 2001-09-14 Toshiba Corp 動きベクトル検出方法および装置並びに動きベクトル検出プログラム
AUPQ535200A0 (en) * 2000-01-31 2000-02-17 Canon Kabushiki Kaisha Extracting key frames from a video sequence
US6813313B2 (en) * 2000-07-06 2004-11-02 Mitsubishi Electric Research Laboratories, Inc. Method and system for high-level structure analysis and event detection in domain specific videos
US7469010B2 (en) * 2001-01-08 2008-12-23 Canon Kabushiki Kaisha Extracting key frames from a video sequence
US20040088723A1 (en) * 2002-11-01 2004-05-06 Yu-Fei Ma Systems and methods for generating a video summary
US7027513B2 (en) * 2003-01-15 2006-04-11 Microsoft Corporation Method and system for extracting key frames from video using a triangle model of motion based on perceived motion energy
US20050206751A1 (en) * 2004-03-19 2005-09-22 East Kodak Company Digital video system for assembling video sequences
US7612832B2 (en) * 2005-03-29 2009-11-03 Microsoft Corporation Method and system for video clip compression
US7760956B2 (en) * 2005-05-12 2010-07-20 Hewlett-Packard Development Company, L.P. System and method for producing a page using frames of a video stream
US8031775B2 (en) * 2006-02-03 2011-10-04 Eastman Kodak Company Analyzing camera captured video for key frames
US20070237225A1 (en) * 2006-03-30 2007-10-11 Eastman Kodak Company Method for enabling preview of video files

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002084488A (ja) * 2000-07-18 2002-03-22 Fuji Xerox Co Ltd ビデオ生成システム及びカスタムビデオ生成方法
JP2005276220A (ja) * 2004-03-24 2005-10-06 Hewlett-Packard Development Co Lp ビデオからのインテリジェントなキーフレーム抽出

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017512398A (ja) * 2014-02-27 2017-05-18 トムソン ライセンシングThomson Licensing 映像を提示する方法及び装置
JP2022526513A (ja) * 2019-08-29 2022-05-25 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 ビデオフレームの情報ラベリング方法、装置、機器及びコンピュータプログラム
JP7147078B2 (ja) 2019-08-29 2022-10-04 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 ビデオフレームの情報ラベリング方法、装置、機器及びコンピュータプログラム

Also Published As

Publication number Publication date
WO2007092156A3 (en) 2008-12-24
EP1979908A2 (en) 2008-10-15
US20070183497A1 (en) 2007-08-09
WO2007092156A2 (en) 2007-08-16
US7889794B2 (en) 2011-02-15

Similar Documents

Publication Publication Date Title
JP2009539273A (ja) ビデオクリップからのキーフレーム候補の抽出
US8031775B2 (en) Analyzing camera captured video for key frames
KR20230013243A (ko) 프레임에서 타겟 오브젝트를 위한 고정된 크기 유지
JP4666784B2 (ja) ビデオシーケンスのキーフレーム抽出方法及びビデオシーケンスのキーフレーム抽出装置
Zabih et al. A feature-based algorithm for detecting and classifying production effects
Aner et al. Video summaries through mosaic-based shot and scene clustering
WO2007126666A2 (en) Method for enabling preview of video files
US6643387B1 (en) Apparatus and method for context-based indexing and retrieval of image sequences
US7469010B2 (en) Extracting key frames from a video sequence
JP2006510072A (ja) 一様なカラーセグメントを検出するための方法及びシステム
EP3084577A1 (en) Selection and tracking of objects for display partitioning and clustering of video frames
JP2002232840A (ja) 動画要約方法
JP2006092559A (ja) 少なくとも1つの画像及び画像群を表現する方法、画像又は画像群の表現、画像及び/又は画像群を比較する方法、画像又は画像群を符号化する方法、画像又は画像シーケンスを復号する方法、符号化されたデータの使用、画像又は画像群を表現する装置、画像及び/又は画像群を比較する装置、コンピュータプログラム、システム、及びコンピュータ読み取り可能な記憶媒体
US7526725B2 (en) Context aware video conversion method and playback system
WO2013056311A1 (en) Keypoint based keyframe selection
JP2012105205A (ja) キーフレーム抽出装置、キーフレーム抽出プログラム、キーフレーム抽出方法、撮像装置、およびサーバ装置
WO2007129591A1 (ja) 遮蔽物映像識別装置及び方法
WO1999005865A1 (en) Content-based video access
JP2004348303A (ja) 物体検出装置及びプログラム
Li et al. Video retargeting with multi-scale trajectory optimization
Barhoumi Detection of highly articulated moving objects by using co-segmentation with application to athletic video sequences
JP2003061112A (ja) カメラワーク検出装置およびカメラワーク検出方法
Apostolidis et al. Video fragmentation and reverse search on the web
Tiburzi et al. Camera motion analysis in on-line MPEG sequences
WO2003084249A1 (en) Methods for summarizing video through mosaic-based shot and scene clustering

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100119

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100119

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110323

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110929

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111101

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120131

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120207

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120423

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120821