JP2009539273A

JP2009539273A - ビデオクリップからのキーフレーム候補の抽出

Info

Publication number: JP2009539273A
Application number: JP2008553258A
Authority: JP
Inventors: ルオ，チエポ; エドモンモーリスパパン，クリストフ
Original assignee: イーストマンコダックカンパニー
Priority date: 2006-02-03
Filing date: 2007-01-23
Publication date: 2009-11-12
Also published as: WO2007092156A3; EP1979908A2; US20070183497A1; WO2007092156A2; US7889794B2

Abstract

シーンもしくはカメラの並進、又はシーンのスケーリングを示すビデオクリップ上でグローバルモーション算出を実施すること；該グローバルモーション算出に基づいて複数のビデオセグメントを形成し、そして所定の一連のカメラモーションクラスに従って各セグメントをラベリングすること；そして該ラベリングされたセグメントからキーフレーム候補を抽出し、そして、各カメラモーションクラスに対応するルール及びオブジェクトモーションに対応するルールを使用することによって、各候補に対する信頼性スコアを計算することを含んで成る順次キーフレーム選択のための候補フレームを決定するためにデジタルビデオクリップを分析する方法。

Description

本発明は概ねデジタル画像処理分野に関し、そしてより具体的には、ビデオクリップからキーフレームを抽出する際に用いることができる方法に関する。

ビデオからキーフレーム（ＫＦ）を抽出することは、多くの適用分野において極めて重要である。多くの利用シナリオは、ビデオからのプリント（プリントされるべき最良のフレームの選択又は示唆）、ビデオサマリー（例えば数秒間で結婚式の動画を見ること）、ビデオ圧縮（キーフレーム品質をコード時に最適化すること）、ビデオ・インデキシング、ビデオ検索、及びビデオ編成を含む。一般に、キーフレームは、良好な品質及び高い意味的重要性を示すべきである。しかしながら、何が正確にキーフレームであるかは、ときに用途に依存することがある。要件のレベルが異なることもあり得る。ビデオからスチール写真をプリントするためには、画質に大きな重きを置くことが必要である。高速ブラウジングのためには、意味的な代表性を高めることが必要となる。キーフレーム抽出は、カメラ（デジタルカメラ、ビデオカメラ、及びカメラ付き携帯電話機を含む）内、デスクトップ画像／ビデオ編集／管理ソフトウェア内に提供される特徴、及びオンライン画像／ビデオサービスによって提供される特徴となることができる。

キーフレーム抽出は新しい問題ではない。しかし、従来技術は、制約された構造を有するスポーツ又はニュースのビデオに焦点が当てられている。このようなビデオは、よく定義された共通の構造及び特徴と一致する。例えばフィールド競技（サッカー、フットボール、野球、ラグビー、及びクリケットを含む）においては、区別可能なカラフルなユニフォームを着た２つの対抗チーム及びレフェリーがおり、また芝生又は人工芝上の囲まれた競技エリア、フィールドライン及びゴール、解説者の声及び観客の応援があり、そして最後にスクリーン上のグラフィック（スコアボード）がある。少数の標準的「ビュー」：フィールド・ビュー、ズーム・イン、及びクローズアップ、があることが多い。他のタイプのスポーツ、例えばラケット・スポーツ、バスケットボール、並びにニュースのビデオは、種々異なる構造化特徴集合を共有する。より重要なことには、所定の状況内のキーフレームが関連する、曖昧ではないグラウンド・トゥルースがある。対照的に、一般消費者によるビデオは、テーマのあるビデオ（例えば結婚式、誕生日パーティ）でさえ、同じレベルの共通の構造及び特徴を有しておらず、キーフレーム選択は、観察者の関連付け、感情価値、及び他のファクターに起因する高いレベルの主観を受けやすい。

加えて、画質（コントラスト、露光、カメラぶれ）は、画像形成装置が優れており、また画像形成条件がよくコントロールされているので、スポーツ及びニュースのビデオにおける場合の懸念にはめったにならない。スポーツ及びニュースのビデオからキーフレームを抽出するためのシステムの例は、Avrithis, Y.S., Doulamis, A.D., Doulamis, N.D., 及びKollias, S.D., 「A Stochastic Framework for Optimal Key Frame Extraction from MPEG video Databases」, Computer Vision and Image Understanding, 75(1/2), 1999, pp. 3-24; Liu T., Zhang, H.J.、及びQi, F., 「A novel video key-frame-extraction algorithm based on perceived motion energy model」、IEEE Trans. Cir. Sys. Video Techno, 13(10), 2003, pp. 1006-1013; Y. Rui, A. Gupta, 及びAcero, 「Automatically extracting highlights for TV Baseball programs」、ACM Multimedia 2000, pp 105-115; B. Li及びM. I. Sezan, 「Event Detection and Summarization in Sports Video」、IEEE Workshop on Content-based Access of Image and Video Libraries (CBAIVL), 2001, pp. 132-140を含む。

ビデオ機能を有するデジタルカメラ（最近の製品の特徴）によって捕捉された短い動画クリップは、種々多様である。一般消費者によるビデオの機会及び状況の多様性は、制約されない。プロによるビデオとは反対に、特殊効果がなく、厳重に定義された構造がなく、プロによる編集がなく、そしてビデオクリップはただ１つのショットしか表さない。その意味では、短いクリップからのビデオ要約は、ビデオショット・セグメント化を実施することを必要としないので、潜在的には、ビデオカメラによって記録されたものよりも容易である。プロによるビデオと比較して、カメラぶれが頻繁に存在し、そして露光がしばしば問題となる。何よりも、一般消費者によるビデオの最大の難関は、その制約されない内容、及び構造の欠如である。Tong Zhangは、米国特許出願公開第２００５／０２２８８４９号明細書「intelligent key-frame extraction from a video」において、累積カラー・ヒストグラム、カラーレイアウトの相違、カメラモーション評価、運動中のオブジェクトの追跡、顔検出、及び音声事象検出を含む特徴のコラージュに基づく消費者によるビデオのプリントのための知的キーフレーム抽出方法を記述した。具体的には、Zhangは、ビデオ内の有意義な内容を検出するために選択された各分析の集合を、各ビデオフレーム上で実施することにより、ビデオ内の一連のビデオフレームの中から一群の候補キーフレーム集合を選択するステップ；候補キーフレームをクラスター集合に配列するステップ；各候補キーフレームの相対的重要性に応じて、候補キーフレームのうちの１つを各クラスターから選択するステップを含むビデオからキーフレーム集合を抽出する方法を開示した。

キーフレーム抽出の用途は、例えば所望のキーフレーム数の点で大きく異なる場合があるので、スケーリング可能なビデオ表示を生成することができるフレキシブルなフレームワークを提供することがしばしば望ましい。該当するキーフレームの最適な数は、ビデオの複雑さに高く依存する。複雑さは、多くの特徴：カメラモーション、シーン内容、運動中のオブジェクト間の動き及び相互作用、照明及びカメラの設定に起因する画質（ＩＱ）などの関数である。ビデオ継続時間も、ビデオの複雑さを引き起こし得るパラメータであり、動画クリップは長ければ長いほど、より多くの事象を含む傾向があり、ひいてはより多くのキーフレームを要求する。

最良の代表性基準を定義し、次いで、入力データを前提として「最良」のキーフレームを得るためにはどの特徴を使用することができるかを決定する必要もある。米国特許出願公開第２００５／０２２８８４９号明細書に使用されているように種々異なる特徴は、これらの効果及び計算コストの点で著しく異なる。妥当なスピードで妥当な性能を達成するために、できる限り少ない特徴を使用することが望ましい。

さらに、一般消費者によって撮影されたビデオクリップは構造化されていないので、カメラマンの全般的な意図に関連する手がかり、すなわちカメラ及びオブジェクトのモーション記述子にだけ依存するべきである。特定の内容にのみ適用可能なルールは、使用を制限し、そしてビデオ内容に関する事前情報を必要とするにすぎない。

従って、画像内容とは無関係に、信頼性の高い、効率的なシステムを設計することが望ましい。

本発明は、上記問題点の１つ又は２つ以上を克服することに関する。本発明による方法は：
ａ．シーンもしくはカメラの並進、又はシーンのスケーリングを含むカメラモーションに関して画像捕捉中に情報が提供されるように、カメラ内にカメラモーションセンサを用意すること；
ｂ．グローバルモーション算出（global motion estimate)に基づいて複数のビデオ・セグメントを形成し、そして所定の一連のカメラモーションクラスに従って各セグメントをラベリングすること；そして
ｃ．該ラベリングされたセグメントからキーフレーム候補を抽出し、そして、各カメラモーションクラスに対応するルール、及びオブジェクトモーションに対応するルールを使用することによって、各候補に対する信頼性スコアを計算すること
により、順次（subsequent)キーフレーム選択のための候補フレームを決定するためにデジタルビデオクリップを分析する。

本発明の１つの形態は、最も効果的且つ効率的な特徴として、モーションに基づく記述子に焦点を当てる。カメラ及びオブジェクトモーションを算出し、そしてこれをモーション記述子集合を駆動するために使用する。主要タイプのカメラモーション（パン、ズーム...）に基づいて、ビデオクリップを同種セグメント集合に分ける。専用のルールは、候補キーフレームが各セグメントから抽出されるのを可能にする。画質（ＩＱ）又は意味的分析（例えば皮膚、顔又は表現）に基づいて相補的記述子を使用することにより、手間がかかっても、より満足のゆく結果をもたらすことができる。

本発明の重要な特徴は、候補のランク付けである。信頼性スコアを各候補に付して、そして適合度の順に全ての候補をランク付けするために、これを後で使用する。これにより、特定用途において必要であることを前提として、我々が候補から任意のキーフレーム部分集合を得ることができるように、スケーリング可能なフレームワークがもたらされる。

本発明のこれら及びその他の形態、目的、特徴、及び利点は、好ましい態様の下記詳細な説明、及び添付の特許請求の範囲を検討することから、また添付の図面を参照することによって、より明らかに理解・評価されることになる。

多くの基本的な画像・ビデオ処理アルゴリズム及び方法がよく知られているので、本説明は具体的には、本発明に従う方法の一部を形成する、又は本発明に従う方法とより直接的に協働するアルゴリズム・ステップ及び方法ステップに向けられることになる。このようなアルゴリズム及び方法の他の部分、及びここに具体的には提示、示唆又は記述されていない、ビデオ信号を生成、及びその他の形で処理するためのハードウェア又はソフトウェアは、当業者に知られている構成要素、成分、及び素子から選択することができる。以下の記述において、本発明は、ソフトウェア・プログラムとして典型的に実施される方法として説明する。このようなソフトウェアの同等物をハードウェアにおいても構成できることは、当業者には容易に明らかである。下記構成要素において本発明に従って説明されたシステムを考えると、本発明の実施のために有用な、ここに具体的には提示、示唆又は記述されていないソフトウェアは、従来通りのものであり、そして当業者の技術範囲に含まれる。

本発明が、フレームのそれぞれが赤、緑、及び青画素値から成る二次元アレイであるか、又は光強度に対応するモノクロ値アレイである、典型的には時間順序のフレームであるデジタルビデオを利用することであることに注目するのは有益である。しかしながら、画素値は、赤、緑、青以外の成分形態で保存することができ、圧縮又は解凍することができ、そして他の感覚データ、例えば赤外線を含むこともできる。本明細書中に使用されるデジタル画像又はフレームは、二次元アレイ全体、又は処理されるべきその任意の部分を意味する。加えて、好ましい態様を、１秒当たり３０フレームから成る典型的なビデオ、及び４８０行及び６８０列の画素の典型的なフレーム解像度を参照しながら説明するが、異なるフレーム速度及び解像度から成るデジタルビデオを使用しても、同等に成功できるか又は少なくとも許容可能な範囲で成功できることは当業者には明らかであろう。用語の問題に関しては、デジタル画像の第ｘ行及び第ｙ列を意味する座標（ｘ，ｙ）に配置されたフレームの画素値は、ここでは、位置（ｘ，ｙ）におけるそれぞれ赤、緑及び青デジタル画像チャネルの値を意味する三つ組の値［ｒ（ｘ，ｙ），ｇ（ｘ，ｙ），ｂ（ｘ，ｙ）］を含むものとする。加えて、フレームは時間インスタンスｔで識別される。

図１を参照すると、本発明の概観ブロックダイヤグラムが示されている。入力されたビデオクリップ１０は先ずグローバルモーション算出２０を受ける。評価されたグローバルモーションに基づいて、次いでビデオクリップ１０を、ビデオ・セグメント化３０を介して複数のセグメント（オーバラップしていても、していなくてもよい）に分ける。各セグメント３１は、パン（左又は右）、チルト（アップ又はダウン）、ズーム・イン、ズーム・アウト、高速パン、及び固定（定常）を含む所定の一連のカメラモーションクラス３２のうちの１つに対応する。複数の候補キーフレーム４２を発生させるために、セグメント３１毎に、一連の所定のルール４１に従ってキーフレーム候補抽出４０を行う。また、適合度の順番で全ての候補４２をランク付けするために、候補フレーム毎に、信頼性スコア（図示せず）を計算する。ユーザー指定総数５１及び候補のランク順に従って、最終キーフレーム選択５０を行う。本発明の好ましい態様の場合、最終キーフレーム５２は、各セグメント３１内の少なくとも最高ランク付けフレームを含む。

一般消費者によって撮影されたビデオクリップは構造化されていないので、特定の内容にのみ適用可能なルールは、使用を制限し、そしてさらに消費者にとって有用であるべきビデオ内容に関する事前情報を必要とするにすぎない。一般に、カメラマンの全般的な意図に関連する手がかりにだけしか頼ることはできない。通常は支配的なグローバルモーションに対応するカメラモーションは、カメラマンの意図の予測を可能にする。「ズーム・イン」は、カメラマンが特定の領域又はオブジェクトに関心を持つことを示す。カメラ「パン」は、運動中のオブジェクトを追跡するか、又は周囲を走査することを示す。最後に、高速パンは、関心の欠如、又は新しい関心領域（ＲＯＩ）に向かう素早い移行と解釈することができる。二次モーション又はローカルモーションはしばしば、オブジェクトの運動を示す。これら２つのモーション記述レベルは組み合わさって、ビデオ分析のための強力な方法を提供する。

本発明の好ましい態様の場合、J.-M. Odobez及びP. Bouthemy、「Robust Multiresolution Estimation of Parametric Motion Models」、J. Vis. Comm. Image Rep., 6(4):348-365、1995によるアルゴリズムが、カメラモーションのためのプロキシとしてグローバルモーション算出２０において使用される。この方法をここで要約する。θは、モーションに基づく記述ベクトルを意味する。その最初の３つの成分は、カメラモーションに対応し、そして単純な並進とともにズーミング及び回転を明らかにすることができる６パラメータ・アフィン型モデルの評価から推論される。記述子は並進パラメータａ₁及びａ₂、並びにグローバル発散（スケーリング）ｄｉｖに依存する。最後の記述子は二次モーションの量及び分布を評価する。我々は、二次モーションを、グローバルモーションモデルによっては明らかにされない残りの変位と呼ぶ。このような時空間変化は、主に３Ｄシーン内部で運動するオブジェクトに起因する。変位フレーム差分（ＤＦＤ）は、カメラモーションが一旦補償された時の残余モーションに対応する。われわれはまた、空間情報（画像中心に対する二次モーションの平均距離）と、二次モーションの面積パーセンテージとを組み合わせる。θの第４の成分によって与えられる。

関数ｔｈ_Hystは、ヒステリシス閾値に依存し、Ｎ_Λは活性画素ｐの数であり、そして正規化線形関数ｗ_dtcは、中心に位置する運動中の領域を優遇する。

ビデオを、カメラモーション及びオブジェクトモーションに関して特徴づけることができる。カメラモーションはかなり連続的であり、ビデオクリップを、図１のステップ３０において同種のセグメントに有意義に分割することができる。オブジェクトの活動は不安定ではあるが、しかしまだ有用な特徴である。図２を参照すると、この例におけるビデオクリップは、一連の下記カメラモーションから成る：パン（周囲）、ズーム・イン、ズーム・アウト、高速パン、固定、パン（オブジェクトの追跡）、及び固定。なお「ズーム・イン」は、カメラからの機械的／光学的作用によって、又はカメラマンの（オブジェクトに向かう）モーションによって、又はオブジェクトの（カメラに向かう）運動によって生じさせることができる。しかしながら、これらのモーションは、アルゴリズムの観点からは、「見掛け」ズーム・インとして同等である。

オブジェクトモーションに関しては、図２のビデオクリップ例は、一連の下記オブジェクトモーションから成る：オブジェクトモーションなし、高オブジェクトモーション、及び最後に、低オブジェクトモーション。なお、オブジェクトモーションセグメントの境界は、カメラモーションの境界とは必ずしも一致しない。

図２の参照を続けると、本発明によれば、図１のステップ４０においてセグメント毎に候補フレームを選択するために、ルールを策定し、信頼性関数を定義する。パンである第１のセグメントに関しては、周囲全体に範囲が及ぶように（印を付けたように）２つのキーフレームを選択することが望ましい。後続のズーム・イン及びズーム・アウトセグメントの場合、ズーミング作用がストップしたときに、各セグメントの終わりにキーフレームを選択するべきである。高速パンセグメントのためのキーフレームを抽出することは、通常は必要でない。なぜならば、これが注意を払わない移行であるにすぎないからである。オブジェクトモーションは高速パンの後期段階中に始まるが、カメラが一旦定常になったときにキーフレームを抽出することが必要であるに過ぎない。運動中のオブジェクトに従うようにカメラがパンするのに伴って、１つのキーフレームが抽出されるべきである。最後に、オブジェクトが定常のカメラから遠ざかるのに伴って、別のキーフレームが選択される。

上記例に使用されるルールは、一般的な性質の目的を有している。これらは、オブジェクトが何であるか、周囲が何であるか、又はオブジェクトモーションが何であるかといういかなる意味情報にも依存していない。従って、これらは、任意の他のビデオクリップに適用することができる。これらの一般的ルールを図３において要約する。

本発明はカメラモーションに基づく４つのクラス：「パン」、「ズーム・イン」、「ズーム・アウト」、及び「固定」を区別する。なお、「チルト」は「パン」と同様に扱われ、（容易な変更を伴わずに）同じクラスとして処理される。また、記述子ｏｂｊがビデオ・セグメント化中に使用され、このセグメント化は、（６パラメータ・モデル毎の）経時的なスケーリング・並進曲線に適応閾値を適用することを伴う。以下に、各カメラモーションクラスに関して詳細に説明する。

低速カメラ・パンは、有意な領域を走査するのにより長い時間を費やす。セグメント化閾値をパンセグメントの長さｌに依存させることは適切であるように見えるが、しかしこれは因果関係の判らない問題である。なぜならば、その長さ自体を知るために並進データを先ずセグメント化することが必要であるからである。この問題を克服するために、小さな並進閾値を使用することにより、おおざっぱなセグメント化を可能にする。カメラ・ビューが著しく変化しない場合には、パンセグメントを抽出する必要はない。より長いパンを扱うときには、適応閾値ｔｈ_panはより低い。本発明の好ましい態様の場合、ｔｈ_panは、フレーム幅ｗを正規化係数γで掛け算したものに等しい距離を走査するのに必要なカメラ単位並進量として定義される。正規化係数γは、それを超えると画像内容が十分に異なると考えられる値を表す。

時間全体にわたって、強い冗長性が存在する。計算時間を節約するために、フレーム毎にモーションを評価しないことが有利である。代わりに、捕捉フレーム速度とは無関係に、一定の時間的サンプリング速度を時間全体にわたって維持する。ｔ_sは、時間的サブサンプリング・ステップを意味する（捕捉フレーム速度を１秒当たりのフレームサンプルの固定数で割り算したもの）。ビデオに付けられた時間基準は、Ｒ₀として示され、これは物理的時間を表す。Ｒ₁として示される第２時間基準は、サブサンプリングされた時間に関連する。従って、

フレーム数Ｎは、ｌ’・ｔ_sに等しく、ここで継続時間ｌ’はＲ₁において考えられる。最後に適応閾値は

である。

スケーリング曲線をセグメント化するために同様の方法が用いられる。この場合、カバーすべき最小距離を考える必要はなく、その代わりに最小ズーム比を考える必要がある。スケーリング・プロセスが短い場合には、その振幅は、考えられるのに十分に高くなければならない。基準Ｒ₁において、スケーリング比は、

に対して一般化される。

ｄｉｖ（ｔ）が閾値ｔｈ_zoomであり、そして時間全体にわたって一定であると仮定するならば、この表現は、所期の総スケーリング比γ_sと比較して、長さｌ’の所与のセグメントに沿ったズームモーション全体を反映することができる：

従って、適応ズーム閾値は

によって与えられる。

ＫＦ候補は、かなり大きい抽出フレーム集合を形成し、フレームのそれぞれは、信頼性値によって特徴付けられる。このような値はカメラモーションクラス間で異なるものの、これは常に記述子のロバスト性、セグメントの長さ、モーション記述子の規模、及びカメラマンの意図に関する想定の関数である。

本発明において、候補を選択するために高レベル戦略が用いられる。これらの戦略は主に領域知識に基づく。ズーム・イン・カメラ操作は一般にＲＯＩに焦点を当てる。これはカメラからの機械的／光学的作用によって、又はカメラマンのモーション、又はオブジェクトの運動によって生じさせることができる。これらのシナリオは、アルゴリズムの観点からは、見掛けズーム・インとして同等である。オブジェクトが最接近したときのモーションの終了に焦点を当てることが望ましい。

典型的には、周囲を捕捉するためにカメラ・パンが用いられる。運動中のオブジェクトを追跡することにより、パンと類似するカメラ並進を生じさせることもできる。２つのシナリオ間を区別化するための１つの方法は、オブジェクトモーション記述子ｏｂｊを利用することである。しかし、その信頼性は、カメラモーションを保証する能力に依存する。ＫＦ候補は、ローカルモーション記述子及びグローバル並進パラメータに基づいて抽出される。カメラモーションに依存する候補は、最小及び累積パンニング距離におけるローカル並進に依存する信頼性関数に従って得られる。他の候補は、大きいオブジェクトモーションを有するフレームである。

最後に、「固定」又は定常セグメントに関して、本発明の１つの態様の場合、単にセグメントの中央点に配置されたフレームを選択することが妥当である。好ましい態様は、適切なフレームを選択するために、画質（例えば鮮鋭度、コントラスト）又は意味的記述子（例えば顔の表現）を含む追加の手がかりからの情報を使用するべきである。

本発明の好ましい態様の場合、主な目標は、最小数のＫＦによって、捕捉された周囲全体に範囲が及ぶようにすることである。一般消費者によるビデオにおけるシーン内容が静的であることはめったにないので、大きいオブジェクトモーションを考える必要もある。空間的な広がりをカバーすることと、オブジェクトモーション活動を捕捉することとは、性質上全く異なっており、そしてこれらの間の妥協点を選ぶことは重要なことである。確かに、オブジェクトモーションの欠如は、カメラマンの意図が周囲を走査することであったことを意味する。加えて、累積距離に基づく候補には、より高い信頼性スコアが割り当てられる。

空間オーバラップを低減するために、確率関数ｄ_spatを、累積カメラ変位の関数として策定する。これは、セグメント開始時にはヌルであり、そして累積変位の関数として増大する。シーン内容は、ｄ_spatが１に達したときに十分に異なるものと判断される。一旦ｄ_spatが１に達したら、新しいプロセスが再び累積カメラ変位を計算し始める前にその値を０にリセットする。シャープな移行を回避するために、その値はガウスの法則に従って０まで急速に減少する（例えば次の３つのフレーム内）。なお、カメラモーションはｔ_sフレーム毎に計算されるにすぎないので、累積カメラ変位は近似値である。図４は、ｄ_spatだけを使用して抽出されたトップ候補フレームを示す。各フレームは明確な内容を含んでおり、すなわち、これらのいずれか１つを見逃すことは、風景全体の一部を見逃すことになる。

カメラマンのより微妙な行動を考慮する価値がある。図４に示すように、パンの休止又は減速がしばしば特定の関心を示すことが注目される。確率関数ｄ_know＝Ｇ（μ，σ）を使用して、ローカル並進最小値であるような領域に、より高い重要性を割り当てることは理にかなっている。ここで関数Ｇは、ローカル最小値の位置としてのμと、またグローバルモーション算出時に得られる並進曲線から計算された標準偏差としてのσとを伴うガウス関数である。関数ｄ_knowから抽出された候補フレームの例を図４に示す。ｄ_spat及びｄ_knowから得られた候補フレームは冗長であり得るので、グローバル信頼性関数ｄ_pan：

を使用してｄ_spatとｄ_knowとを組み合わせる必要があり、この場合α₁＋α₂＝１なので、ｄ_panは０と１との間にある。典型的には、α₁＝α₂＝０．５を選択することにより、いずれかの基準を優遇しない。

図４を参照すると、（中央の行におけるカメラ並進曲線の昇降によって示されるように）パン速度が一定ではないパンセグメントから、候補を抽出する。上側の行において、空間的オーバラップを低減しつつ、周囲全体に範囲が及ぶようにするために、６つのフレームを抽出する。下側の行において、並進曲線における最小点に従って、追加の５つのフレームを選択する。

ここで図５を参照すると、パンセグメントから抽出された候補とともに、関数ｄ_panの例が示されている。候補フレームをランク付けするために、信頼性値ｄ_panが使用される。０と０．５との間のモードは、高いパーセンテージの新しい内容を表示するだけであるのに対して、０．５を上回る値のモードは、高いパーセンテージの新しい内容に相当し、そしてまた並進最小値（パン休止）に近い。関数ｄ_panは、我々がこのような候補フレームをランク付けするのを可能にする。

高速パンは、高速モーションでのＲＯＩに向かう移行、又はオブジェクトの追跡を表す。両方の事例において、フレームはモーションの重度のぼやけを含み、従って有用ではない。このようなセグメントからＫＦを抽出しないことが理にかなっている。並進値に基づく正規化信頼性係数ｃが導入される。本発明の好ましい態様の場合、係数ｃは、シグモイド関数：

によって再形成され、ここでｋは、並進閾値ｔｈ_Highにおける勾配であり、そしてｃ（ｔｈ_High）＝０．５である。係数ｃはｄ_pan：

に対する重み係数として作用する。

係数ｃは、小さな並進の場合には１に近く、パラメータｋに従って、ｔｈ_Highの付近で減少し、そして最終的に、大きい並進に対して０に接近する。

ズームセグメントからの候補選択は、領域知識によって引き起こされ、すなわち、ＫＦは、ズームセグメントの終わりに抽出されることになっている。信頼性関数ｄ_zoomは、並進によって影響を与えることができる。なぜならば、大きいパンモーションはしばしば、誤ったスケーリング比評価を招くからである。等式８と同様に、Ｃ_panは、並進成分ｗ₀（ｔ）のユークリッド基準（ｔは、候補キーフレームの同じセグメント内部にある最大ズームと関連する時間である）と、並進パラメータｔｒ_Max（これは、ｔｈ_Highとは異なる可能性がある）との間の差に基づいた指数項を特徴とするシグモイド関数を意味する。

係数ｃ_panは、大きいパンが発生したときのスケーリング比の信頼性が低下することの尺度を提供する。２つの連続するフレーム間の高いズームは、カメラのモータの物理的制限に起因するものではおそらくない。オブジェクトがカメラに向かって素早く動くとしても、これは結果としてモーションのぼやけをもたらす。本発明の好ましい態様の場合、２つの隣接するフレーム間の、最大許容スケーリング比ｔｈ_sは、０．１（１０％）に設定され、そして等式４において導入されたｆ_zoom比は：

に変更され、ここでステップ関数は

である。

最後に、正規化関数Ｎを適用した後、等式１０は、

として書き換えられ、そして、ズーム候補の信頼性関数ｄ_zoomは、

である。

ここで図６を参照すると、一連のズーム・インセグメントからの候補抽出の例が示されている。上側の行は、（見掛け）カメラ・スケーリングに関するプロットである。下側の行は、信頼性関数ｄ_zoomに従って順序づけられた候補フレームのランクを表示している。これらの候補の実際の位置は、スケーリング内に印で示している。

ズーム・アウトセグメントが同様に処理され、ここでは候補はセグメントの終わりに抽出される。しかし、ズーム・アウトモーションが、周囲のより広いビューを捕捉するという理由で重要であったとしても、ズーム・アウトセグメントからの候補キーフレームの抽出はしばしば冗長である。後続のセグメントは一般に、類似の内容を有するフレームを含む。本発明の場合、ズーム・アウトセグメントの終わりに、単一の候補フレームが抽出されるが、しかし、冗長性を取り除くために、これを、次のセグメントで抽出されたキーフレームと比較することになる。冗長性を確認するために、最も単純な測定基準は、ヒストグラム差分及びフレーム差分である。本発明の好ましい態様の場合、各フレームは、サイズＭ×Ｎの同じ数Ｌのブロックに分割され、そしてブロック毎にカラーモーメント（平均及び標準偏差）が計算される。対応するブロックは、これらのカラーモーメントの点で比較される。カラーモーメント間の距離が所定の閾値を下回ると、２つのブロックは類似と見なされる。ブロックの大部分（例えば９０％）が類似していると、２つのフレームは類似と見なされる。

候補はまた、グローバルモーションモデルによっては明らかにされない残りの変位（二次モーション）から推論することができるオブジェクトモーション活動に基づいて選択される。このような時空間変化は、主に３Ｄシーン内部で運動するオブジェクトに起因する。大きいオブジェクトモーションはしばしば興味深い。従って、記述子ｏｂｊのローカル最大値は、第２の候補集合を提供する。なおこれらの信頼性は、カメラモーションによって導かれた候補と比較してしばしば低い。例えば、モーション評価が失敗に終わるときに高い「アクション」値が発生することがあり、そしてこの値は必ずしも真のオブジェクトモーションを表さない。

二次モーションを定量化する少なくとも２つの方法がある。J.-M. Odobez及びP. Bouthemyによって教示されたように、評価されたグローバルモーションモデルからの偏差を計算するために、Ｍ−推定子の後に、最終データ値を使用することができる。別の方法は、カメラモーションに対して各フレーム対を補償することである。モーション補償は、前のフレームの各区分がどこに移動したかに関して、連続するフレーム間の相違を記述する方法である。時間ｔ＋ｄｔにおけるフレームＩは、カメラモーションに対して補償され、そしてオブジェクトモーションは等式１によって与えられる。

「固定」セグメントにおけるオブジェクトモーションに対応する信頼性関数は、その長さの関数である。カメラモーションなしの長い時間は、カメラマンの特定の関心を示す。先ず、セグメント長はｌ_fix（基準Ｒ₁における）は、ｌ_fix∈［０，１００］となるように総ビデオ継続時間のパーセンテージとして再スケーリングされる。さらに、関心の増大は１０秒〜１２秒セグメントよりも１秒から２秒までのセグメントの方が高いと想定することは妥当であると思われる。換言すれば、信頼性関数ｄ_fix（ｏｂｊ）は、非線形に増大する。本発明の好ましい態様の場合、この観察はｘ／（１＋ｘ）によってモデル化される。従って、

「パン」セグメントにおけるオブジェクトモーションの信頼性値は、一般に低い。なぜならば、このオブジェクトモーションは、大きいカメラモーションの存在において生じるからである。信頼性スコアは、パン中の並進量に関連し、より高い信頼度は一般に、小さな並進中の、オブジェクトモーションに基づく候補に関連する。本発明の好ましい態様の場合、変更：

と共に、同様の関数が使用され、ここでは、並進パラメータａの指数ｉは１又は２（水平軸及び鉛直軸に対応）である。

「ズーム」セグメントにおけるオブジェクトモーションに対応する信頼性値は、ゼロに設定される。なぜならば、ズームセグメント内部のオブジェクトモーションは信頼性が低いからである。従って、ｄ_zoom（ｏｂｊ）＝０であり、オブジェクトモーションに基づいて候補が抽出されることはない。

本発明は、主としてカメラモーション及びオブジェクトモーションの手がかりを用いて実施されるが、当業者ならば、本発明の範囲を逸脱することなしに、費用を追加して結果を改善するために、相補的記述子、例えば画質（ＩＱ）、意味的分析（例えば皮膚、顔又は表現）を使用することができる。

図１の最後のステップ５０において、初期候補４２から最終キーフレーム５２が選択される。各候補の信頼性値は、ランクの順序付けを可能にする。ＫＦ間にスペースを置くために、その信頼性値が余りにも低いのでない限り、１セグメント当たり少なくとも１つのキーフレーム（最高ランクの候補）が抽出される。キーフレームのユーザー指定数（user specified number）Ｎ_KFを満たすために、最高信頼性値を有する残りの候補を使用する。２つの候補の値が余りにも接近している場合、高い方の信頼性値を有するただ１つの候補が維持される。好ましい態様は、適切なフレームを選択するために、画質（例えば鮮鋭度、コントラスト）又は意味的記述子（例えば顔の表現）を含む追加の手がかりからの情報を使用するべきである。

図１は、本発明によるキーフレーム抽出法の概観を示すブロックダイヤグラムである。図２は、いくつかのカメラモーションクラスとオブジェクトモーションクラスとを含むビデオクリップを、図１に示した補間検出法に従う、このようなモーションに応じた所望のキーフレーム抽出と共に示す図である。図３は、本発明のカメラモーション分類に応じたキーフレーム抽出のためのルールの概要を示す。図４は、パンセグメントからの候補抽出のためのビデオクリップを示す図である。図５は、カメラモーションにおける休止を含むパンセグメントからの候補抽出のためのビデオクリップを示す図である。図６は、ズーム・インセグメントからの候補抽出のためのビデオクリップを示す図である。

符号の説明

１０入力デジタルビデオ
２０グローバルモーション算出
３０ビデオ・セグメント化
３１ビデオ・セグメント
３２カメラモーションクラス
４０候補フレーム抽出
４１ルール
４２候補フレーム
５０キーフレーム選択
５１キーフレーム数
５２キーフレーム

Claims

順次キーフレーム選択のための候補フレームを決定するためにデジタルビデオクリップを分析する方法であって：当該方法は、
ａ．シーンもしくはカメラの並進、又はシーンのスケーリングを示すビデオクリップ上でグローバルモーション算出を実施すること；
ｂ．該グローバルモーション算出に基づいて複数のビデオセグメントを形成し、そして所定の一連のカメラモーションクラスに従って各セグメントをラベリングすること；そして
ｃ．該ラベリングされたセグメントからキーフレーム候補を抽出し、そして、各カメラモーションクラスに対応するルール及びオブジェクトモーションに対応するルールを使用することによって、各候補に対する信頼性スコアを計算すること
を含んで成る。
該所定のカメラモーションクラスが、パン（左又は右、及びチルトアップ又はダウン）、ズーム（イン又はアウト）、高速パン、又は固定を含む請求項１に記載の方法。
該ルールが、パンルール、ズームルール、高速パンルール、及び固定ルールを含む請求項２に記載の方法。
該パンルールが、パンセグメントからのフレーム間の空間的オーバラップを低減しながら、周囲空間をカバーするように複数のフレームを抽出することを含む請求項３に記載の方法。
該パンルールが、該パンモーションが減速された時点に位置するフレームを抽出することを含む請求項３に記載の方法。
該ズームルールが、ズーム・イン又はズーム・アウトセグメントの終点のところで候補フレームを抽出することを含む請求項３に記載の方法。
該高速パンルールが、高速パンセグメントから候補フレームを抽出しないことを含む請求項３に記載の方法。
該固定ルールが、固定セグメントの中央点のところに配置された候補フレームを抽出することを含む請求項３に記載の方法。
該オブジェクトモーションルールが、セグメント長に関連する信頼性スコアを有する固定セグメントについての候補フレームを抽出し、パンの際の並進量に関連する信頼性スコアを有するパンセグメントについての候補フレームを抽出することを含み、そして、高速パンセグメント及びズームセグメントについての、オブジェクトモーションに基づくフレームのための候補フレームを抽出しない請求項１に記載の方法。
キーフレームを決定するためにデジタルビデオクリップを分析する方法であって：当該方法は、
ａ．シーンもしくはカメラの並進、又はシーンのスケーリングを示すビデオクリップ上でグローバルモーション算出を実施すること；
ｂ．該グローバルモーション算出に基づいて複数のビデオセグメントを形成し、そして所定の一連のクラスに従って各セグメントをラベリングすること；
ｃ．該ラベリングされたセグメントからキーフレーム候補を抽出し、そして各ラベルと関連するルールを使用することにより、各候補に対する信頼性スコアを計算すること；そして
ｄ．各候補の信頼性スコアに基づいて、該候補フレームからキーフレームを選択すること
を含んで成る。
該信頼性スコアに従って、該選択されたキーフレームをランク付けすることをさらに含む請求項１０に記載の方法。
ステップｄが、キーフレームを選択するために、該ランク付け及びユーザー指定数を採用することを含む請求項１１に記載の方法。
キーフレームを選択するために該ランク付け及びユーザー指定数を採用することが、所定閾値を上回る信頼性スコアがある場合に、各セグメントから少なくとも１つのキーフレームを選択することを含む請求項１２に記載の方法。
キーフレームを選択するために該ランク付け及びユーザー指定数を採用することが、キーフレームの該ユーザー指定数を満たすために最高信頼性値を有する残りの候補からキーフレームを選択することを含む請求項１３に記載の方法。
該所定のカメラモーションクラスが、パン（左又は右、及びチルトアップ又はダウン）、ズーム（イン又はアウト）、高速パン、又は固定を含む請求項１０に記載の方法。
該ルールが、パンルール、ズームルール、高速パンルール、及び固定ルールを含む請求項１５に記載の方法。
該パンルールが、パンセグメントからのフレーム間の空間的オーバラップを低減しながら、周囲空間をカバーするように複数のフレームを抽出することを含む請求項１６に記載の方法。
該パンルールが、該パンモーションが減速された時点に位置するフレームを抽出することを含む請求項１６に記載の方法。
該ズームルールが、ズーム・イン又はズーム・アウトセグメントの終点のところで候補フレームを抽出することを含む請求項１６に記載の方法。
該高速パンルールが、高速パンセグメントから候補フレームを抽出しないことを含む請求項１６に記載の方法。
該固定ルールが、固定セグメントの中央点のところに配置された候補フレームを抽出することを含む請求項１６に記載の方法。
該オブジェクトモーションルールが、セグメント長に関連する信頼性スコアを有する固定セグメントについての候補フレームを抽出し、パン中の並進量に関連する信頼性スコアを有するパンセグメントについての候補フレームを抽出することを含み、そして、高速パンセグメント及びズームセグメントについての、オブジェクトモーションに基づくフレームのための候補フレームを抽出しない請求項１０に記載の方法。