JP2009500752A - ビデオオブジェクトのカットアンドペースト - Google Patents

ビデオオブジェクトのカットアンドペースト Download PDF

Info

Publication number
JP2009500752A
JP2009500752A JP2008520335A JP2008520335A JP2009500752A JP 2009500752 A JP2009500752 A JP 2009500752A JP 2008520335 A JP2008520335 A JP 2008520335A JP 2008520335 A JP2008520335 A JP 2008520335A JP 2009500752 A JP2009500752 A JP 2009500752A
Authority
JP
Japan
Prior art keywords
video
frame
region
graph
color
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008520335A
Other languages
English (en)
Other versions
JP4954206B2 (ja
Inventor
スン ジィエン
シュム ホン−ユン
リー イン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2009500752A publication Critical patent/JP2009500752A/ja
Application granted granted Critical
Publication of JP4954206B2 publication Critical patent/JP4954206B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/162Segmentation; Edge detection involving graph-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20072Graph-based image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20092Interactive image processing based on input by user
    • G06T2207/20104Interactive definition of region of interest [ROI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20152Watershed segmentation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Studio Circuits (AREA)
  • Processing Or Creating Images (AREA)
  • Image Processing (AREA)
  • Editing Of Facsimile Originals (AREA)

Abstract

ビデオオブジェクトのカットアンドペースト(100)を説明する。1つの実装において、ビデオフレーム(108)を領域(318)に事前にセグメント化(202)することを、3Dグラフカットセグメント(204)の前に実施する。3Dグラフカットセグメント(204)は一時的なコヒーレンス(326)およびグローバルカラーモデル(320)を使用して、ビデオオブジェクト境界(504)の正確性を実現する。2Dローカルグラフカットセグメント(206)を次いで使用して境界を精練化(508)することができる。境界を、ユーザが選択したウィンドウ(502)シーケンス内部で追跡し、ローカルカラーモデル(336)を用いて精練化することができる。

Description

ビデオシーケンスを行き来する移動オブジェクトのカットアンドペーストは、ビデオ処理の領域において多数の応用例を有する。オブジェクトのデジタルセグメントは上記のカットアンドペーストを可能とし、ビデオ処理においてますます評判の高い研究領域となった。
従来は、ビデオオブジェクトのカットアンドペーストは、ブルースクリーンマッティングまたは“ブルースクリーニング”とも呼ばれるクロマキーイングにより実施されてきた。クロマキーイングにおいては、前景のオブジェクトは通常は青または緑である無地色の背景の前でビデオ録画され、次いで公知の背景色を利用するマッティング技術を用いて背景から分離される。これらの技術は簡潔であるので、高速に前景を分離することができる。クロマキーイングをリアルタイムに計算するシステムもある。しかしながら、これらの方法は無地色の単純な背景に限定される。前景のオブジェクトが背景に類似した色を含むと、エラーが発生することがよくある。
ビデオオブジェクトの切り取りに対するいくつかの従来アプローチとしてシルエット追跡がある。これらの既存方法を一般の背景に適用して追跡プロセスに高い堅牢性を提供することができるが、それらはオブジェクト境界を不正確かつ粗く表現する平滑曲線を使用する。粗境界ディスクリプタはシルエットの細部を捕捉できないため、これらの技術は大部分のカットアンドペーストアプリケーションに対して不十分である。これらの粗境界技術を自動キーイングにより対話的に精練することができる。自動キーイングは、スプライン編集を通して細部の境界を調整するユーザインタフェースを提供する。しかしながら、それぞれのビデオフレームをユーザにより個々に修正しなければならないため、境界の細部を正確に描くのに必要な手動作業のコストが高い。
近年、従来のビデオマッティング技術における無地色背景の要件が緩和され、単一の同一背景色の代わりに滑らかな色変化が可能となった。上記のシナリオにおいてビデオマッティングが成功するか否か、例えばどれだけ正確にトライマップを伝播できるか、およびどれだけベイジアンマッティングをそれぞれの個別フレームで良好に実施できるかは様々な技術に依存する。
背景が複雑なときのビデオマッティングには、一般的なビデオシーケンスに対して2つの主な難点がある。第1に、多数のビデオは高速な動き、シルエットの変形、トポロジーの頻繁な変化を含み、これらはトライマップを双方向に伝播させる最先端のオプティカルフローアルゴリズムに対して非常に困難である。第2に、十分なユーザ対話で正確なトライマップを得ることが可能な場合でも、前景/背景が複雑なテクスチャを含むか、または前景の色が背景色と類似する際に、ベイジアンマッティング技術が不満足な結果を生むことがよくある。言い換えれば、背景が単一の無地色より複雑なとき、ビデオ再生中にビデオオブジェクトが変化したり動いたりする際のビデオオブジェクトの縁を自動的に決定することは、高度なプロセッサ集中型のタスクである。
課題を解決するための手段は、複数の概念から選択したものを簡潔な形で導入するために提供する。これらの概念は以下の発明を実施するための最良の形態でさらに説明する。本要約はクレーム主題の主要な特徴または本質的な特徴を特定するようには意図しておらず、クレーム主題の範囲を決定するための支援として使用するようにも意図していない。
上記を考慮して、ビデオオブジェクトのカットアンドペーストを説明する。一実施態様において、3Dグラフカットセグメントの前にビデオフレームを領域に予めセグメント化する。3Dグラフカットセグメントは一時的コヒーレンスおよびグローバルカラーモデルを使用してビデオオブジェクト境界の正確性を実現する。次に、2Dローカルグラフカットセグメントを使用して、前記境界を精練することができる。前記境界をユーザが選択したウィンドウのシーケンス内で追跡し、ローカルカラーモデルを用いて精練することができる。
概要
動いたり変化する可視オブジェクトを、時には複雑な場合もある動画シーケンス(ビデオクリップ)の背景から自動的に分離して(すなわち“切り取って”)、例えば、別の動画背景上に貼り付け可能とするシステムおよび方法を説明する。前記システムおよび方法は、切り取られるビデオオブジェクトの微細な外部境界の細部を保存できることが重要である。
前記システムおよび方法は、従来の技術よりも改善された特徴を有する3次元(3D)グラフカットセグメントを用いて、ユーザが少量のキーフレームマットを入力することにより複雑な形状変形を捕捉することができる。さらに、色が曖昧であるかまたは指定した前景と背景との間のコントラストが低いときでも、ローカルカラーモデルを用いてビデオオブジェクトの境界を正確に発見することができる。ローカルカラーモデルを用いて可視領域を正確に追跡するように双方向特性追跡技術を設計する。結果の切り取りビデオオブジェクトシーケンスは、他の背景に組み込むことが可能な状態である。
システムの例
図1はシステムの例100を示す。システム100において、ビデオカットアンドペーストエンジン102がコンピューティング装置104内に存在する。ビデオカットアンドペーストエンジン102は一時的に並べたビデオオブジェクト106(この場合、動くダンサー)をビデオクリップ108から切り取ることができ、その結果ビデオオブジェクト106を別の動画背景に貼り付けることができる。システム100は、周囲の背景“マット(matte)”110から切り取られるビデオオブジェクト106を、従来技術より高速に、使い易く、効率的な方式で区別する(すなわち、“セグメント化する”)ことにより、このような“グラフカット”を実施する。
3Dグラフカット動作は、ビデオオブジェクト106が移動してフレーム上のそのフットプリントをある2Dフレームから次のフレームへ変化させる間に、時間インターバルを表す2次元(2D)表面(ビデオフレーム)の時間列、すなわちビデオクリップ108からビデオオブジェクト106を切り取る。3Dグラフカットではオブジェクトを紙片から切り取るように可視オブジェクトを単一の2D表面から分離する点で、3Dグラフカットは2Dグラフカットとは異なる。3Dグラフカットの“3次元”は、長さ、幅、および深さから成る3空間次元ではなく、第3の時間次元を通って移動する(すなわち、再生されている)(ビデオフレームの)2つの空間次元を言う。しかしながら、本明細書で説明する技術の例は3Dグラフカットに必ずしも限定されず、本発明の態様を、例えばホログラフィックオブジェクトがその空間内の環境から切り取られ、別の環境を有する別の空間に挿入されるような4次元グラフカットに適用することもできる。
本明細書で説明するシステムおよび方法は、コヒーレントマッティング(coherent matting)の適用前に正確なバイナリセグメントを生成するという利点を有する。すなわち、修正コヒーレントマッティングは、切り取られるビデオオブジェクト106のアルファマットを生成する前段としてバイナリセグメントを使用する。コヒーレントマッティングは例えば従来のベイジアンマッティングよりも良い結果を生成することができる。なぜなら、コヒーレントマッティングは、アルファマットに対する正規化項を有するバイナリセグメント内の情報を完全に活用するからである。さらに、バイナリビデオセグメントを提供することにおいて、例示的なシステムはより正確な結果を取得し、輪郭追跡およびトライマップ(trimap)伝播から成る従来技術よりも使い易いユーザインタフェース(UI)を境界精練化に対して利用する。
主題の一実施態様はさらに2Dイメージセグメント化方法を使用する。この方法により、グラフカットアルゴリズムと組み合わせた単純なユーザ対話を用いて正確なオブジェクト境界を容易に得ることができる。
本明細書で説明するシステムおよび方法は、単に画素ではなく、ビデオオブジェクト106を処理するために、従来の画素レベルの3Dグラフカッティングを領域ベースのグラフカッティングに拡張する。ローカル精練化方法の例は、同様に追跡機能を使用する。
図2は、ビデオカットアンドペーストエンジン102により実装したグラフカッティングプロセスの例に対する1つの実装の概要200を示す。概要200において、事前セグメント化202を3Dグラフカット204の前に行う。“ウォーターシェッド”パーティショニング(すなわち、”ウォーターシェッドアルゴリズム”を用いること)を入力ビデオシーケンス上で実施する。これにより、セグメント化が大幅に促進される。すなわち、3Dグラフカットを行う前にこのウォーターシェッドセグメント化を実施することにより、ビデオカットアンドペースト動作が大幅に加速される。このウォーターシェッドパーティショニングは、エネルギー評価を用いたグラフ領域への粗いバイナリ事前セグメント化から成る。
次に、3Dグラフカット204は、ビデオクリップから選択した少数のモデルビデオフレームをセグメント化プロセスの初期開始点として使用する。これらのモデルビデオフレームを、ビデオオブジェクト106および背景の間のコントラストを示す効果に関して選択することができる。次いで、グラフカッティングプロセスの例は、隣接ビデオフレーム内の対応する“候補”イメージ領域に渡るフレーム間接続を自動的に形成し、ビデオフレームを越えて時間を通してオブジェクトが動いたり変化したりする際に、正確なオブジェクトセグメントを保存する。
ユーザは、ローカルカラーモデルを用いて、ローカル2Dグラフカット206で自動的に生成したビデオオブジェクト境界をさらに精練化することができる。キーフレーム間の双方向特徴追跡を提供することもできる。この双方向特徴追跡により、ユーザは自動的に生成したビデオオブジェクト境界を局所的に補正することができる。
境界精練化208に対する手動ツールも提供する。この手動ツールは自動セグメントを上書きして、オブジェクト境界における細部を指定または補正する。
修正コヒーレントマッティングプロセスの例210は、ビデオクリップ108のフレームに対して一連のマットを自動的に生成する。修正コヒーレントマッティングプロセスの例210は、前記の一連のマットを用いて、ビデオクリップ108から指定ビデオオブジェクト106を抽出し、前記ビデオオブジェクトの前景色を抽出する。
他の機能にはマップ保存が含まれる。マップ保存により、ユーザはユーザ対話とカットアンドペーストの設定を後の使用および修正のためにファイルに保存することができる。前記の他の機能にはオブジェクト貼り付けも含まれる。オブジェクト貼り付けにより、ユーザはセグメント化オブジェクトを新規背景に配置することができる。
エンジンの例
図3は、図1のビデオカットアンドペーストエンジン102をさらに詳細に示す。図3に示すビデオカットアンドペーストエンジン102は、1つの配置例を概観の目的で提供することを意図している。示したコンポーネントまたは同様のコンポーネントに対する多数の他の配置方法が可能である。上記のビデオカットアンドペーストエンジン102をハードウェア、ソフトウェア、またはハードウェア、ソフトウェア、ファームウェアの組み合わせ、等で実行することができる。
エンジンの例102にはバイナリセグメント化器302が含まれる。バイナリセグメント化器302は、ビデオオブジェクト106とその背景との間の境界を発見することを目的とする。すなわち、バイナリセグメント化器302はそれぞれの画素に対して、前記画素が前景(切り取られるビデオオブジェクト106)にあるかまたは背景(マットの一部)にあるかを決定することを目的とする。ビデオオブジェクト106内の画素とビデオオブジェクト106外部にある次の隣接画素との間で完全な切り取りまたは“セグメント化”が行われることが理想的である。しかしながら、エンジンの例102は、個々の画素ではなく一時的に変化する3Dビデオボリュームのビデオフレームの領域を考慮することにより、従来技術に勝る速度と正確性を得る。
バイナリセグメント化器302には、ビデオオブジェクト境界の全体的発見プロセスを実施するための3Dグラフカットセグメント化エンジン304と、3Dグラフカットセグメント化エンジン304により得られた結果を精練化するための2Dローカル境界精練化器306とが含まれる。これらコンポーネントの両方はユーザインタフェース308と対話する。
3Dグラフカットセグメント化エンジン304には、さらに、フレーム事前セグメント化エンジン310と3Dグラフエンジン312が含まれる。フレーム事前セグメント化エンジン310には、さらに、3Dボリュームバッファ314、ウォーターシェッドパーティション化器316、およびウォーターシェッドパーティション化器316により決定される領域318の記憶域が含まれる。3Dグラフエンジン312には、さらに、グローバルカラーエネルギー評価器320、フレーム内コネクタ324、およびフレーム間コネクタ326が含まれる。グローバルカラーエネルギー評価器320は、さらに、カラー比較器322を含むことができる。
2Dローカル境界精練化器306はローカル2Dグラフカッター328およびセグメント上書器330を含むことができる。ローカル2Dグラフカッター328には、さらに、双方向特徴トラッカー322、ビデオチューブエンジン334、およびローカルカラーモデラー336が含まれる。ビデオチューブエンジンにはウィンドウ指定器338が含まれる。セグメント上書器330には、一般に、ユーザインタフェースブラシツールのような、ビデオフレームの前景領域と背景領域を指定するためのユーザツール340が含まれる。ユーザインタフェース308はビデオディスプレイ342、ディスプレイ制御装置344、キーフレーム入力器346、およびオブジェクトセレクタ348を含むことができる。
マップセーバ350はバイナリセグメント化器302により得られるバイナリセグメントを保存することができる。これは、ユーザがローカル2Dグラフカッター328およびユーザツール340等である程度手動で干渉して実施した境界の修正を含むことができる。
バイナリセグメント化器302からのバイナリセグメント化結果を用いて、マット抽出器352は修正コヒーレントマッティングアルゴリズム354を適用してビデオクリップ108内の各フレームのアルファマット、すなわち“マットシーケンス”356を得ることができる。前景の色抽出器358は、3Dビデオオブジェクト106をオブジェクトシーケンス360として抽出する。オブジェクト貼付器362は、オブジェクトシーケンス360を複数の新規背景364の1つに置くことができる。
1つの実装において、ビデオカットアンドペーストエンジンの例102の動作を以下のように要約することができる。ビデオフレームの事前セグメント化領域318をウォーターシェッドパーティション化器316により決定する。次いで、3Dグラフカットセグメント化エンジン304は、セグメントを、時空間ビデオボリュームの事前セグメント化領域に適用し、バッファ314内に保持することができる。3Dグラフエンジン312は、ビデオオブジェクト106の一時的なコヒーレンスを保存するように事前セグメント化領域318を接続する。2Dローカル境界精練化器306はこの初期セグメント化結果を取得し、2Dローカル境界精練化器306によりユーザはローカル精練化用の領域318を指定することができる。ローカル精練化において、ローカル2Dグラフカッター328は、背景全体からの色の代わりに局所的な色を利用するローカルカラーモデラー336を有する。
ビデオオブジェクトカットアンドペーストエンジン102のより詳細な説明を行う。一般的なシナリオでは、ユーザは最初にキーフレーム入力器346を用いてビデオクリップ108から少数のキーフレームを選択し、オブジェクトセレクタ348を用いてそれらの正確な前景/背景セグメントを提供する。オブジェクトセレクタ348は従来のイメージスナッピングツールを含むことができる。1つの実装において、エンジン102は10フレーム間隔でキーフレームの標本を求め、その間のフレームの背景マットを生成するが、サンプル化速度は特定のビデオクリップ108におけるオブジェクトの動きに従って変化してもよい。動きが遅くなる、またはオブジェクトが変形した場合、低速なサンプル化速度を使用することができる。
3Dグラフカットセグメント化エンジン304はビデオクリップ108の時空間ボリュームに作用して、その時空間ボリュームを3Dボリュームバッファ314に記憶することができる。最適化プロセスを扱いやすくするため、フレーム事前セグメント化エンジン310はビデオクリップ108内のそれぞれのフレームを、VincentおよびSoilleのウォーターシェッドアルゴリズムのようなウォーターシェッド技術を用いて、多数の原子領域318に事前にセグメント化する。3Dグラフエンジン312はこれら原子領域318に基づいて3Dグラフを構築する。MortensenおよびBarrettのトボガニング(tobogganing)のような、代替的な事前セグメント化技術を使用することができる。いずれの場合も、3Dグラフカットセグメント化エンジン304は一時的接続を形成する。この一時的接続は、フレームからフレームへの一連の領域候補を保存し、従って明示的に動きを見積もらずに、一時的一貫性を埋め込む。
図4は3Dグラフ400を構築する例の概要を示す。この3Dグラフ400から3Dビデオオブジェクト106をセグメント化し、切り取ることができる。1つの実装において、領域r318に対してグラフエンジン312は3つのエネルギー量を用いて3Dグラフ400を構築する。先ず、3Dグラフエンジン312が、エネルギー項E1に従って、領域318を前景仮想ノード(例えば、404)および背景仮想ノード(例えば、406)に接続する。第2に、フレーム内コネクタ324が、エネルギー項E2に従って、領域318を単一フレーム(t)内部の隣接領域(例えば、408、410、412、414)に接続する。次いで、フレーム間コネクタ326は領域318を、エネルギー項E3を有する隣接フレーム上の候補領域(例えば、先行フレームt−1上の候補領域414、416、および418、ならびに後続フレームt+1上の候補領域422、424、426、428および430)に接続する。次いで、候補領域が、別の時点(すなわち、隣接ビデオフレーム上)ではカレント領域402にあるかも知れない隣接フレーム上の領域を表す。
図3のエンジンコンポーネントに戻ると、3Dグラフエンジン312が、従来技術のように個々の画素ではなくフレーム事前セグメント化エンジン310により得た“原子”領域318の上で、選択したキーフレームの各組の間で3Dグラフ400を構築する。色比較器322を用いて各領域318の色一貫性をキーフレーム内の前景/背景の色分布と比較し、次いでビデオオブジェクト106の前景/背景の境界に渡る領域の間で色差を最大化することにより、3Dグラフエンジン312はセグメント化を実施する。加えて、3Dグラフエンジン312は、3つのエネルギーを使用して最適化することにより、3Dグラフに埋め込んだ一時的なコヒーレンスを利用する。実際は、ビデオオブジェクトのシルエットの大部分を3Dグラフカットセグメント化エンジン304により正確に見つけることができる。
さらに詳細に述べると、3Dグラフエンジン312が、一意なラベルx∈{1(前景)、0(背景)}をそれぞれの領域318に割当てる。キーフレーム内の領域318は、例えば、オブジェクトセレクタ348からのラベルを既に有し、3Dグラフエンジン312はラベルを他のフレーム内の領域に割当てる。
3Dグラフエンジン312が、キーフレーム入力器346からの2つの連続キーフレームにより囲まれる3DボリュームΓ=〈ζ、A〉を構築する。ノード集合ζはウォーターシェッドパーティション化器316により生成した原子領域(例えば、318)を含む。アーク集合Aは2種類のアーク、すなわち、1つのフレーム内部のノードを接続するフレーム内アークA1および隣接フレームに跨るノードを接続するフレーム間アークAを含む。
フレーム内アークAを構築するため、フレーム内コネクタ324が、それぞれの領域r318を同一フレーム(I)内の隣接領域(例えば、402、404、406および408)の各々に接続する。フレーム間アークATを構築するため、平均色が領域r318の平均色と閾値T(一般には30ピクセル)以上異なるような明らかに無関係な領域は除いて、フレーム間コネクタ326はそれぞれの領域r318を、所与の半径(一般には15ピクセル)内にある隣接フレーム(I±1)内のそれぞれの候補領域(例えば、422、424、426、428、430)に接続する。“L”形または薄くて長い領域のような様々な形状を有する領域を扱うため、領域中心間のユークリッド距離の代わりに変形ダイレーションによって領域間の隣接性を計算する。3Dグラフエンジン312は、これらの候補接続集合を保持して隣接フレーム上で対応できるようにし、色比較器322により与えた最適化により、切り取るべきものを決定する。対応する可能性がある領域間の候補接続をフレームに渡って保持することにより、1つの対応のみを決定する従来の追跡方法よりも強力な堅牢性が得られる。
3Dグラフ生成器312は、式(1)のように3DグラフΓ上に定義したエネルギー関数を色比較器322に最小化させることで、対応する領域をラベル付けする。
Figure 2009500752
ここで、xは領域r318の前景/背景ラベルであり、
Figure 2009500752
である。第1項は“尤度エネルギー”Eであり、キーフレームにおける色情報から構築した前景色/背景カラーモデルに対する領域r318の色の適合性を表す。第2および第3項は“主エネルギー”、EおよびEである。Eは同一フレーム内における2つの隣接領域間の色差を表し、フレーム内コネクタ324により使用されて2つの同様な隣接領域が前景内部または背景内部に共存することを促進する。第3項Eは2つの隣接フレームにおける2つの隣接領域間の色差を表し、フレーム間コネクタ324により使用されてフレーム間アークAを通して一時的なコヒーレンスをグラフカット最適化プロセスに埋め込む。フレーム間コネクタ326はフレーム間の時間的接続を形成、すなわち、あるフレーム内の単一領域を後続フレーム内の複数の候補領域に接続し、数個の接続を最終段階の最適化で保持する。
グローバルカラーエネルギー評価器320は、キーフレーム内の色をサンプル化し、Eに対する前景色/背景カラーモデルを構築する。1つの実装において、グローバルカラーエネルギー評価器320はガウス混合モデル(GMM)を使用して前景色/背景色分布を記述する。前景GMMのm番目の成分は(W 、μ 、Σ )で表され、重み、平均色、および共分散行列を表す。グローバルカラーエネルギー評価器320はM個の成分を使用して前景色または背景色を記述する。従って、m∈[1、M]であり、一般にM=6である。
所与の色cに対し、その前景GMMに対する距離を式(2)のように定義する。
Figure 2009500752
ここで、式(3)に示すように、
Figure 2009500752
である。
かつ、式(4)に示すように、
Figure 2009500752
である。
領域r318に対してその前景GMMに対する距離を、前記領域内部の全画素の距離の期待値として定義し、〈d〉で表す。背景色に対する距離〈d〉を同様に定義する。次いで、尤度エネルギーE(xγ)を表1のように定義する。
Figure 2009500752
{F}および{B}はそれぞれキーフレーム内の前景領域および背景領域の集合であり、それらのラベルが入力である。0および∞をEに割当てることで、最適化においてこれらの強い制約を課す。
2つのエネルギーEおよびEを2つの領域rおよびsの間の色類似性に関して式(5)のように定義する。
Figure 2009500752
ここで、‖cγ−c‖はRGB色差のLノルムである。
堅牢性パラメータβは色コントラストを重み付けし、β=(2〈‖cγ−c〉)−1に設定することができる。ここで、〈・〉は期待値演算子である。グローバルカラーエネルギー評価器320はβをEおよびEに対して別々に計算する。要素|xγ―x|により、エネルギーをセグメント境界に渡る接続に対してのみ考慮することができる。主エネルギーEおよびEは、隣接ノードに異なるラベルを割当てる際のペナルティ項である。
3Dグラフエンジン312は効率的なグラフカットアルゴリズムを用いることで式(1)の目的関数をグローバルに最小化し、各領域に対する結果として得たラベルがビデオボリューム内のセグメントを決定する。
3Dグラフ構築において、グラフ内の仮想前景(または背景)に対するアークのエッジコストはE(0)(E(1))であり、フレーム内アークまたはフレーム間アークのエッジコストはe-β‖cr−cs‖2である。同様な色を有するノードc−c間のアークのコストは高くなる。
1つの実装において、グローバルカラーエネルギー評価器320はデフォルトパラメータをλ=24、λ=12に固定する。これらの値により、3Dグラフカットセグメント化エンジン304はビデオオブジェクト106の境界を合理的な速度で無事に計算することができる。
グローバルカラーエネルギー評価器320はキーフレームからグローバルに前景色/背景色の分布を構築するので、3Dグラフカットセグメントの結果が、前景色がビデオクリップ108の異なる部分の背景色に一致する場所(逆も真である)では芳しくない可能性がある。従って、2Dローカル境界精練化器306にはビデオチューブエンジン334が含まれる。ビデオチューブエンジン334により、ユーザは非常に局所的な境界精練化を適用することができる。“ビデオチューブ”とは、時間にわたるビデオフレームフットプリントの小領域であり、この中でローカルカラーモデルのみをグラフカットセグメントにおいて使用する。局所的な色を隔離することにより、セグメント境界を大幅に改善することができる。ビデオチューブエンジン334にはウィンドウ指定器338が含まれる。ウィンドウ指定器により、ユーザはローカル境界精練化が生ずるビデオフレーム内の領域を指定することができる。1つの実装においてユーザは方形(ウィンドウ)を描く。その方形は、フレームに渡って伝播し、セグメントを自身の境界内部に限定する。ウィンドウ指定器338を通して方形を描くことは、ユーザインタフェース308およびディスプレイ344を通して実現することができる。
1つの実装において、ビデオチューブエンジン334のウィンドウ指定器338はビデオチューブを方形ウィンドウ{W} t=1、すなわち、Tフレームに渡るビデオフレームのサブ部分として定義する。ビデオチューブを指定するには、ユーザは2つのキーウィンドウWおよびWを選択する必要があるだけである。WおよびWはそれぞれ、選択されているビデオチューブの最初と最後のウィンドウである。残りのウィンドウは、双方向特徴追跡器332により自動的に突き止められる。
1つの実装において、ビデオチューブエンジン334は、ローカルカラーモデラー336が局所的な前景/背景モデルを精練化のために取得可能であるように、WとWとの間には少なくとも1つのキーフレームがあることを決定する。また、ビデオチューブエンジン334は、交点により最適化において重い制約が与えられるので、チューブ境界が(ビデオオブジェクト106の縁にある前景と背景の間の)セグメント境界において正確であることを決定する。
2Dローカル境界精練化器306が追跡を実施した後、ローカル2Dグラフカッター328が、制約付き2D画素レベルグラフカットセグメントを、キーフレーム(複数)上の対応するビデオチューブウィンドウから構築した前景および背景カラーモデルを用いてそれぞれのビデオチューブウィンドウに適用する。最後に、2Dローカル境界精練化器306は、この精練化したセグメント化結果をそれぞれのビデオチューブから、ビデオチューブウィンドウに隣接する既存のビデオオブジェクト境界へシームレスに接続する。
図5は2D境界精練化の例を、ちょうど説明したビデオチューブを用いて示す。ビデオチューブウィンドウ502が、ユーザにより既存のセグメント化結果506の境界504上に配置される。ローカル2Dグラフカッター328はローカルカラーモデラー336が発見した局所的な色を用いてセグメント化を実施する。この境界精練化において、ウィンドウ502の端にある最外画素を既存のセグメント化結果に従って前景/背景の強い制約としてラベル付けし、その結果、ウィンドウ502の内部画素に対して決定されるもの全てが、3Dグラフカットセグメントからの既存のセグメント化結果506とシームレスに接続する。ウィンドウ選択の開始時はウィンドウ502の各内部画素の前景/背景の状態は不確定であり、より精練化された境界508によって決定される。この2Dグラフカットセグメント化結果、および(破線で示された)精練化した境界508を用いて以前のセグメント境界504を置き換える。ビデオチューブウィンドウ502が以前のセグメント境界504と交わる2つの交点510および512は同じ位置に留まるが、精練化した境界508の残りは以前の境界504と異なる可能性がある。
双方向特徴追跡
双方向特徴追跡器332をより詳細に説明する。2つのキーウィンドウWとW、すなわち、ビデオチューブの第1のウィンドウと最後のウィンドウが与えられると、双方向特徴追跡器332は中間フレーム内のウィンドウ位置を追跡する。WとWの大きさは異なってもよく、ユーザにより調節することができる。追跡前に、中間のウィンドウ(の位置および大きさの両方)をWとWから線形補間する。
ビデオチューブエンジン334は、ビデオチューブ内のウィンドウWの中間位置をpで表す。ビデオチューブエンジン334は、さらにそれぞれのウィンドウ位置に対して検索範囲Sを定義する。ウィンドウの全位置
Figure 2009500752
は以下の式(6)に示す目的関数を最小化することにより求めることができる。
Figure 2009500752
ここで、D(pt1,pt2)は、ウィンドウWt1およびWt2の間の、それらの中心pt1、pt2が並ぶときのそれら重複領域における色距離の2乗の和である。項
Figure 2009500752
および
Figure 2009500752
は最適化前のウィンドウWt−1およびWの位置であり、線形補間で計算する。1つの実装では、η=0.1およびη=1である。
式(6)の第1項は、キーウィンドウに関するウィンドウの色一貫性を最適化するように設計される。ビデオチューブエンジン334は最も一致するキーウィンドウを選択してこのコストを計算し、長時間に渡る特徴変化を可能とする。第2項はビデオチューブの平滑性を強制する。第3項は隣接ウィンドウ間の色差を最小化するためにある。キーウィンドウの位置は、それらがユーザにより配置されたので本最適化において固定されることに留意されたい。それぞれのウィンドウが2つのキーウィンドウから2方向に情報を受信するので、前記追跡を“双方向的”と称する。
1つの実装において、式(6)の目的関数を動的プログラミング(DP)アルゴリズムを用いて最適化することができる。双方向特徴追跡器332は前記最適化に対してマルチスケール法を使用することができる。先ず、双方向特徴追跡器332はビデオクリップ108内の各フレームに対してガウスピラミッドを構築し、それぞれの高次レベルは直下レベルのフレームサイズの半分である。双方向フレーム追跡器322はそれに応じてウィンドウの位置とサイズを拡大または縮小する。次いで、双方向フレーム追跡器322はピラミッドの頂上から始めてそれぞれのレベルにおいて、前のレベル内の最適化位置に集中させた検索範囲S内で最適化を実施する。最上位レベルに対しては、双方向特徴追跡器332はキーウィンドウからのWの初期位置を線形補間する。一般に、NTSCビデオ(720×480ピクセル)に対して、L=4個のレベルがあり、それぞれのレベルでSは7×7の正方形ウィンドウである。
ビデオチューブを配置すると、2Dローカル境界精練化器306はそれぞれのウィンドウ内で2Dグラフカットセグメント化を実施し、既存のセグメント境界を精練化する。2Dグラフを式(7)に示すように画素レベルで構築する。
Figure 2009500752
ここで、xは画素iのラベルであり、ζ'は追跡されている全ての画素で、A'は画素間の8つの近傍の関係である。EおよびEは、領域を画素で置き換えることを除いて式(1)と同様な定義を有する。1つの実装において、λ'の値は、一般に10に設定される。
精練化を既存のセグメント境界にシームレスに埋め込むため、ローカル2Dグラフカッター328は既存のセグメント境界結果に従って自動的に前景および背景の強い制約を生成する。図5に示すように、ウィンドウ内部の全画素のラベルは、ウィンドウ境界上の画素を除いて、ローカル2Dグラフカッター328により解決される。既存のセグメント境界の前景にある場合、これらの画素は前景の強い制約として印を付けられる。そうでなければ、背景の強い制約として印を付けられる。これらの強い制約のため、図5に示すようにローカル2Dグラフカッター328は、ウィンドウのすぐ外側の既存境界にシームレスに接続したウィンドウ内部に結果を生成する。
上述のように、ビデオチューブ内には少なくとも1つのキーフレームがなければならない。ビデオチューブエンジン334はキーフレーム内のウィンドウ内部の画素を収集して、上のE項に関するビデオチューブに対して前景/背景GMMを計算する。3Dグラフカットセグメント化エンジン304が使用するグローバルカラーモデルと比較して、ローカル2Dグラフカッター328はより正確なカラーモデルをローカルウィンドウにおいて使用して、大幅に改善した結果を取得する。これが、2Dグラフカッター328を2Dローカル境界精練化に使用する理由である。
図6はローカル精練化の前後のセグメント化結果を示す。3Dグラフカットセグメント化エンジン304を介してローカル境界精練化器306が生成した前記精練化には、正確なユーザ対話は必要でない。実際、ユーザは無関係な色を除外するようにビデオチューブウィンドウをフレームに置くだけでよい。フレーム602aにおいて、示された人物の制服の記章は、背景内の旗と同様な赤色である。3Dグラフカットセグメント化エンジン304はグローバルカラーエネルギー評価器320を使用するので、3Dグラフエンジン312が赤色の記章が背景の一部であると決定するような、フレーム602bに示す境界誤差が導入される可能性ある。それは、記章が制服の可視外縁上にあり、緑色の制服の残部分とは一際異なる色を有するからである。実際、赤色の旗がフレーム602a内で目立って存在するので、グローバルカラーエネルギー評価器320は赤が強い背景色であると考える。しかしながら、フレーム604において2Dローカル境界精練化器306は、より小さい長方形のビデオチューブウィンドウ606内部でローカルカラーモデラー336を使用する。無関係なグローバルカラー情報を除外するローカルカラーモデルにより、境界はより正確に精練化される。
セグメント上書器の例
現実のビデオオブジェクト境界の周囲に曖昧な縁がある、または境界のコントラストが非常に低いとき、ローカル2Dグラフカッター328は正確なビデオオブジェクト境界を生成できない可能性がある。これは、人の指のビデオといった、微細な構造を自動的に区別できない薄い可視構造に対して特に当てはまる。これらの難点を手動で解決するため、セグメント上書器330を提供することができる。1つの実装において、セグメント上書器330はユーザツール340を有する。ユーザツール340によりユーザは、例えば明確な前景領域と明確な背景領域とを識別する2つの上書きブラシを用いて、非常に正確にオブジェクト境界を直接制御することができる。さらに、後の使用のため、ユーザの上書き動作をディスクに保存してロードすることができる。
バイナリセグメント化器の例302がビデオクリップ108をセグメント化すると、マット抽出器352が貼り付け用にビデオオブジェクト106を抽出する。1つの実装において、マット抽出器352はビデオオブジェクト境界に対して部分アルファマットを計算するようにコヒーレントマッティングアルゴリズム354を適応させる。1つの実装において、マット抽出器352は、アルファに対して正規化項を導入することにより従来のベイジアンマッティングを改善する。従ってマット抽出器352は以前のバイナリセグメント境界に従うアルファマットを生成し、前景色/背景色が類似しているときでも良好に動作する。
マット抽出器352は、バイナリビデオオブジェクト境界を一般には10ピクセルだけダイレーションすることにより、不明確な境界領域を処理する。前景内の小穴またはシンギャップに対し、このダイレーションの結果、近隣でサンプル化される背景色はない。この場合、マット抽出器352はその代わりとして近傍のフレームから背景色をサンプル化する。
マット抽出器352は、ビデオオブジェクトのアルファマットを取得してマットシーケンス356を構成し、前景色抽出器358を有してビデオオブジェクトシーケンス360に対して前景色を取得する。次いで、オブジェクト貼付器362は、切り取ったビデオオブジェクトシーケンスを新規背景364に貼り付けることができる。
実験結果
実験例において、3.1GHzのコンピュータで試験を実施した。ソースビデオクリップ108をDVカメラにより、12.5フレーム/秒の速度のプログレッシブスキャンモードで撮影した。それぞれのビデオクリップ108をセグメント当たり約30フレームに分割し、それぞれのセグメントを独立にロードおよび処理した。キーフレームを通常は10フレーム毎にサンプル化したが、ビデオクリップ108の中には速い動きや陰影変化のため、より密な標本を必要とするものもあった。
処理時間は、前述したビデオクリップ108のセグメントの各々に対して約30分であった。1つの実験例において、フレーム事前セグメント化エンジン310による処理および他の計算が処理時間の約20%を占め、ビデオチューブエンジン334による追跡および調整が処理時間の約40%を占め、セグメント上書器330による上書き動作が処理時間の残り40%を占めた。
中間結果の保存
前処理は、それぞれのセグメントに対し、一般に1回だけ実施され、ウォーターシェッドパーティション化器316および3Dグラフカットセグメント化エンジン304からの結果は、一般にはマップサーバ350により保存され、要望に応じて再利用することができる。3Dグラフエンジン312は、使用した処理時間の大部分に対して一般には責任を負わない。
モデルの例
図7はビデオシーケンスからビデオオブジェクトをセグメント化する方法の例700を示す。フロー図において、動作を個々のブロックに要約してある。方法の例700の一部をハードウェア、ソフトウェア、または両方の組合せにより実施することができ、例えばビデオカットアンドペーストエンジンの例102のコンポーネントにより実施することができる。
ブロック702で、ビデオシーケンスのフレーム内部で領域を確立する。例えば、フレーム事前セグメント化エンジン310はウォーターシェッドアルゴリズムを適用してビデオフレームを原子領域にレンダリングすることができる。画素の代わりに領域を使用すると多くの利点がある。1つには、領域での作業には処理能力が少なくてよく、ビデオのカットアンドペースト動作を高速化することができる。所与の領域はビデオシーケンスの再生中に位置、形状、および色等を変更可能であるので、そのような動くオブジェクトの境界を定義する上での難点の1つは、ビデオシーケンスのフレームを通して領域を正確に追跡することである。
従って、ブロック704で、一時的なコヒーレンスを前記領域の3Dグラフに埋め込む。3Dグラフエンジン312は例えば、同一フレーム上の隣接領域間だけでなく、一時的に隣接するビデオフレーム上の領域と可能な“候補”領域との間でも関連性を形成することにより、3Dグラフを構築することができる。これによりシーケンスのフレーム間にある所与領域の識別が一貫し、次いでこれによりビデオシーケンス内のビデオオブジェクトをよりはっきりと区別することができる。なぜなら、領域が複数フレームに渡って移動および変形する際の、所与領域がビデオオブジェクト106の一部であるかまたは背景の一部であるかに関する不確実性が少ないからである。
ブロック706で、3Dグラフカットセグメントをグローバルカラーモデルに基づいて適用する。3Dグラフカットセグメント化エンジン304は例えば、少数のキーフレーム、すなわち切り取られるビデオオブジェクトの良好なモデルとして選択したものを用いることで、ビデオオブジェクトの可視境界を発見し始めることができる。グローバルカラーモデルはこれらのキーモデルフレームからビデオシーケンス内の他のフレームに向かって動作し、ビデオオブジェクトの可視縁を背景色から区別することができる。3Dグラフを個々の画素ではなく領域上に構築するので、本セグメントは従来のセグメント化技術より高速である。
ブロック708で、2Dグラフカットセグメントをローカルカラーモデルに基づいて適用する。2Dローカル境界精練器306は例えば、境界精練化をビデオフレーム内部のユーザ選択ウィンドウ内に含まれるものに限定することができる。選択ウィンドウをビデオシーケンスのフレームに渡って自動的に伝播させることができ、ビデオオブジェクト境界の精練化に関する決定に用いる色をウィンドウのシーケンス内部のものに限定することができる。これにより、ビデオオブジェクトがその可視縁において微細な細部を有するときに、非常に正確なビデオオブジェクト境界を生成することができる。
結論
前述の議論はビデオオブジェクトのカットアンドペーストのシステムおよび方法の例を説明する。主題を構造的特徴および/または方法論的動作に固有な言語で説明したが、添付特許請求の範囲項で定義した主題は、上述の特定の特徴または動作に必ずしも限定されないことを理解されたい。むしろ、上述の特定の特徴および動作は、特許請求の範囲を実装する形態例として開示されている。
ビデオカットアンドペーストシステムの一例の図である。 ビデオオブジェクトカットアンドペーストプロセスの一例の概要図である。 ビデオオブジェクトカットアンドペーストエンジンの一例のブロック図である。 3Dグラフ構築の一例の図である。 ビデオオブジェクト境界を精練する技術の一例の図である。 3Dおよび2Dセグメント化結果の一例の図である。 ビデオオブジェクトをビデオシーケンスからセグメント化する方法の一例のフロー図である。

Claims (20)

  1. ビデオシーケンス(108)のフレームを、前記ビデオシーケンス(108)内のビデオオブジェクト(106)の輪郭(504)を指定する3Dグラフカットセグメント(204)を適用する前に分割すること(702)と、
    隣接ビデオフレームにおける対応領域(318)の間の関連を形成することにより、一時的なコヒーレンスを前記3次元グラフ(400)に埋め込むこと(326)を含む3次元グラフ(400)を構築すること(704)と、
    グローバルカラーモデルに従って前記3Dグラフカットセグメント(204)を前記3次元グラフ(400)に適用して(706)、前記ビデオオブジェクトの前記輪郭(504)を表現するバイナリセグメントを導出することと、
    ローカルカラーモデルに従って2Dグラフカットセグメントを少なくともいくつかのバイナリセグメントに適用して(708)、前記ビデオオブジェクト(106)の精練化した輪郭(508)を得ることと
    を備えたことを特徴とする方法。
  2. 前記ビデオシーケンス(108)のフレームを領域(318)に分割することが、ウォーターシェッド技術(316)を用いて前記ビデオシーケンス(108)を事前にセグメント化(202)することを含むことを特徴とする請求項1に記載の方法。
  3. 修正コヒーレントマッティング技術(210)(354)を前記バイナリセグメント(302)に適用して(706)、前記ビデオシーケンス(108)から前記ビデオオブジェクト(106)を切り取るマットシーケンス(356)を得ることをさらに備えたことを特徴とする請求項1に記載の方法。
  4. 前記ビデオオブジェクト(106)を前記ビデオシーケンス(108)から切り取ること、および前記ビデオオブジェクト(106)を別のビデオシーケンス(364)に貼り付けることをさらに備えたことを特徴とする請求項3に記載の方法。
  5. ウィンドウ選択入力(338)を受信することであって、前記ウィンドウ選択入力(338)が、前記ビデオシーケンスのビデオフレームの部分(502)を指定する受信することと、
    前記ウィンドウ選択入力(338)に基づいて前記ビデオシーケンス(108)内部に一時的なウィンドウのシーケンス(334)を自動的に生成することと、
    前記ウィンドウのシーケンス(334)内部で前記2Dグラフカットセグメント(328)を適用することと、
    前記ローカルカラーモデル(336)を前記ウィンドウのシーケンス(334)内部の色に限定することと
    を備えたことを特徴とする請求項1に記載の方法。
  6. ビデオシーケンス(108)のフレームを領域(318)に事前にセグメント化すること(202)と、
    前記ビデオシーケンス(108)の2つのモデルフレーム(110)を選択することであって、前記2つのモデルフレーム(110)の各々はビデオオブジェクト(106)を表す前景と、背景とを有する選択することと、
    単一フレーム上の領域(318)を同一フレーム上の隣接領域(408、410、412、414)と関連付けることと、
    前記単一フレーム上の領域(318)を隣接フレーム上の対応する候補領域(416、418、420)(422、424、426、428、430)と関連付けることと
    を含む、前記2つのモデルフレームにより一時的に囲んだフレームの3Dボリュームから3次元(3D)グラフ(400)構築することと、
    グローバルカラーモデルに従って前記3Dグラフ(400)を関連する前景領域と関連する背景領域とにセグメント化すること(706)であって、前記の関連する前景領域は前記ビデオシーケンス(108)のフレーム内の前記ビデオオブジェクト(106)を表すことと
    を備えたことを特徴とする方法。
  7. フレームの事前にセグメント化(202)は、ウォーターシェッド技術(316)またはトボガニング技術を用いることを特徴とする請求項6に記載の方法。
  8. 前記単一フレーム上の前記領域(318)を隣接フレーム上の候補対応領域(416、418、420)(422、424、426、428、430)と関連付けることが、前記単一フレーム上のある領域(318)を、前記隣接フレーム上の対応しうる領域の位置の所与半径内にある、隣接フレーム上の領域と関連付けることをさらに含むことを特徴とする請求項6に記載の方法。
  9. 前記単一フレーム上の前記領域(318)を隣接フレーム上の候補対応領域(416、418、420)(422、424、426、428、430)と関連付けることが、前記単一フレーム上の領域を、前記単一フレーム上の領域と前記隣接フレーム上の領域との間の色エネルギー比較(320)によって、前記隣接フレーム上の領域と関連付けることをさらに含むことを特徴とする請求項6に記載の方法。
  10. 前記3Dグラフ(400)を関連する前景領域と関連する背景領域とにセグメント化することが、前記3Dグラフ(400)のエネルギー関数(322)を最小化することにより実現されることを特徴とする請求項6に記載の方法。
  11. 最小化される前記エネルギー関数(322)が、
    Figure 2009500752
    で表され、ここで、XおよびXはそれぞれ領域rおよびsの前景/背景ラベルであり、
    Figure 2009500752
    であって、Eは領域rの色の、前記2つのモデルフレームにおける色情報に関連付けられる前景/背景カラーモデルに対する適合を表し、Eは同一フレームにおける2つの隣接領域間の色差を表し、Eは2つの隣接フレームにおける2つの領域間の色差を表し、λおよびλは定数であることを特徴とする請求項10に記載の方法。
  12. 前記グローバルカラーモデル(320)が、前記の2つのモデルフレームからグローバルに導出した前景色/背景色分布を含むことを特徴とする請求項6に記載の方法。
  13. 前記3Dグラフ(400)のビデオチューブ部分(334)を特定することであって、前記ビデオチューブ(334)が、ビデオフレームの一部(502)と前記ビデオシーケンス(108)の他のビデオフレームの対応部分とを含む特定することと、
    前記ビデオチューブ(334)を有する前記前景領域と前記背景領域との間の境界(504)を精練化するために、ローカルカラーモデル(336)を、前記ビデオチューブ部(334)内部の2次元(2D)グラフカットセグメント(328)に適用することと
    をさらに含む請求項6に記載の方法。
  14. 前記のビデオチューブ部(334)を指定することが、第1フレーム上の第1ビデオチューブウィンドウ(502)と第2フレーム上の第2ビデオチューブウィンドウ(502)とを指定することをさらに含み、前記2つのモデルフレーム(110)の少なくとも1つが前記第1フレームと第2フレームとの間にあることを特徴とする請求項13に記載の方法。
  15. 前記第1フレームと前記第2フレームとの間のフレーム上で前記ビデオチューブ(334)の追加ウィンドウを自動的に生成するために、前記第1または第2のウィンドウ(502)の1つを前記ビデオシーケンス(108)の一部を介して双方向追跡(332)することをさらに備えたことを特徴とする請求項14に記載の方法。
  16. 前記の2つのモデルフレームの1つにおいて前記ビデオチューブウィンドウ(502)のうち1つの色から導出したローカル前景カラーモデルおよびローカル背景カラーモデル(336)を用いて、2Dグラフカットセグメント(206)を前記ビデオチューブ部分(334)のそれぞれのウィンドウ(502)に適用することをさらに備えたことを特徴とする請求項13に記載の方法。
  17. 前記ビデオチューブウィンドウ(502)内の精練化した境界(508)を、前記ビデオチューブウィンドウ502に隣接する先在の境界(510、512)にシームレスに接続することをさらに備えたことを特徴とする請求項16に記載の方法。
  18. 前記3Dセグメントまたは前記2Dセグメントの1つを行った後にビデオフレームの前景画素および背景画素を手動で割り当てること(340)により、前記3Dセグメントおよび前記2Dセグメントを上書きすることをさらに備えたことを特徴とする請求項15に記載の方法。
  19. 前記前景領域を前記背景領域から分離するために、修正コヒーレントマッティング技術(210、354)を適用することをさらに備えたことを特徴とする請求項6に記載の方法。
  20. ビデオシーケンス内部でフレームからフレームに持続する可視領域(318)を決定する手段と、
    前記ビデオシーケンスの前記領域(318)から3次元グラフ(400)を構築する手段と、
    前記ビデオシーケンス(108)の隣接フレーム内の対応領域(318)(416、418、420)(422、424、426、428、430)間の関連を含めることで、一時的なコヒーレンスを3次元グラフ(400)内に埋め込む(326)手段と、
    セグメント化結果を得るために、前記ビデオシーケンス(108)のグローバルな色に基づいて、3次元グラフカットセグメント(204)を前記3次元グラフ(400)に適用する手段と、
    前記セグメント化結果のローカル部分(502)を指定する手段と、
    2次元グラフカットセグメント(206)を前記ローカル部分(502)のローカルカラー(336)に基づいて前記ローカル部分(502)に適用する手段と
    を備えることを特徴とするシステム。
JP2008520335A 2005-07-01 2006-06-29 ビデオオブジェクトのカットアンドペースト Expired - Fee Related JP4954206B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/173,882 US7609888B2 (en) 2005-07-01 2005-07-01 Separating a video object from a background of a video sequence
US11/173,882 2005-07-01
PCT/US2006/025997 WO2007005839A2 (en) 2005-07-01 2006-06-29 Video object cut and paste

Publications (2)

Publication Number Publication Date
JP2009500752A true JP2009500752A (ja) 2009-01-08
JP4954206B2 JP4954206B2 (ja) 2012-06-13

Family

ID=37589606

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008520335A Expired - Fee Related JP4954206B2 (ja) 2005-07-01 2006-06-29 ビデオオブジェクトのカットアンドペースト

Country Status (9)

Country Link
US (1) US7609888B2 (ja)
EP (1) EP1899897B1 (ja)
JP (1) JP4954206B2 (ja)
KR (1) KR20080040639A (ja)
CN (1) CN101501776B (ja)
AU (1) AU2006265633A1 (ja)
BR (1) BRPI0613102A2 (ja)
CA (1) CA2613116A1 (ja)
WO (1) WO2007005839A2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013103032A1 (ja) * 2012-01-05 2013-07-11 オムロン株式会社 画像検査装置の検査領域設定方法
JP2013251803A (ja) * 2012-06-01 2013-12-12 Casio Comput Co Ltd 動画生成装置、動画生成方法、及び、プログラム
JP2014071666A (ja) * 2012-09-28 2014-04-21 Dainippon Printing Co Ltd 画像処理装置、画像処理方法、及びプログラム
JP2016095854A (ja) * 2014-11-14 2016-05-26 華為技術有限公司Huawei Technologies Co.,Ltd. 画像処理方法及び装置

Families Citing this family (67)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7672516B2 (en) * 2005-03-21 2010-03-02 Siemens Medical Solutions Usa, Inc. Statistical priors for combinatorial optimization: efficient solutions via graph cuts
US20080030497A1 (en) * 2005-12-08 2008-02-07 Yangqiu Hu Three dimensional modeling of objects
WO2007085950A2 (en) 2006-01-27 2007-08-02 Imax Corporation Methods and systems for digitally re-mastering of 2d and 3d motion pictures for exhibition with enhanced visual quality
EP2160037A3 (en) * 2006-06-23 2010-11-17 Imax Corporation Methods and systems for converting 2D motion pictures for stereoscopic 3D exhibition
US7920720B2 (en) * 2006-06-26 2011-04-05 Keystream Corporation Computer-implemented method for object creation by partitioning of a temporal graph
US8103068B2 (en) * 2006-09-29 2012-01-24 Cornell Research Foundation, Inc. Methods and systems for reconstruction of objects
US8059894B1 (en) 2006-12-19 2011-11-15 Playvision Technologies, Inc. System and associated methods of calibration and use for an interactive imaging environment
US8055073B1 (en) * 2006-12-19 2011-11-08 Playvision Technologies, Inc. System and method for enabling meaningful interaction with video based characters and objects
US7809189B2 (en) * 2007-01-12 2010-10-05 Arcsoft, Inc. Method for image separating
US8411952B2 (en) * 2007-04-04 2013-04-02 Siemens Aktiengesellschaft Method for segmenting an image using constrained graph partitioning of watershed adjacency graphs
TWI373718B (en) * 2007-07-06 2012-10-01 Quanta Comp Inc Classifying method and classifying apparatus for digital image
DE102007045835B4 (de) 2007-09-25 2012-12-20 Metaio Gmbh Verfahren und Vorrichtung zum Darstellen eines virtuellen Objekts in einer realen Umgebung
DE102007045834B4 (de) 2007-09-25 2012-01-26 Metaio Gmbh Verfahren und Vorrichtung zum Darstellen eines virtuellen Objekts in einer realen Umgebung
JP4998787B2 (ja) * 2007-09-26 2012-08-15 楽天株式会社 物体領域抽出処理プログラム、物体領域抽出装置、および物体領域抽出方法
EP2235859A1 (en) * 2008-01-30 2010-10-06 Hewlett-Packard Company A method for streaming video data
US8249349B2 (en) 2008-11-25 2012-08-21 Microsoft Corporation Labeling image elements
US8908995B2 (en) 2009-01-12 2014-12-09 Intermec Ip Corp. Semi-automatic dimensioning with imager on a portable device
JP2010205067A (ja) * 2009-03-04 2010-09-16 Fujifilm Corp 領域抽出装置、領域抽出方法及び領域抽出プログラム
US8306283B2 (en) * 2009-04-21 2012-11-06 Arcsoft (Hangzhou) Multimedia Technology Co., Ltd. Focus enhancing method for portrait in digital image
US8811745B2 (en) * 2010-01-20 2014-08-19 Duke University Segmentation and identification of layered structures in images
JP2012058845A (ja) 2010-09-06 2012-03-22 Sony Corp 画像処理装置および方法、並びにプログラム
US9218782B2 (en) * 2011-11-16 2015-12-22 Stmicroelectronics International N.V. Video window detection
WO2013117961A1 (en) * 2012-02-07 2013-08-15 Nokia Corporation Object removal from an image
US9779546B2 (en) 2012-05-04 2017-10-03 Intermec Ip Corp. Volume dimensioning systems and methods
US10007858B2 (en) 2012-05-15 2018-06-26 Honeywell International Inc. Terminals and methods for dimensioning objects
US10321127B2 (en) 2012-08-20 2019-06-11 Intermec Ip Corp. Volume dimensioning system calibration systems and methods
US9939259B2 (en) 2012-10-04 2018-04-10 Hand Held Products, Inc. Measuring object dimensions using mobile computer
US20140104413A1 (en) 2012-10-16 2014-04-17 Hand Held Products, Inc. Integrated dimensioning and weighing system
KR20140098950A (ko) * 2013-01-31 2014-08-11 한국전자통신연구원 3차원 동영상 생성 장치 및 방법
US9330718B2 (en) 2013-02-20 2016-05-03 Intel Corporation Techniques for adding interactive features to videos
CN103997687B (zh) * 2013-02-20 2017-07-28 英特尔公司 用于向视频增加交互特征的方法及装置
US9080856B2 (en) 2013-03-13 2015-07-14 Intermec Ip Corp. Systems and methods for enhancing dimensioning, for example volume dimensioning
US10228452B2 (en) 2013-06-07 2019-03-12 Hand Held Products, Inc. Method of error correction for 3D imaging device
US10121254B2 (en) 2013-08-29 2018-11-06 Disney Enterprises, Inc. Methods and systems of detecting object boundaries
CN104516733B (zh) * 2013-09-30 2018-01-09 北京新媒传信科技有限公司 一种可视化控件的优化方法及装置
GB2523330A (en) 2014-02-20 2015-08-26 Nokia Technologies Oy Method, apparatus and computer program product for segmentation of objects in media content
US9823059B2 (en) 2014-08-06 2017-11-21 Hand Held Products, Inc. Dimensioning system with guided alignment
US9779276B2 (en) 2014-10-10 2017-10-03 Hand Held Products, Inc. Depth sensor based auto-focus system for an indicia scanner
US10810715B2 (en) 2014-10-10 2020-10-20 Hand Held Products, Inc System and method for picking validation
US10775165B2 (en) 2014-10-10 2020-09-15 Hand Held Products, Inc. Methods for improving the accuracy of dimensioning-system measurements
US9752864B2 (en) 2014-10-21 2017-09-05 Hand Held Products, Inc. Handheld dimensioning system with feedback
US10060729B2 (en) 2014-10-21 2018-08-28 Hand Held Products, Inc. Handheld dimensioner with data-quality indication
US9897434B2 (en) 2014-10-21 2018-02-20 Hand Held Products, Inc. Handheld dimensioning system with measurement-conformance feedback
US9762793B2 (en) 2014-10-21 2017-09-12 Hand Held Products, Inc. System and method for dimensioning
EP3032497A3 (en) * 2014-12-09 2016-06-29 Thomson Licensing Method and apparatus for color correction
US9860553B2 (en) * 2015-03-18 2018-01-02 Intel Corporation Local change detection in video
US9786101B2 (en) * 2015-05-19 2017-10-10 Hand Held Products, Inc. Evaluating image values
US10066982B2 (en) 2015-06-16 2018-09-04 Hand Held Products, Inc. Calibrating a volume dimensioner
US20160377414A1 (en) 2015-06-23 2016-12-29 Hand Held Products, Inc. Optical pattern projector
US9857167B2 (en) 2015-06-23 2018-01-02 Hand Held Products, Inc. Dual-projector three-dimensional scanner
US9835486B2 (en) 2015-07-07 2017-12-05 Hand Held Products, Inc. Mobile dimensioner apparatus for use in commerce
EP3396313B1 (en) 2015-07-15 2020-10-21 Hand Held Products, Inc. Mobile dimensioning method and device with dynamic accuracy compatible with nist standard
US10094650B2 (en) 2015-07-16 2018-10-09 Hand Held Products, Inc. Dimensioning and imaging items
US20170017301A1 (en) 2015-07-16 2017-01-19 Hand Held Products, Inc. Adjusting dimensioning results using augmented reality
US10249030B2 (en) 2015-10-30 2019-04-02 Hand Held Products, Inc. Image transformation for indicia reading
US10225544B2 (en) 2015-11-19 2019-03-05 Hand Held Products, Inc. High resolution dot pattern
US10025314B2 (en) 2016-01-27 2018-07-17 Hand Held Products, Inc. Vehicle positioning and object avoidance
US10339352B2 (en) 2016-06-03 2019-07-02 Hand Held Products, Inc. Wearable metrological apparatus
US9940721B2 (en) 2016-06-10 2018-04-10 Hand Held Products, Inc. Scene change detection in a dimensioner
US10163216B2 (en) 2016-06-15 2018-12-25 Hand Held Products, Inc. Automatic mode switching in a volume dimensioner
US10909708B2 (en) 2016-12-09 2021-02-02 Hand Held Products, Inc. Calibrating a dimensioner using ratios of measurable parameters of optic ally-perceptible geometric elements
US10936884B2 (en) * 2017-01-23 2021-03-02 Magna Electronics Inc. Vehicle vision system with object detection failsafe
US11047672B2 (en) 2017-03-28 2021-06-29 Hand Held Products, Inc. System for optically dimensioning
CN108154086B (zh) * 2017-12-06 2022-06-03 北京奇艺世纪科技有限公司 一种图像提取方法、装置及电子设备
US10584962B2 (en) 2018-05-01 2020-03-10 Hand Held Products, Inc System and method for validating physical-item security
US11049289B2 (en) 2019-01-10 2021-06-29 General Electric Company Systems and methods to semi-automatically segment a 3D medical image using a real-time edge-aware brush
CN112672185B (zh) * 2020-12-18 2023-07-07 脸萌有限公司 基于增强现实的显示方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6301382B1 (en) * 1996-06-07 2001-10-09 Microsoft Corporation Extracting a matte of a foreground object from multiple backgrounds by triangulation
US20030133044A1 (en) * 1998-08-31 2003-07-17 Hitachi Software Engineering Co Ltd Apparatus and method for image compositing
US6661918B1 (en) * 1998-12-04 2003-12-09 Interval Research Corporation Background estimation and segmentation based on range and color
US6731799B1 (en) * 2000-06-01 2004-05-04 University Of Washington Object segmentation with background extraction and moving boundary techniques
US7187783B2 (en) * 2002-01-08 2007-03-06 Samsung Electronics Co., Ltd. Method and apparatus for color-based object tracking in video sequences
US20070147703A1 (en) * 2003-08-01 2007-06-28 Bourbay Limited Blending a digital image cut from a source image into a target image
US7330586B2 (en) * 2004-10-12 2008-02-12 Seiko Epson Corporation Low-light exposure modes for digital photo sensors with free-running shutters

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6973212B2 (en) * 2000-09-01 2005-12-06 Siemens Corporate Research, Inc. Graph cuts for binary segmentation of n-dimensional images from object and background seeds
US6961454B2 (en) * 2001-10-04 2005-11-01 Siemens Corporation Research, Inc. System and method for segmenting the left ventricle in a cardiac MR image
US20040008886A1 (en) * 2002-07-02 2004-01-15 Yuri Boykov Using graph cuts for editing photographs
CN1296874C (zh) * 2003-12-22 2007-01-24 中国科学院自动化研究所 基于点重建的超大规模医学影像三维可视化方法
CN1275203C (zh) * 2004-03-03 2006-09-13 北京北大方正电子有限公司 一种应用三维浮雕进行安全底纹防伪设计的方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6301382B1 (en) * 1996-06-07 2001-10-09 Microsoft Corporation Extracting a matte of a foreground object from multiple backgrounds by triangulation
US20030133044A1 (en) * 1998-08-31 2003-07-17 Hitachi Software Engineering Co Ltd Apparatus and method for image compositing
US6661918B1 (en) * 1998-12-04 2003-12-09 Interval Research Corporation Background estimation and segmentation based on range and color
US6731799B1 (en) * 2000-06-01 2004-05-04 University Of Washington Object segmentation with background extraction and moving boundary techniques
US7187783B2 (en) * 2002-01-08 2007-03-06 Samsung Electronics Co., Ltd. Method and apparatus for color-based object tracking in video sequences
US20070147703A1 (en) * 2003-08-01 2007-06-28 Bourbay Limited Blending a digital image cut from a source image into a target image
US7330586B2 (en) * 2004-10-12 2008-02-12 Seiko Epson Corporation Low-light exposure modes for digital photo sensors with free-running shutters

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013103032A1 (ja) * 2012-01-05 2013-07-11 オムロン株式会社 画像検査装置の検査領域設定方法
JP2013251803A (ja) * 2012-06-01 2013-12-12 Casio Comput Co Ltd 動画生成装置、動画生成方法、及び、プログラム
JP2014071666A (ja) * 2012-09-28 2014-04-21 Dainippon Printing Co Ltd 画像処理装置、画像処理方法、及びプログラム
JP2016095854A (ja) * 2014-11-14 2016-05-26 華為技術有限公司Huawei Technologies Co.,Ltd. 画像処理方法及び装置
US9704261B2 (en) 2014-11-14 2017-07-11 Huawei Technologies Co., Ltd. Image segmentation processing method and apparatus

Also Published As

Publication number Publication date
KR20080040639A (ko) 2008-05-08
WO2007005839A3 (en) 2009-04-23
US20070003154A1 (en) 2007-01-04
EP1899897A2 (en) 2008-03-19
JP4954206B2 (ja) 2012-06-13
CA2613116A1 (en) 2007-01-11
BRPI0613102A2 (pt) 2010-12-21
AU2006265633A1 (en) 2007-01-11
CN101501776A (zh) 2009-08-05
WO2007005839A2 (en) 2007-01-11
CN101501776B (zh) 2013-03-06
EP1899897A4 (en) 2013-04-03
EP1899897B1 (en) 2016-11-02
US7609888B2 (en) 2009-10-27

Similar Documents

Publication Publication Date Title
JP4954206B2 (ja) ビデオオブジェクトのカットアンドペースト
JP4074062B2 (ja) ベクトル画像シーケンスにおける意味対象物の追跡
Li et al. Video object cut and paste
US8611728B2 (en) Video matting based on foreground-background constraint propagation
CN102246208B (zh) 图像分割
US7660463B2 (en) Foreground extraction using iterated graph cuts
KR100931311B1 (ko) 프레임 간 깊이 연속성 유지를 위한 깊이 추정 장치 및 그방법
EP2463821A1 (en) Method and system for segmenting an image
US7974470B2 (en) Method and apparatus for processing an image
JP2006318474A (ja) 画像シーケンス内のオブジェクトを追跡するための方法及び装置
JP2008518331A (ja) リアルタイムビデオ動き解析を通じたビデオコンテンツ理解
WO2018053952A1 (zh) 一种基于场景样本库的影视图像深度提取方法
CN108961304B (zh) 识别视频中运动前景的方法和确定视频中目标位置的方法
CN101459843B (zh) 一种精确提取视频序列中损坏内容区域的方法
KR20170015299A (ko) 배경 추적을 통한 오브젝트 추적 및 분할을 위한 방법 및 장치
US8929587B2 (en) Multi-tracking of video objects
Xia et al. Exemplar-based object removal in video using GMM
KR100960694B1 (ko) 다시점 영상 매팅 시스템과 방법 및 이를 수록한 저장매체
JP2002525988A (ja) 意味的映像オブジェクト分割のためのシステムおよび方法
KR101316848B1 (ko) 배경 합성을 위한 자동 객체 분할 장치 및 방법
Tasli et al. Interactive 2d 3d image conversion method for mobile devices
KR101893142B1 (ko) 객체 영역 추출 방법 및 그 장치
KR20120006593A (ko) 영상 내의 관심 영역에서의 물체 추출 장치 및 그 방법
Wang et al. Special effects in film/video making: A new media initiative project
Kim et al. Automatic Object Segmentation and Background Composition for Interactive Video Communications over Mobile Phones

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090521

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20090903

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20091008

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110502

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110523

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110823

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120213

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120313

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150323

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees