JP4777433B2

JP4777433B2 - ビデオ前景の分割方法

Info

Publication number: JP4777433B2
Application number: JP2008537921A
Authority: JP
Inventors: メイハン、; ウェイシュー、; イホンゴン、
Original assignee: NEC Laboratories America Inc
Current assignee: NEC Laboratories America Inc
Priority date: 2005-10-27
Filing date: 2006-10-26
Publication date: 2011-09-21
Anticipated expiration: 2026-10-26
Also published as: US7440615B2; WO2007050707A3; JP2009514103A; WO2007050707A2; US20070116356A1

Description

本発明は、一般に、ビデオ処理の分野に関し、特に動き（モーション）ベース(motion-based)の逐次特徴クラスタリング(sequential feature clustering)を使用してビデオを前景(foreground)レイヤと背景(background)レイヤとに分割する方法に関する。

ビデオ画像内で前景のオブジェクトを背景のオブジェクトから分割あるいは分離する能力は、２〜３例を挙げると、ビデオ圧縮、人間とコンピュータとの相互作用(interaction)、及びオブジェクトの追跡を含む多くのアプリケーションにおいて有用である。信頼性が高く視覚的にも楽しい方法でこのような分割を生成するためには、空間的及び時間的な情報の両方の融合が必要である。十分理解できるように、この融合は、非常に多量の情報が処理されることを必要とし、その結果、多大の計算コストを課し、及び／または、相当な量の手作業による相互作用を必要とする。残念ながらこの過大な計算コストは、応用可能性を制限している。

ビデオ・マッティング(video matting)は、画像シーケンスから前景のオブジェクトとその不透明度を記述するアルファ・マット(alpha mat)の抽出を含む、コンピュータ・ビジョン研究における古典的な逆問題である。Chuangらは、各個別のフレームに対して実行されるベイズ・マッティング(Bayesian matting)に基づく、ビデオ・マッティング方法を提案した（例えば、Y. Y. Chuang, A. Agarwala, B. Curless, D. H. Salesin and R. Szeliski, "Video Matting of Complex Scenes（複雑なシーンのビデオ・マッティング）," ACM SIGGRAPH 2002, pp. II:243-248, 2002、及び、Y. Y. Chuang, B. Curless, D. H. Salesin, and R. Szeliski, "A Bayesian Approach To Digital Matting（デジタル・マッティングに対するベイズの方法によるアプローチ）," CVPR01, pp. II:264-271, 2001を参照）。このような方法は、利用者によってラベル付けられた正確なトライマップ(trimap)を必要とする。トライマップは、各画像を前景領域、背景領域及び未知領域に分割する。長いビデオ・シーケンスに対して、このようなトライマップ・ラベルを周期的に与えることは、計算量の観点からは非常に厄介である。

ApostolofとFitzgibbonは、自然のシーンに対する、そのシーンを取り込むカメラは静止しており、背景は既知であると仮定したマッティング法(matting approach)を提案した（例えば、N. Apostoloff and A. W. Fitzgibbon, "Baysean Video Matting Using Learnt Image Priors（事前に学習済みの画像を使用するベイズのビデオ・マッティング）," CVPR04, pp. I:407-414, 2004を参照）。

Liらは、オブジェクトのアルファ・マットを作製するための事前として、３Ｄグラフ切断ベースの分割に続いてトラッキング・ベースの局部的な精緻化(refinement)を使用してビデオ・オブジェクトの２値分割(binary segmentation)を得て、次にコヒーレント・マッティングを採用した（例えば、J. Shum, J. Sun, S. Yamazaki, Y. Li and C. Tang, "Pop-Up Light Field: An Interactive Image-Based Modeling and Rendering System（ポップアップ光フィールド：対話型の画像ベースのモデリング及びレンダリング・システム）," ACM Transaction of Graphics, 23(2):143-162, 2004を参照）。この方法も、高い計算コストと、結果を微調整するためのユーザー入力の必要性とに悩まされる。

動き(motion)ベースの分割方法は、動きの推定を行い、また、画素（ピクセル）あるいは色彩セグメントをコヒーレントな動きの領域にクラスタ化する（例えば、R. Vidal and R.Hartley, "Motion Segmantation With Missing Data Using Powerfactorization and GPCA（べき因数分解とＧＰＣＡを使用する、欠落データを有する動き分割）," CVPR04, pp. II-310-316, 2004を参照）。レイヤ化された方法は、複数のレイヤの集まりを有するシーン内の複数のオブジェクトを表現する（例えば、J. Xiao and M. Shah, "Motion Layer Extraction In the Presence Of Occulution Using Graph Cuts（オクルージョンが存在する状態におけるグラフ切断を使用するモーション・レイヤ抽出）," CVPR04, pp. II:972-79, 2004；N. Jojic and B. J. Frey, "Learning Flexible Sprites in Video Layers（ビデオ・レイヤ内のフレキシブルなスプライトの学習）," CVPR01, pp. I:255-262, 2001；J. Y. A. Wang and E. H. Adelson, "Represenring Moving Images With Layers（レイヤを有する動画像の表現）," IP, 3(5):625-638, September, 1994を参照）。WangとJiは、分割を実現するために強度と動きのキューの両方を組み合わせるために、動的条件付きランダム場モデルを説明している（例えば、Y. Wang and Q. Ji, "A Dynamic Conditional Random Field Model For Object Segmentation In Image Sequences（画像シーケンス内のオブジェクト分割のための動的条件付きランダム場モデル）," CVPRO5, pp. I:264-270, 2005を参照）。最後に、Ke及びKanadeは、すべてのレイヤは同じカメラの動きを共有するから、部分空間内の固定(rigid)レイヤの分割を行うための因数分解法を説明している（例えば、Q. Ke and T. Kanade, "A Subspace Approach To Layer Extraction（レイヤ抽出への部分空間アプローチ）," CVPR01, pp. I:255-262, 2001を参照）。残念ながら、これらの方法の多くでは、オブジェクトは固定しており、及び／または、カメラは動いていないと想定している。

疎な画像特徴(sparse image feature)の逐次クラスタリングを使用する、完全に自動的であって計算が効率的な分割方法に重点を置いた本発明による原理によって、当該技術分野は進歩を遂げる。

都合の良いことに、ビデオ・シーンのエッジ(edge)の特徴とコーナー(corner)の特徴の両方が、前景のオブジェクトの輪郭(outline)を捕捉するために使用される。任意の形式のオブジェクトと移動／静止カメラについて機能を発揮する運動モデル(motion model)を基に、特徴クラスタリングは作製される。

本発明の実施態様によれば、カメラ及び／または前景と、前景と背景の間の深度の差とのために、２つのモーション・レイヤ(motion layer)が仮定される。前景レイヤ及び背景レイヤに対するアフィン運動パラメータを計算し、同時に時間的な滑らかさを考慮するために、シーケンスならびに画像特徴の即時の置換に対して、逐次線形回帰が応用される。次に、時間的に効率的であり、カルマン(Kalman)フィルタリングを使用して段階的に精緻化される疎な特徴クラスタリングに基づいて、前景レイヤが抽出される。

本発明のさらなる特徴と態様は、添付図面を参照して理解することができる。

以下の説明は、単に本発明の原理を例示しているに過ぎない。したがって、本明細書において明示的に説明または示されていないが、本発明の原理を具体化し、本発明の技術思想と範囲の中に含まれるさまざまな装置を、当業者は考案することが可能であることは十分理解されよう。

さらに、本明細書において説明するすべての例と条件を示す言葉は、本発明の原理及び本技術を発展させるための本発明者が貢献した概念を読者が理解するのを助けるための、教育目的のみのためであることを明確に主として意図しており、このような具体的に説明した例と条件に限定するものではないとして解釈されるべきである。

さらに、本発明の原理、態様及び実施形態を説明している本明細書のすべての記述、ならびに、本発明の具体的な例は、それらの構造的及び機能的な均等物をともに包含するものと解釈される。さらに、このような均等物は、現在知られている均等物及び将来開発される均等物、すなわち、構造にかかわらず同じ機能を実行する任意の開発された要素、をともに包含するものと解釈される。

したがって、例えば、本明細書の図面が本発明の原理を具体化する説明的な構造の概念図を表すことは、当業者にはより十分理解されよう。

逐次特徴クラスタリング：
本発明によれば、前景分割(foreground segmentation)は疎な特徴(sparse feature)を使用して決定され、その結果、計算コストが改善される。本発明により動作する方法に対しては、単に２つのレイヤ、すなわち前景レイヤと背景レイヤのみが存在すると仮定する。さらに、疎な特徴は、それらの動き情報（モーション情報）に基づいて２つのクラスにクラスタ化される。

演算上は、連続したフレームの間の疎な特徴のオプティカル・フローを計算し、次に線形回帰技法を適用して、２つのレイヤのアフィン・パラメータを計算する。時間的情報を利用するために、オプティカル・フロー値のシーケンスに対して逐次線形回帰を実行し、より信頼性が高く時間的に平滑なクラスタリングの結果を実現する。

疎な特徴：
人物の顔のように、良いテクスチャを有しないが明確な輪郭を有する領域をカバーするために、コーナーの特徴とエッジの特徴がともに抽出される。当業者は十分理解できるように、エッジの特徴はオブジェクトの輪郭についての情報を与えるが、このエッジの特徴のオプティカル・フローには短縮遠近法問題(foreshortening problem)があり、この短縮遠近法問題は線形回帰計算で処理される。

図１は、疎な特徴抽出を示しており、図１（Ａ）は元の画像を示し、図１（Ｂ）はコーナーの特徴とエッジの特徴の両方を含む検出された特徴を示している。都合の良いことに、本発明の原理によれば、図１（Ｂ）に示すように、巧妙なエッジ検出を使用して、画像から特徴を抽出する。特徴がエッジの特徴であるかあるいはコーナーの特徴であるかを判定するために、各個別の特徴に対して共分散行列が計算される。

eig1及びeig2は共分散行列の固有値であり、α及びβはパラメータである。都合の良いことに、LucasとKanadeは、特徴のオプティカル・フロー値を計算する方法を説明している（例えば、B. D. Lucas and T. Kanade, "An Iterative Image Registration Technique with An Application To Stereo Vision（反復画像位置合わせ技法と立体視への応用）," IJCAI81, pp. 674-679, 1981を参照）。

本発明の実施形態によれば、エッジの特徴に対して、その法線方向（ｄｘ，ｄｙ）を共分散行列から計算し、そのオプティカル・フローをこの方向に投影する。すなわち、アフィン・パラメータ計算で法線オプティカル・フローのみを保存する。

線形回帰：
特徴の集合と２つのフレームの間のそのオプティカル・フロー値：（δｘ_i，δｙ_i），ｉ＝１，…，ｎとを仮定する。ここでｎは特徴の数である。線形回帰フロー技法を適用して、２組のアフィン・パラメータの集合を比較し、特徴を各集合に分類する。ここでの方法の実施形態は、次のように要約することができる：
１．特徴を２つの集合にランダムにクラスタ化する；
２．特徴の各集合に対してアフィン・パラメータの最小２乗解を計算し、エッジの特徴に対して法線オプティカル・フローを使用する；
ａ_lｘ_j＋ｂ_lｙ_j＋ｃ_i＝δｘ_j
ｄ_lｘ_j＋ｅ_lｙ_j＋ｆ_i＝δｙ_j [2]
ここで、ｌ∈｛１，２｝は２つのレイヤを示し、ｊ∈｛１，…，ｎ｝であり、（ｘ_j，ｙ_j）∈Ｌａｙｅｒ_l（レイヤ_l）である。各エッジの特徴は、その法線方向（ｄｘ_j，ｄｙ_j）とその対応する２つの等式との間の点乗積(dot product)である１つの等式に寄与するのみである；
３．両方のアフィン運動モデルに各特徴をフィッティングさせ、残差を比較する；
４．より小さい残差を有するアフィン・モデルに各特徴を分類し、より小さい残差がしきい値を超えるならば、それはガーベッジ（ごみ）集合に入れられ、計算の次の反復はスキップされる；
５．どの特徴も割当ラベルを変更しないことを意味するクラスタ化プロセスの収束まで、上記の段階２に戻る。

逐次クラスタリング：
都合の良いことに、そして本発明の原理によれば、２つのフレームの間の線形回帰による特徴クラスタリングをいくつかのフレームに拡大し、その結果、時間的一貫性を利用し、より平滑でより信頼できる結果を実現できる。なぜならば、ここでの特徴クラスタリングは、カメラが動いている時に、及び／または、前景のオブジェクトと背景のオブジェクトとが独立に動いている時に、より良く機能を発揮するアフィン運動モデルに基づいているからである。これは２つのフレームの間では常に真というわけではないが、有利なことには（ビデオフレーム・レートが毎秒６フレームである場合には５〜７フレームのような）いくつかのフレームは、通常、前景レイヤと背景レイヤとを区別するのに十分な動き情報を与える。

本発明では、いくつかの連続したフレームに共通に線形回帰を実行することにより、時間的情報を組み入れる。ｍ個の連続したフレームを仮定して、２つの連続したフレームの間に解くべき一対のアフィン・パラメータ（ａ_kl，ｂ_kl，ｃ_ki，ｄ_kl，ｅ_kl，ｆ_kl），ｋ＝１，…，ｍ−１がある場合には、２（ｍ−１）個のアフィン・パラメータを同時に解いて、フレームｋからフレームｋ＋１までの間のアフィン運動を表すことが可能である。ｌ∈｛１，２｝は２つのレイヤのうちの１つを示す。

パラメータの集合の間の接続は、オプティカル・フロー計算によって実現可能な特徴対応(feature correspondence)の上に構築される。新しいフレームｋが利用できる場合、コーナー／エッジの特徴（ｘ_i，ｙ_i），ｉ＝１，…，ｎが最初に検出され、次に、フレームｋとフレームｋ−１との間のオプティカル・フロー（δｘ_i，δｙ_i）が各特徴に対して計算される。歪んだ特徴点（ｘ_i＋δｘ_i，ｙ_i＋δｙ_i）に最も近い特徴を見出すために、対応する特徴ｉが、フレームｋ−１内で検出された特徴に対して検索され、最も近い特徴と歪んだ特徴との間の距離があるしきい値未満であれば、対応が確定する。他の場合には、特徴ｉには「不一致」というラベルが付けられる。同じレイヤ・ラベルを共有する対応する特徴点に対して、接続が構築される。

特徴ｉのための初期化ラベルは、フレームｋ−１内のその対応点のラベルからコピーされる。「不一致」ラベルが付された特徴に対しては、初期化ラベルは、フレームｋ−１内の最も近接したもののラベルをとる。

フレームの各対に対する線形回帰の反復の間に、特徴ｉに対し、対応する特徴に対する共通の残差が計算される。

ｒ_liとｒ_2iの変換は、どのレイヤに特徴ｉが属するかを決定する。「不一致」点に対しては、クラスタリングは２つのフレームの間での方法と同じである。

線形回帰問題のシーケンスの共通解(joint solution)は、時間の一貫性を当然に考慮しており、時間の一貫性はクラスタリングの結果をより信頼性が高くかつ平滑にする。図２は、ｍ＝３での逐次クラスタリングを用いた結果（図２（Ａ））と、（２つのフレームの間の線形回帰のみの）独立のクラスタリングを用いた結果を（図２（Ｂ））を示している。

前景の精緻化：
疎な特徴のクラスタリングの結果に基づいて、単純な２方向走査の方法により、最初に前景レイヤを抽出し、次にカルマン・フィルタリングによって、レイヤ抽出を段階的に精緻化(refine)する。

前景抽出：
前景抽出は、稠密出力(dense output)、すなわち、疎な特徴クラスタリングを仮定して、各画素のレイヤ・ラベリングを得ることである。したがって、最初に、以下の観察に基づいて、どのレイヤが前景レイヤであるかを決定する：
１．前景レイヤはカメラにより近く、したがって、多くの場合に前景レイヤのアフィン・パラメータはより大きな値を有する。推奨実施形態においては、平行移動パラメータ(translation parameter)の絶対値｜ｃ_l｜＋｜ｆ_l｜のみをチェックする。この値が大きいほど、そのレイヤが前景レイヤである可能性が高い。しかし、前景がほとんど動かない場合に、カメラが前景のオブジェクトを追っている特殊な場合が存在する。都合の良いことに、（通常、時間を要するが）カメラの動きを計算することによりこれを補償することが可能であり、あるいは、他の特性が決定に重み付けするようにすることが可能である；
２．前景レイヤが細切れになっていることはまれである、すなわち、前景レイヤは１つまたはいくつかの接続された領域である；
３．背景レイヤは、画像の境界の周りに分散している；
４．前景に人物が存在すれば、たぶん、前景にはより多くの肌色の画素が存在する。

十分理解できるように、色彩「」分割の結果を基にして前景レイヤ抽出を行うことが可能であろう。各セグメント（部分）に対して、このセグメントにより包含される特徴は、このセグメントがどのレイヤに属するかを決定する。都合の良いことにこの方法は、前景の滑らかな輪郭を与えるが、２つの主な課題点を示す。第一に、そのラベルの決定が不可能であろう、十分な特徴カバレッジを持たないいくつかのセグメントがある。第二に、色彩分割自体が、非常に計算集約的である。

本発明によれば、２方向走査方法を使用して、各画素を２つのレイヤの１つに割り当てる。この２方向走査は、ｘ方向走査とｙ方向走査の両方を含んでおり、ｘ方向走査は、画像の各行ごとに繰り返されて、ｘ次元でのレイヤの間の切除点(cutting point)を判定する。すなわちこの方法は、いくつかの前景の線セグメント、すなわち画像の各行を生成するために、背景レイヤと前景レイヤとの間のシフト点(shift point)の位置を見出す。切除点がレイヤに対してｙ次元内で判定されることを除いて、同じ処理がｙ方向走査に対して実行される。

２つの走査画像は、前景レイヤを成長させるために、アグレッシブなやり方で合成される。１つの画素がｘ方向走査画像あるいはｙ方向走査画像のいずれかで「前景」というラベルが付されていれば、その画素は最終結果でも「前景」というラベルを付けられる。次に、雑音を除去するための画像モーフィング演算を数回行いつつ、フラッド・フィル(flood fill)アルゴリズムを使用して、稠密出力を生成する。

ここで図３に転じると、図３は２方向走査アルゴリズムを使用する前景抽出処理を示している。特に図３（Ａ）は、ｘ方向走査の結果である。図３（Ｂ）は、ｙ方向走査の結果とｘ方向走査の結果との合成を示す。図３（Ｃ）は、最終的に抽出された前景レイヤを示し、明るくされた部分は前景マスクを示す。最後に、図３（Ｄ）は、前景のオブジェクトの最終的な出力を示す。

カルマン・フィルタリングによる精緻化：
逐次特徴クラスタリングにおいて時間的な情報を組み込んだが、特徴ラベリング(feature labeling)には、図４（Ｂ）に示すように稠密出力を「急激な変化の多い(jumpy)」ように見せる、いくらかの誤差がまだ存在する。この望ましくない特性は、ある程度は、「不一致」特徴の存在、オプティカル・フロー計算の誤差、線形回帰を解くときの雑音、及び前景抽出に際して行われたアグレッシブな処理に起因する。したがって、また本発明の実施形態によれば、前景抽出結果を徐々に長い時間にわたって精緻化するために、カルマン・フィルタリング技術を適用し、それにより、結果を視覚的に好ましいものにする。図４（Ｃ）は、結果を視覚的により好ましいものにするために、前景レイヤ上にカルマン・フィルタリングを行った後の結果を示す。

実験結果：
本発明による分割方法の典型的な具体化例が、異なる照明条件とカメラの動きの下で撮影された実際のビデオに対して、試験され、シミュレートされた。特に、軽量で独創的なウェブ・カメラ(web cam)により収録された２つの例を示す。画像の分解能は、６４０×４８０画素である。フレーム・レートは、毎秒６フレームである。当業者は容易に理解できるように、ウェブ・カメラの画像の品質は、携帯電話機のビデオ・カメラの画像の品質に近い。最後に、これらのテストのために、ビデオ画像を収録するあいだウェブ・カメラが移動することを可能にした。前景あるいは背景が静止しているか否かを、あるいはその合成したものであるであるかを、初めには知らない。

１番目のシーケンスは、固定したシーンについて撮影され、カメラは動いていた。シーンは、前景のオブジェクトとしてカメラの近くに位置した１箱のテープと、平坦な背景とで構成されている。このウェブ・カメラの低い品質と限定された視野角のために、ビデオが撮影られた時、オブジェクトはカメラの非常に近くにあった。したがって、図５（Ａ）に示すように、いくらかの歪みが存在し、この歪みは、特徴のトラッキングと動きのモデリングとを困難にした。

図５（Ｂ）は、本発明による方法によって抽出された前景レイヤを示す。この方法はエッジの特徴を利用するので、オプティカル・フローの誤差が大きい背景のエッジにいくらかの誤差が存在する。このアーティファクトは、結果のフレームにおいて３番目のフレームに見ることができる。

２番目のシーケンスは、カメラを自分で持ちながら、カメラの前で動きかつ話をしている人物について撮られた。人物の動きとともに、カメラはランダムに揺れていた。顔の特徴の大部分は、硬直していない動きを受けていた。さらに、ビデオには、特徴のトラッキングが大きい誤差を示すぼけている領域があった。この方法は、逐次特徴クラスタリングとカルマン・フィルタリングによる段階的に増加する精緻化で機能を発揮するので、時間的に局所的なボケは、長い時間にわたっては修復されることができるだろう。図６（Ｂ）は、本発明による方法により抽出された前景レイヤを示す。都合の良いことに、また本発明の別の態様によれば、戯れにあるいはプライバシーのために、図６（Ｃ）に示すように、背景に幻影を表示して(hallucinate)何らかの新しいシーンとすることが可能である。

ここまでで当業者には自明なように、また本発明の態様によって、ビデオ・シーンにおいて背景のオブジェクトから前景のオブジェクトを抽出する分割方法を説明した。都合の良いことに本方法は、テレビジョン（ＴＶ）、電話画像及びビデオ会議の画像に対して、例えばプライバシーのために背景情報を隠すために、あるいは娯楽のために新しい背景の幻影を表示するために、応用可能である。非常に多量の手作業の（人間による）入力を必要とする画像マッティング方法と比較して、本発明による方法は、完全に自動的である。

オブジェクトが固定している(rigid)と想定するモーション（動き）レイヤ(motion layer)方法と際だって対照的に、本発明による方法は、カメラ及び／または前景の動き、ならびに、前景と背景の間の深度の相違による２つのモーション・レイヤがあると想定する。従来技術による方法は、通常、画素あるいは色彩セグメントに対して作用するが、本発明による方法は、疎な画像特徴の逐次クラスタリングに基づいているので、計算コストは適度である。また、前景のオブジェクトの輪郭を捕捉するために、本発明は、コーナーの特徴に加えてエッジの特徴も利用する。次に、既に説明したように、疎な特徴クラスタリングに基づいて前景レイヤが抽出され、これは計算上も時間的にも非常に効率的である。

重要なことは、本発明による方法は、前景レイヤ及び背景レイヤに対してアフィン運動パラメータを計算するために、画像特徴の即時の置換のシーケンスに逐次線形回帰処理法を適用することにより、時間的な情報をうまく利用している。前景レイヤも、カルマン・フィルタリングを使用して段階的に精緻化される。

ウェブ・カメラについての実験結果は有望である。これらの応用を念頭に置いて本発明を説明したが、図示し説明した実施例に本発明が制限されるものではないことを当業者は当然に認識するであろう。いかなるビデオ合成も、特に計算能力が限られている場合には、本発明による方法の候補である。したがって、本発明は、添付される特許請求の範囲によってのみ制限されるべきものである。

［関連出願の記載］
本出願は、２００５年１０月２７日に出願された米国仮特許出願第６０／７３０，７３０号による優先権を主張し、そのすべての内容と出願記録は、本明細書において詳述されるかのように、参考文献として本明細書に含まれる。

疎な特徴抽出を示しており、図１（Ａ）は元の画像を示し、図１（Ｂ）はコーナーの特徴とエッジの特徴の両方を含む検出された特徴を示す。特徴クラスタリングを示しており、図２（Ａ）は逐次特徴クラスタリングの結果を示し、図２（Ｂ）は時間的な制約条件を考慮しない場合のクラスタリングの結果を示す。前景抽出を示しており、図３（Ａ）はｘ方向走査後の前景マスクを示し、図３（Ｂ）は２方向走査後の前景マスクを示し、図３（Ｃ）は最終の前景マスクを示し、ここでより明るい画素は前景マスクを示し、図３（Ｄ）は抽出された前景レイヤを示す。カルマン・フィルタリングの効果を示しており、図４（Ａ）は元のビデオフレームを示し、図４（Ｂ）は時間的な精緻化なしの前景レイヤを示し、図４（Ｃ）はカルマン・フィルタリング後の前景レイヤを示す。ビデオ・シーケンスを示しており、図５（Ａ）は元のビデオフレームを示し、図５（Ｂ）は前景レイヤを示す。人物を主題とするビデオ・シーケンスを示しており、図６（Ａ）は元のビデオフレームを示し、図６（Ｂ）は前景レイヤを示し、図６（Ｃ）は幻影を付された背景を示す。

Claims

前景レイヤと背景レイヤの両方を含むビデオ画像に対して、前記背景レイヤから前記前景レイヤを分離する方法であって、コンピュータによって実行される、
一連の画像フレームから疎な特徴を抽出し、それにより前記一連の画像フレーム内の個別の画像のそれぞれに対して疎な特徴の集合を生成する段階と、
前記疎な特徴の集合に逐次線形回帰を行い、それにより逐次特徴クラスタリングの集合を生成する段階と、
前記逐次特徴クラスタリングの集合を使用して、前記背景レイヤから前記前景レイヤを抽出する段階と、
前記抽出されたレイヤを精緻化する段階と、
連続したフレームの間の前記疎な特徴のオプティカル・フローを決定する段階と、
エッジの特徴とコーナーの特徴の両方を含む特徴の集合を決定する段階と、
各個別の特徴に対し、当該特徴がエッジの特徴であるかあるいはコーナーの特徴であるかを決定するための共分散行列を計算し、前記共分散行列に基づいて前記特徴がエッジの特徴であるかあるいはコーナーの特徴であるかを決定する段階と、
各エッジの特徴に対して、前記共分散行列から、その法線方向（ｄｘ，ｄｙ）を計算する段階と、
この法線方向にそのオプティカル・フローを投影する段階と、
を有する方法。
特徴の集合と２つのフレームの間のそれらのオプティカル・フローの値が、（δｘ_i，δｙ_i），ｉ＝１，…，ｎにより定められ、ここでｎは前記特徴の数であり、
前記方法は、
２組のアフィン・パラメータの集合を比較する段階と、
特徴を各集合に分類する段階と、
をさらに有する、請求項１に記載の方法。
前記比較する段階と前記分類する段階は、
前記特徴を２つの集合にランダムにクラスタ化する段階と、
特徴の各集合に対して前記アフィン・パラメータの最小２乗解を決定する段階であって、エッジの特徴に対して法線オプティカル・フローを使用することと、
各特徴を両方のアフィン運動モデルにフィッティングし、残差を比較する段階と、
前記残差に応じて、各特徴を前記アフィン・モデルに分類する段階と、
前記クラスタ化プロセスが収束するまで、上記の前記最小２乗解を決定する段階と前記フィッティングし残差を比較する段階と前記アフィン・モデルに分類する段階とを繰り返す段階と、
をさらに有する、請求項２に記載の方法。
前記特徴クラスタ化を、２つのフレームから数個のフレームまで拡張する段階を、さらに有する、請求項３に記載の方法。