JP4777433B2 - ビデオ前景の分割方法 - Google Patents

ビデオ前景の分割方法 Download PDF

Info

Publication number
JP4777433B2
JP4777433B2 JP2008537921A JP2008537921A JP4777433B2 JP 4777433 B2 JP4777433 B2 JP 4777433B2 JP 2008537921 A JP2008537921 A JP 2008537921A JP 2008537921 A JP2008537921 A JP 2008537921A JP 4777433 B2 JP4777433 B2 JP 4777433B2
Authority
JP
Japan
Prior art keywords
feature
features
foreground
layer
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008537921A
Other languages
English (en)
Other versions
JP2009514103A (ja
Inventor
メイ ハン、
ウェイ シュー、
イホン ゴン、
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Laboratories America Inc
Original Assignee
NEC Laboratories America Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Laboratories America Inc filed Critical NEC Laboratories America Inc
Publication of JP2009514103A publication Critical patent/JP2009514103A/ja
Application granted granted Critical
Publication of JP4777433B2 publication Critical patent/JP4777433B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/181Segmentation; Edge detection involving edge growing; involving edge linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/215Motion-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/277Analysis of motion involving stochastic approaches, e.g. using Kalman filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/28Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Description

本発明は、一般に、ビデオ処理の分野に関し、特に動き(モーション)ベース(motion-based)の逐次特徴クラスタリング(sequential feature clustering)を使用してビデオを前景(foreground)レイヤと背景(background)レイヤとに分割する方法に関する。
ビデオ画像内で前景のオブジェクトを背景のオブジェクトから分割あるいは分離する能力は、2〜3例を挙げると、ビデオ圧縮、人間とコンピュータとの相互作用(interaction)、及びオブジェクトの追跡を含む多くのアプリケーションにおいて有用である。信頼性が高く視覚的にも楽しい方法でこのような分割を生成するためには、空間的及び時間的な情報の両方の融合が必要である。十分理解できるように、この融合は、非常に多量の情報が処理されることを必要とし、その結果、多大の計算コストを課し、及び/または、相当な量の手作業による相互作用を必要とする。残念ながらこの過大な計算コストは、応用可能性を制限している。
ビデオ・マッティング(video matting)は、画像シーケンスから前景のオブジェクトとその不透明度を記述するアルファ・マット(alpha mat)の抽出を含む、コンピュータ・ビジョン研究における古典的な逆問題である。Chuangらは、各個別のフレームに対して実行されるベイズ・マッティング(Bayesian matting)に基づく、ビデオ・マッティング方法を提案した(例えば、Y. Y. Chuang, A. Agarwala, B. Curless, D. H. Salesin and R. Szeliski, "Video Matting of Complex Scenes(複雑なシーンのビデオ・マッティング)," ACM SIGGRAPH 2002, pp. II:243-248, 2002、及び、Y. Y. Chuang, B. Curless, D. H. Salesin, and R. Szeliski, "A Bayesian Approach To Digital Matting(デジタル・マッティングに対するベイズの方法によるアプローチ)," CVPR01, pp. II:264-271, 2001を参照)。このような方法は、利用者によってラベル付けられた正確なトライマップ(trimap)を必要とする。トライマップは、各画像を前景領域、背景領域及び未知領域に分割する。長いビデオ・シーケンスに対して、このようなトライマップ・ラベルを周期的に与えることは、計算量の観点からは非常に厄介である。
ApostolofとFitzgibbonは、自然のシーンに対する、そのシーンを取り込むカメラは静止しており、背景は既知であると仮定したマッティング法(matting approach)を提案した(例えば、N. Apostoloff and A. W. Fitzgibbon, "Baysean Video Matting Using Learnt Image Priors(事前に学習済みの画像を使用するベイズのビデオ・マッティング)," CVPR04, pp. I:407-414, 2004を参照)。
Liらは、オブジェクトのアルファ・マットを作製するための事前として、3Dグラフ切断ベースの分割に続いてトラッキング・ベースの局部的な精緻化(refinement)を使用してビデオ・オブジェクトの2値分割(binary segmentation)を得て、次にコヒーレント・マッティングを採用した(例えば、J. Shum, J. Sun, S. Yamazaki, Y. Li and C. Tang, "Pop-Up Light Field: An Interactive Image-Based Modeling and Rendering System(ポップアップ光フィールド:対話型の画像ベースのモデリング及びレンダリング・システム)," ACM Transaction of Graphics, 23(2):143-162, 2004を参照)。この方法も、高い計算コストと、結果を微調整するためのユーザー入力の必要性とに悩まされる。
動き(motion)ベースの分割方法は、動きの推定を行い、また、画素(ピクセル)あるいは色彩セグメントをコヒーレントな動きの領域にクラスタ化する(例えば、R. Vidal and R.Hartley, "Motion Segmantation With Missing Data Using Powerfactorization and GPCA(べき因数分解とGPCAを使用する、欠落データを有する動き分割)," CVPR04, pp. II-310-316, 2004を参照)。レイヤ化された方法は、複数のレイヤの集まりを有するシーン内の複数のオブジェクトを表現する(例えば、J. Xiao and M. Shah, "Motion Layer Extraction In the Presence Of Occulution Using Graph Cuts(オクルージョンが存在する状態におけるグラフ切断を使用するモーション・レイヤ抽出)," CVPR04, pp. II:972-79, 2004;N. Jojic and B. J. Frey, "Learning Flexible Sprites in Video Layers(ビデオ・レイヤ内のフレキシブルなスプライトの学習)," CVPR01, pp. I:255-262, 2001;J. Y. A. Wang and E. H. Adelson, "Represenring Moving Images With Layers(レイヤを有する動画像の表現)," IP, 3(5):625-638, September, 1994を参照)。WangとJiは、分割を実現するために強度と動きのキューの両方を組み合わせるために、動的条件付きランダム場モデルを説明している(例えば、Y. Wang and Q. Ji, "A Dynamic Conditional Random Field Model For Object Segmentation In Image Sequences(画像シーケンス内のオブジェクト分割のための動的条件付きランダム場モデル)," CVPRO5, pp. I:264-270, 2005を参照)。最後に、Ke及びKanadeは、すべてのレイヤは同じカメラの動きを共有するから、部分空間内の固定(rigid)レイヤの分割を行うための因数分解法を説明している(例えば、Q. Ke and T. Kanade, "A Subspace Approach To Layer Extraction(レイヤ抽出への部分空間アプローチ)," CVPR01, pp. I:255-262, 2001を参照)。残念ながら、これらの方法の多くでは、オブジェクトは固定しており、及び/または、カメラは動いていないと想定している。
疎な画像特徴(sparse image feature)の逐次クラスタリングを使用する、完全に自動的であって計算が効率的な分割方法に重点を置いた本発明による原理によって、当該技術分野は進歩を遂げる。
都合の良いことに、ビデオ・シーンのエッジ(edge)の特徴とコーナー(corner)の特徴の両方が、前景のオブジェクトの輪郭(outline)を捕捉するために使用される。任意の形式のオブジェクトと移動/静止カメラについて機能を発揮する運動モデル(motion model)を基に、特徴クラスタリングは作製される。
本発明の実施態様によれば、カメラ及び/または前景と、前景と背景の間の深度の差とのために、2つのモーション・レイヤ(motion layer)が仮定される。前景レイヤ及び背景レイヤに対するアフィン運動パラメータを計算し、同時に時間的な滑らかさを考慮するために、シーケンスならびに画像特徴の即時の置換に対して、逐次線形回帰が応用される。次に、時間的に効率的であり、カルマン(Kalman)フィルタリングを使用して段階的に精緻化される疎な特徴クラスタリングに基づいて、前景レイヤが抽出される。
本発明のさらなる特徴と態様は、添付図面を参照して理解することができる。
以下の説明は、単に本発明の原理を例示しているに過ぎない。したがって、本明細書において明示的に説明または示されていないが、本発明の原理を具体化し、本発明の技術思想と範囲の中に含まれるさまざまな装置を、当業者は考案することが可能であることは十分理解されよう。
さらに、本明細書において説明するすべての例と条件を示す言葉は、本発明の原理及び本技術を発展させるための本発明者が貢献した概念を読者が理解するのを助けるための、教育目的のみのためであることを明確に主として意図しており、このような具体的に説明した例と条件に限定するものではないとして解釈されるべきである。
さらに、本発明の原理、態様及び実施形態を説明している本明細書のすべての記述、ならびに、本発明の具体的な例は、それらの構造的及び機能的な均等物をともに包含するものと解釈される。さらに、このような均等物は、現在知られている均等物及び将来開発される均等物、すなわち、構造にかかわらず同じ機能を実行する任意の開発された要素、をともに包含するものと解釈される。
したがって、例えば、本明細書の図面が本発明の原理を具体化する説明的な構造の概念図を表すことは、当業者にはより十分理解されよう。
逐次特徴クラスタリング:
本発明によれば、前景分割(foreground segmentation)は疎な特徴(sparse feature)を使用して決定され、その結果、計算コストが改善される。本発明により動作する方法に対しては、単に2つのレイヤ、すなわち前景レイヤと背景レイヤのみが存在すると仮定する。さらに、疎な特徴は、それらの動き情報(モーション情報)に基づいて2つのクラスにクラスタ化される。
演算上は、連続したフレームの間の疎な特徴のオプティカル・フローを計算し、次に線形回帰技法を適用して、2つのレイヤのアフィン・パラメータを計算する。時間的情報を利用するために、オプティカル・フロー値のシーケンスに対して逐次線形回帰を実行し、より信頼性が高く時間的に平滑なクラスタリングの結果を実現する。
疎な特徴:
人物の顔のように、良いテクスチャを有しないが明確な輪郭を有する領域をカバーするために、コーナーの特徴とエッジの特徴がともに抽出される。当業者は十分理解できるように、エッジの特徴はオブジェクトの輪郭についての情報を与えるが、このエッジの特徴のオプティカル・フローには短縮遠近法問題(foreshortening problem)があり、この短縮遠近法問題は線形回帰計算で処理される。
図1は、疎な特徴抽出を示しており、図1(A)は元の画像を示し、図1(B)はコーナーの特徴とエッジの特徴の両方を含む検出された特徴を示している。都合の良いことに、本発明の原理によれば、図1(B)に示すように、巧妙なエッジ検出を使用して、画像から特徴を抽出する。特徴がエッジの特徴であるかあるいはコーナーの特徴であるかを判定するために、各個別の特徴に対して共分散行列が計算される。
Figure 0004777433
eig1及びeig2は共分散行列の固有値であり、α及びβはパラメータである。都合の良いことに、LucasとKanadeは、特徴のオプティカル・フロー値を計算する方法を説明している(例えば、B. D. Lucas and T. Kanade, "An Iterative Image Registration Technique with An Application To Stereo Vision(反復画像位置合わせ技法と立体視への応用)," IJCAI81, pp. 674-679, 1981を参照)。
本発明の実施形態によれば、エッジの特徴に対して、その法線方向(dx,dy)を共分散行列から計算し、そのオプティカル・フローをこの方向に投影する。すなわち、アフィン・パラメータ計算で法線オプティカル・フローのみを保存する。
線形回帰:
特徴の集合と2つのフレームの間のそのオプティカル・フロー値:(δxi,δyi),i=1,…,nとを仮定する。ここでnは特徴の数である。線形回帰フロー技法を適用して、2組のアフィン・パラメータの集合を比較し、特徴を各集合に分類する。ここでの方法の実施形態は、次のように要約することができる:
1.特徴を2つの集合にランダムにクラスタ化する;
2.特徴の各集合に対してアフィン・パラメータの最小2乗解を計算し、エッジの特徴に対して法線オプティカル・フローを使用する;
lj+blj+ci=δxj
lj+elj+fi=δyj [2]
ここで、l∈{1,2}は2つのレイヤを示し、j∈{1,…,n}であり、(xj,yj)∈Layerl(レイヤl)である。各エッジの特徴は、その法線方向(dxj,dyj)とその対応する2つの等式との間の点乗積(dot product)である1つの等式に寄与するのみである;
3.両方のアフィン運動モデルに各特徴をフィッティングさせ、残差を比較する;
4.より小さい残差を有するアフィン・モデルに各特徴を分類し、より小さい残差がしきい値を超えるならば、それはガーベッジ(ごみ)集合に入れられ、計算の次の反復はスキップされる;
5.どの特徴も割当ラベルを変更しないことを意味するクラスタ化プロセスの収束まで、上記の段階2に戻る。
逐次クラスタリング:
都合の良いことに、そして本発明の原理によれば、2つのフレームの間の線形回帰による特徴クラスタリングをいくつかのフレームに拡大し、その結果、時間的一貫性を利用し、より平滑でより信頼できる結果を実現できる。なぜならば、ここでの特徴クラスタリングは、カメラが動いている時に、及び/または、前景のオブジェクトと背景のオブジェクトとが独立に動いている時に、より良く機能を発揮するアフィン運動モデルに基づいているからである。これは2つのフレームの間では常に真というわけではないが、有利なことには(ビデオフレーム・レートが毎秒6フレームである場合には5〜7フレームのような)いくつかのフレームは、通常、前景レイヤと背景レイヤとを区別するのに十分な動き情報を与える。
本発明では、いくつかの連続したフレームに共通に線形回帰を実行することにより、時間的情報を組み入れる。m個の連続したフレームを仮定して、2つの連続したフレームの間に解くべき一対のアフィン・パラメータ(akl,bkl,cki,dkl,ekl,fkl),k=1,…,m−1がある場合には、2(m−1)個のアフィン・パラメータを同時に解いて、フレームkからフレームk+1までの間のアフィン運動を表すことが可能である。l∈{1,2}は2つのレイヤのうちの1つを示す。
パラメータの集合の間の接続は、オプティカル・フロー計算によって実現可能な特徴対応(feature correspondence)の上に構築される。新しいフレームkが利用できる場合、コーナー/エッジの特徴(xi,yi),i=1,…,nが最初に検出され、次に、フレームkとフレームk−1との間のオプティカル・フロー(δxi,δyi)が各特徴に対して計算される。歪んだ特徴点(xi+δxi,yi+δyi)に最も近い特徴を見出すために、対応する特徴iが、フレームk−1内で検出された特徴に対して検索され、最も近い特徴と歪んだ特徴との間の距離があるしきい値未満であれば、対応が確定する。他の場合には、特徴iには「不一致」というラベルが付けられる。同じレイヤ・ラベルを共有する対応する特徴点に対して、接続が構築される。
特徴iのための初期化ラベルは、フレームk−1内のその対応点のラベルからコピーされる。「不一致」ラベルが付された特徴に対しては、初期化ラベルは、フレームk−1内の最も近接したもののラベルをとる。
フレームの各対に対する線形回帰の反復の間に、特徴iに対し、対応する特徴に対する共通の残差が計算される。
Figure 0004777433
liとr2iの変換は、どのレイヤに特徴iが属するかを決定する。「不一致」点に対しては、クラスタリングは2つのフレームの間での方法と同じである。
線形回帰問題のシーケンスの共通解(joint solution)は、時間の一貫性を当然に考慮しており、時間の一貫性はクラスタリングの結果をより信頼性が高くかつ平滑にする。図2は、m=3での逐次クラスタリングを用いた結果(図2(A))と、(2つのフレームの間の線形回帰のみの)独立のクラスタリングを用いた結果を(図2(B))を示している。
前景の精緻化:
疎な特徴のクラスタリングの結果に基づいて、単純な2方向走査の方法により、最初に前景レイヤを抽出し、次にカルマン・フィルタリングによって、レイヤ抽出を段階的に精緻化(refine)する。
前景抽出:
前景抽出は、稠密出力(dense output)、すなわち、疎な特徴クラスタリングを仮定して、各画素のレイヤ・ラベリングを得ることである。したがって、最初に、以下の観察に基づいて、どのレイヤが前景レイヤであるかを決定する:
1.前景レイヤはカメラにより近く、したがって、多くの場合に前景レイヤのアフィン・パラメータはより大きな値を有する。推奨実施形態においては、平行移動パラメータ(translation parameter)の絶対値|cl|+|fl|のみをチェックする。この値が大きいほど、そのレイヤが前景レイヤである可能性が高い。しかし、前景がほとんど動かない場合に、カメラが前景のオブジェクトを追っている特殊な場合が存在する。都合の良いことに、(通常、時間を要するが)カメラの動きを計算することによりこれを補償することが可能であり、あるいは、他の特性が決定に重み付けするようにすることが可能である;
2.前景レイヤが細切れになっていることはまれである、すなわち、前景レイヤは1つまたはいくつかの接続された領域である;
3.背景レイヤは、画像の境界の周りに分散している;
4.前景に人物が存在すれば、たぶん、前景にはより多くの肌色の画素が存在する。
十分理解できるように、色彩「」分割の結果を基にして前景レイヤ抽出を行うことが可能であろう。各セグメント(部分)に対して、このセグメントにより包含される特徴は、このセグメントがどのレイヤに属するかを決定する。都合の良いことにこの方法は、前景の滑らかな輪郭を与えるが、2つの主な課題点を示す。第一に、そのラベルの決定が不可能であろう、十分な特徴カバレッジを持たないいくつかのセグメントがある。第二に、色彩分割自体が、非常に計算集約的である。
本発明によれば、2方向走査方法を使用して、各画素を2つのレイヤの1つに割り当てる。この2方向走査は、x方向走査とy方向走査の両方を含んでおり、x方向走査は、画像の各行ごとに繰り返されて、x次元でのレイヤの間の切除点(cutting point)を判定する。すなわちこの方法は、いくつかの前景の線セグメント、すなわち画像の各行を生成するために、背景レイヤと前景レイヤとの間のシフト点(shift point)の位置を見出す。切除点がレイヤに対してy次元内で判定されることを除いて、同じ処理がy方向走査に対して実行される。
2つの走査画像は、前景レイヤを成長させるために、アグレッシブなやり方で合成される。1つの画素がx方向走査画像あるいはy方向走査画像のいずれかで「前景」というラベルが付されていれば、その画素は最終結果でも「前景」というラベルを付けられる。次に、雑音を除去するための画像モーフィング演算を数回行いつつ、フラッド・フィル(flood fill)アルゴリズムを使用して、稠密出力を生成する。
ここで図3に転じると、図3は2方向走査アルゴリズムを使用する前景抽出処理を示している。特に図3(A)は、x方向走査の結果である。図3(B)は、y方向走査の結果とx方向走査の結果との合成を示す。図3(C)は、最終的に抽出された前景レイヤを示し、明るくされた部分は前景マスクを示す。最後に、図3(D)は、前景のオブジェクトの最終的な出力を示す。
カルマン・フィルタリングによる精緻化:
逐次特徴クラスタリングにおいて時間的な情報を組み込んだが、特徴ラベリング(feature labeling)には、図4(B)に示すように稠密出力を「急激な変化の多い(jumpy)」ように見せる、いくらかの誤差がまだ存在する。この望ましくない特性は、ある程度は、「不一致」特徴の存在、オプティカル・フロー計算の誤差、線形回帰を解くときの雑音、及び前景抽出に際して行われたアグレッシブな処理に起因する。したがって、また本発明の実施形態によれば、前景抽出結果を徐々に長い時間にわたって精緻化するために、カルマン・フィルタリング技術を適用し、それにより、結果を視覚的に好ましいものにする。図4(C)は、結果を視覚的により好ましいものにするために、前景レイヤ上にカルマン・フィルタリングを行った後の結果を示す。
実験結果:
本発明による分割方法の典型的な具体化例が、異なる照明条件とカメラの動きの下で撮影された実際のビデオに対して、試験され、シミュレートされた。特に、軽量で独創的なウェブ・カメラ(web cam)により収録された2つの例を示す。画像の分解能は、640×480画素である。フレーム・レートは、毎秒6フレームである。当業者は容易に理解できるように、ウェブ・カメラの画像の品質は、携帯電話機のビデオ・カメラの画像の品質に近い。最後に、これらのテストのために、ビデオ画像を収録するあいだウェブ・カメラが移動することを可能にした。前景あるいは背景が静止しているか否かを、あるいはその合成したものであるであるかを、初めには知らない。
1番目のシーケンスは、固定したシーンについて撮影され、カメラは動いていた。シーンは、前景のオブジェクトとしてカメラの近くに位置した1箱のテープと、平坦な背景とで構成されている。このウェブ・カメラの低い品質と限定された視野角のために、ビデオが撮影られた時、オブジェクトはカメラの非常に近くにあった。したがって、図5(A)に示すように、いくらかの歪みが存在し、この歪みは、特徴のトラッキングと動きのモデリングとを困難にした。
図5(B)は、本発明による方法によって抽出された前景レイヤを示す。この方法はエッジの特徴を利用するので、オプティカル・フローの誤差が大きい背景のエッジにいくらかの誤差が存在する。このアーティファクトは、結果のフレームにおいて3番目のフレームに見ることができる。
2番目のシーケンスは、カメラを自分で持ちながら、カメラの前で動きかつ話をしている人物について撮られた。人物の動きとともに、カメラはランダムに揺れていた。顔の特徴の大部分は、硬直していない動きを受けていた。さらに、ビデオには、特徴のトラッキングが大きい誤差を示すぼけている領域があった。この方法は、逐次特徴クラスタリングとカルマン・フィルタリングによる段階的に増加する精緻化で機能を発揮するので、時間的に局所的なボケは、長い時間にわたっては修復されることができるだろう。図6(B)は、本発明による方法により抽出された前景レイヤを示す。都合の良いことに、また本発明の別の態様によれば、戯れにあるいはプライバシーのために、図6(C)に示すように、背景に幻影を表示して(hallucinate)何らかの新しいシーンとすることが可能である。
ここまでで当業者には自明なように、また本発明の態様によって、ビデオ・シーンにおいて背景のオブジェクトから前景のオブジェクトを抽出する分割方法を説明した。都合の良いことに本方法は、テレビジョン(TV)、電話画像及びビデオ会議の画像に対して、例えばプライバシーのために背景情報を隠すために、あるいは娯楽のために新しい背景の幻影を表示するために、応用可能である。非常に多量の手作業の(人間による)入力を必要とする画像マッティング方法と比較して、本発明による方法は、完全に自動的である。
オブジェクトが固定している(rigid)と想定するモーション(動き)レイヤ(motion layer)方法と際だって対照的に、本発明による方法は、カメラ及び/または前景の動き、ならびに、前景と背景の間の深度の相違による2つのモーション・レイヤがあると想定する。従来技術による方法は、通常、画素あるいは色彩セグメントに対して作用するが、本発明による方法は、疎な画像特徴の逐次クラスタリングに基づいているので、計算コストは適度である。また、前景のオブジェクトの輪郭を捕捉するために、本発明は、コーナーの特徴に加えてエッジの特徴も利用する。次に、既に説明したように、疎な特徴クラスタリングに基づいて前景レイヤが抽出され、これは計算上も時間的にも非常に効率的である。
重要なことは、本発明による方法は、前景レイヤ及び背景レイヤに対してアフィン運動パラメータを計算するために、画像特徴の即時の置換のシーケンスに逐次線形回帰処理法を適用することにより、時間的な情報をうまく利用している。前景レイヤも、カルマン・フィルタリングを使用して段階的に精緻化される。
ウェブ・カメラについての実験結果は有望である。これらの応用を念頭に置いて本発明を説明したが、図示し説明した実施例に本発明が制限されるものではないことを当業者は当然に認識するであろう。いかなるビデオ合成も、特に計算能力が限られている場合には、本発明による方法の候補である。したがって、本発明は、添付される特許請求の範囲によってのみ制限されるべきものである。
[関連出願の記載]
本出願は、2005年10月27日に出願された米国仮特許出願第60/730,730号による優先権を主張し、そのすべての内容と出願記録は、本明細書において詳述されるかのように、参考文献として本明細書に含まれる。
疎な特徴抽出を示しており、図1(A)は元の画像を示し、図1(B)はコーナーの特徴とエッジの特徴の両方を含む検出された特徴を示す。 特徴クラスタリングを示しており、図2(A)は逐次特徴クラスタリングの結果を示し、図2(B)は時間的な制約条件を考慮しない場合のクラスタリングの結果を示す。 前景抽出を示しており、図3(A)はx方向走査後の前景マスクを示し、図3(B)は2方向走査後の前景マスクを示し、図3(C)は最終の前景マスクを示し、ここでより明るい画素は前景マスクを示し、図3(D)は抽出された前景レイヤを示す。 カルマン・フィルタリングの効果を示しており、図4(A)は元のビデオフレームを示し、図4(B)は時間的な精緻化なしの前景レイヤを示し、図4(C)はカルマン・フィルタリング後の前景レイヤを示す。 ビデオ・シーケンスを示しており、図5(A)は元のビデオフレームを示し、図5(B)は前景レイヤを示す。 人物を主題とするビデオ・シーケンスを示しており、図6(A)は元のビデオフレームを示し、図6(B)は前景レイヤを示し、図6(C)は幻影を付された背景を示す。

Claims (4)

  1. 前景レイヤと背景レイヤの両方を含むビデオ画像に対して、前記背景レイヤから前記前景レイヤを分離する方法であって、コンピュータによって実行される、
    一連の画像フレームから疎な特徴を抽出し、それにより前記一連の画像フレーム内の個別の画像のそれぞれに対して疎な特徴の集合を生成する段階と、
    前記疎な特徴の集合に逐次線形回帰を行い、それにより逐次特徴クラスタリングの集合を生成する段階と、
    前記逐次特徴クラスタリングの集合を使用して、前記背景レイヤから前記前景レイヤを抽出する段階と、
    前記抽出されたレイヤを精緻化する段階と、
    連続したフレームの間の前記疎な特徴のオプティカル・フローを決定する段階と、
    エッジの特徴とコーナーの特徴の両方を含む特徴の集合を決定する段階と、
    各個別の特徴に対し、当該特徴がエッジの特徴であるかあるいはコーナーの特徴であるかを決定するための共分散行列を計算し、前記共分散行列に基づいて前記特徴がエッジの特徴であるかあるいはコーナーの特徴であるかを決定する段階と、
    各エッジの特徴に対して、前記共分散行列から、その法線方向(dx,dy)を計算する段階と、
    この法線方向にそのオプティカル・フローを投影する段階と、
    を有する方法。
  2. 特徴の集合と2つのフレームの間のそれらのオプティカル・フローの値が、(δxi,δyi),i=1,…,nにより定められ、ここでnは前記特徴の数であり、
    前記方法は、
    2組のアフィン・パラメータの集合を比較する段階と、
    特徴を各集合に分類する段階と、
    をさらに有する、請求項に記載の方法。
  3. 前記比較する段階と前記分類する段階は、
    前記特徴を2つの集合にランダムにクラスタ化する段階と、
    特徴の各集合に対して前記アフィン・パラメータの最小2乗解を決定する段階であって、エッジの特徴に対して法線オプティカル・フローを使用することと、
    各特徴を両方のアフィン運動モデルにフィッティングし、残差を比較する段階と、
    前記残差に応じて、各特徴を前記アフィン・モデルに分類する段階と、
    前記クラスタ化プロセスが収束するまで、上記の前記最小2乗解を決定する段階と前記フィッティングし残差を比較する段階と前記アフィン・モデルに分類する段階とを繰り返す段階と、
    をさらに有する、請求項に記載の方法。
  4. 前記特徴クラスタ化を、2つのフレームから数個のフレームまで拡張する段階を、さらに有する、請求項に記載の方法。
JP2008537921A 2005-10-27 2006-10-26 ビデオ前景の分割方法 Expired - Fee Related JP4777433B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US73073005P 2005-10-27 2005-10-27
US60/730,730 2005-10-27
US11/553,043 US7440615B2 (en) 2005-10-27 2006-10-26 Video foreground segmentation method
PCT/US2006/041672 WO2007050707A2 (en) 2005-10-27 2006-10-26 Video foreground segmentation method
US11/553,043 2006-10-26

Publications (2)

Publication Number Publication Date
JP2009514103A JP2009514103A (ja) 2009-04-02
JP4777433B2 true JP4777433B2 (ja) 2011-09-21

Family

ID=37968531

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008537921A Expired - Fee Related JP4777433B2 (ja) 2005-10-27 2006-10-26 ビデオ前景の分割方法

Country Status (3)

Country Link
US (1) US7440615B2 (ja)
JP (1) JP4777433B2 (ja)
WO (1) WO2007050707A2 (ja)

Families Citing this family (86)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8229166B2 (en) * 2009-07-07 2012-07-24 Trimble Navigation, Ltd Image-based tracking
CN101496387B (zh) 2006-03-06 2012-09-05 思科技术公司 用于移动无线网络中的接入认证的系统和方法
US7783118B2 (en) * 2006-07-13 2010-08-24 Seiko Epson Corporation Method and apparatus for determining motion in images
US7940971B2 (en) * 2006-07-24 2011-05-10 Siemens Medical Solutions Usa, Inc. System and method for coronary digital subtraction angiography
US7940985B2 (en) * 2007-06-06 2011-05-10 Microsoft Corporation Salient object detection
US8094903B2 (en) * 2007-06-28 2012-01-10 Siemens Aktiengesellschaft System and method for coronary digital subtraction angiography
KR101375665B1 (ko) * 2007-08-08 2014-03-18 삼성전자주식회사 배경 변화 추정 방법 및 장치, 및 이를 이용한 움직임 검출 방법 및 장치
KR101023207B1 (ko) * 2007-09-05 2011-03-18 한국전자통신연구원 영상 객체 추출 장치 및 그 방법
US8086006B2 (en) * 2007-09-21 2011-12-27 Siemens Aktiengesellschaft Method and system for evaluating image segmentation based on visibility
US8121367B2 (en) * 2007-09-21 2012-02-21 Siemens Aktiengesellschaft Method and system for vessel segmentation in fluoroscopic images
CN101458814B (zh) * 2007-12-13 2012-02-01 东软集团股份有限公司 一种用于从图像中分割对象感兴趣区域的方法和装置
US8797377B2 (en) 2008-02-14 2014-08-05 Cisco Technology, Inc. Method and system for videoconference configuration
KR20100130620A (ko) * 2008-03-10 2010-12-13 코닌클리케 필립스 일렉트로닉스 엔.브이. 비디오 스트림 내의 움직임 검출에 의해 트리거된, 사용자에게 물리적 자극을 제공하는 방법 및 장치
US8319819B2 (en) 2008-03-26 2012-11-27 Cisco Technology, Inc. Virtual round-table videoconference
US8390667B2 (en) 2008-04-15 2013-03-05 Cisco Technology, Inc. Pop-up PIP for people not in picture
US8218831B2 (en) * 2008-06-30 2012-07-10 Cisco Technology, Inc. Combined face detection and background registration
US8345944B2 (en) * 2008-08-06 2013-01-01 Siemens Aktiengesellschaft System and method for coronary digital subtraction angiography
US8694658B2 (en) 2008-09-19 2014-04-08 Cisco Technology, Inc. System and method for enabling communication sessions in a network environment
TWI405149B (zh) * 2008-12-08 2013-08-11 Ind Tech Res Inst 物體端點定位方法及應用其之系統
KR101215987B1 (ko) * 2008-12-22 2012-12-28 한국전자통신연구원 전경/배경 분리 장치 및 방법
US8659637B2 (en) 2009-03-09 2014-02-25 Cisco Technology, Inc. System and method for providing three dimensional video conferencing in a network environment
US8503720B2 (en) 2009-05-01 2013-08-06 Microsoft Corporation Human body pose estimation
US9524550B2 (en) 2009-05-05 2016-12-20 Siemens Healthcare Gmbh System and method for coronary digital subtraction angiography
US8659639B2 (en) 2009-05-29 2014-02-25 Cisco Technology, Inc. System and method for extending communications between participants in a conferencing environment
US8452599B2 (en) * 2009-06-10 2013-05-28 Toyota Motor Engineering & Manufacturing North America, Inc. Method and system for extracting messages
TWI390465B (zh) * 2009-06-19 2013-03-21 Primax Electronics Ltd 用於背景去除之影像處理方法
US8269616B2 (en) * 2009-07-16 2012-09-18 Toyota Motor Engineering & Manufacturing North America, Inc. Method and system for detecting gaps between objects
US9082297B2 (en) 2009-08-11 2015-07-14 Cisco Technology, Inc. System and method for verifying parameters in an audiovisual environment
US8337160B2 (en) * 2009-10-19 2012-12-25 Toyota Motor Engineering & Manufacturing North America, Inc. High efficiency turbine system
US8237792B2 (en) * 2009-12-18 2012-08-07 Toyota Motor Engineering & Manufacturing North America, Inc. Method and system for describing and organizing image data
US9225916B2 (en) 2010-03-18 2015-12-29 Cisco Technology, Inc. System and method for enhancing video images in a conferencing environment
US9313452B2 (en) 2010-05-17 2016-04-12 Cisco Technology, Inc. System and method for providing retracting optics in a video conferencing environment
US8424621B2 (en) 2010-07-23 2013-04-23 Toyota Motor Engineering & Manufacturing North America, Inc. Omni traction wheel system and methods of operating the same
KR101630286B1 (ko) 2010-08-09 2016-06-15 한화테크윈 주식회사 전경 및 배경 분리 장치 및 방법
US8896655B2 (en) 2010-08-31 2014-11-25 Cisco Technology, Inc. System and method for providing depth adaptive video conferencing
US8599934B2 (en) 2010-09-08 2013-12-03 Cisco Technology, Inc. System and method for skip coding during video conferencing in a network environment
US8599865B2 (en) 2010-10-26 2013-12-03 Cisco Technology, Inc. System and method for provisioning flows in a mobile network environment
US8699457B2 (en) 2010-11-03 2014-04-15 Cisco Technology, Inc. System and method for managing flows in a mobile network environment
US8902244B2 (en) 2010-11-15 2014-12-02 Cisco Technology, Inc. System and method for providing enhanced graphics in a video environment
US8730297B2 (en) 2010-11-15 2014-05-20 Cisco Technology, Inc. System and method for providing camera functions in a video environment
US9143725B2 (en) 2010-11-15 2015-09-22 Cisco Technology, Inc. System and method for providing enhanced graphics in a video environment
US9338394B2 (en) 2010-11-15 2016-05-10 Cisco Technology, Inc. System and method for providing enhanced audio in a video environment
US8542264B2 (en) 2010-11-18 2013-09-24 Cisco Technology, Inc. System and method for managing optics in a video environment
US8723914B2 (en) 2010-11-19 2014-05-13 Cisco Technology, Inc. System and method for providing enhanced video processing in a network environment
US9123115B2 (en) 2010-11-23 2015-09-01 Qualcomm Incorporated Depth estimation based on global motion and optical flow
US9171372B2 (en) * 2010-11-23 2015-10-27 Qualcomm Incorporated Depth estimation based on global motion
US9111138B2 (en) 2010-11-30 2015-08-18 Cisco Technology, Inc. System and method for gesture interface control
USD682854S1 (en) 2010-12-16 2013-05-21 Cisco Technology, Inc. Display screen for graphical user interface
US9147260B2 (en) * 2010-12-20 2015-09-29 International Business Machines Corporation Detection and tracking of moving objects
US8587583B2 (en) 2011-01-31 2013-11-19 Microsoft Corporation Three-dimensional environment reconstruction
US8401242B2 (en) 2011-01-31 2013-03-19 Microsoft Corporation Real-time camera tracking using depth maps
US8570320B2 (en) 2011-01-31 2013-10-29 Microsoft Corporation Using a three-dimensional environment model in gameplay
US8401225B2 (en) 2011-01-31 2013-03-19 Microsoft Corporation Moving object segmentation using depth images
US9247238B2 (en) 2011-01-31 2016-01-26 Microsoft Technology Licensing, Llc Reducing interference between multiple infra-red depth cameras
US8711206B2 (en) 2011-01-31 2014-04-29 Microsoft Corporation Mobile camera localization using depth maps
US8942917B2 (en) 2011-02-14 2015-01-27 Microsoft Corporation Change invariant scene recognition by an agent
US8692862B2 (en) 2011-02-28 2014-04-08 Cisco Technology, Inc. System and method for selection of video data in a video conference environment
US8670019B2 (en) 2011-04-28 2014-03-11 Cisco Technology, Inc. System and method for providing enhanced eye gaze in a video conferencing environment
US8786631B1 (en) 2011-04-30 2014-07-22 Cisco Technology, Inc. System and method for transferring transparency information in a video environment
US8934026B2 (en) 2011-05-12 2015-01-13 Cisco Technology, Inc. System and method for video coding in a dynamic environment
CN102270347B (zh) * 2011-08-05 2013-02-27 上海交通大学 基于线性回归模型的目标检测方法
US8947493B2 (en) 2011-11-16 2015-02-03 Cisco Technology, Inc. System and method for alerting a participant in a video conference
US8682087B2 (en) 2011-12-19 2014-03-25 Cisco Technology, Inc. System and method for depth-guided image filtering in a video conference environment
US9031357B2 (en) * 2012-05-04 2015-05-12 Microsoft Technology Licensing, Llc Recovering dis-occluded areas using temporal information integration
US8982179B2 (en) 2012-06-20 2015-03-17 At&T Intellectual Property I, Lp Apparatus and method for modification of telecommunication video content
US9681154B2 (en) 2012-12-06 2017-06-13 Patent Capital Group System and method for depth-guided filtering in a video conference environment
US9857470B2 (en) 2012-12-28 2018-01-02 Microsoft Technology Licensing, Llc Using photometric stereo for 3D environment modeling
US9940553B2 (en) 2013-02-22 2018-04-10 Microsoft Technology Licensing, Llc Camera/object pose from predicted coordinates
US9843621B2 (en) 2013-05-17 2017-12-12 Cisco Technology, Inc. Calendaring activities based on communication processing
CN104463903B (zh) * 2014-06-24 2017-12-05 中海网络科技股份有限公司 一种基于目标行为分析的行人图像实时检测方法
US9449395B2 (en) 2014-09-15 2016-09-20 Winbond Electronics Corp. Methods and systems for image matting and foreground estimation based on hierarchical graphs
US10474842B2 (en) * 2014-11-07 2019-11-12 Sony Corporation Information processing system, storage medium, and control method
US10237559B2 (en) * 2014-11-20 2019-03-19 Getgo, Inc. Layer-based video decoding
DE102014225797A1 (de) 2014-12-15 2016-06-16 Bayerische Motoren Werke Aktiengesellschaft Vordergrund-Hintergrund Differenzierung im Fahrzeug
CN104484890B (zh) * 2014-12-18 2017-02-22 上海交通大学 基于复合稀疏模型的视频目标跟踪方法
CN104715494A (zh) * 2015-03-30 2015-06-17 江南大学 基于局部敏感直方图的视频目标压缩跟踪方法
US10019637B2 (en) * 2015-11-13 2018-07-10 Honda Motor Co., Ltd. Method and system for moving object detection with single camera
WO2017129804A1 (en) * 2016-01-29 2017-08-03 Kiwisecurity Software Gmbh Methods and apparatus for using video analytics to detect regions for privacy protection within images from moving cameras
CN106296740B (zh) * 2016-08-11 2019-05-14 电子科技大学 一种基于低秩稀疏表达的目标精细轮廓跟踪方法
CN106530321B (zh) * 2016-10-28 2019-07-12 南方医科大学 一种基于方向和尺度描述子的多图谱图像分割方法
EP3513379A4 (en) * 2016-12-05 2020-05-06 Hewlett-Packard Development Company, L.P. AUDIO-VISUAL TRANSMISSION ADJUSTMENTS VIA OMNIDIRECTIONAL CAMERAS
TWI648985B (zh) * 2017-01-25 2019-01-21 和碩聯合科技股份有限公司 視訊成像方法及其電子裝置
EP3376467B1 (en) * 2017-03-14 2020-04-22 Altostratus Capital LLC Generation of alpha masks of video frames
CN107644432B (zh) * 2017-08-28 2020-08-11 浙江工业大学 基于Kalman目标预测多特征压缩融合的快速运动目标跟踪方法
CN110136155B (zh) * 2019-05-19 2022-10-21 绵阳逢研科技有限公司 一种图案边缘轨迹智能提取方法及其应用
CN112802053B (zh) * 2021-01-27 2023-04-11 广东工业大学 一种面向动态环境稠密建图的动态物体检测方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09161072A (ja) * 1995-12-13 1997-06-20 Tsushin Hoso Kiko 映像信号の構造情報を抽出する映像処理装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6738154B1 (en) * 1997-01-21 2004-05-18 Xerox Corporation Locating the position and orientation of multiple objects with a smart platen
US6480615B1 (en) * 1999-06-15 2002-11-12 University Of Washington Motion estimation within a sequence of data frames using optical flow with adaptive gradients
US6901169B2 (en) * 2001-02-01 2005-05-31 At & T Corp. Method and system for classifying image elements
US7085401B2 (en) * 2001-10-31 2006-08-01 Infowrap Systems Ltd. Automatic object extraction
JP4928451B2 (ja) * 2004-07-30 2012-05-09 ユークリッド・ディスカバリーズ・エルエルシー ビデオデータを処理する装置および方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09161072A (ja) * 1995-12-13 1997-06-20 Tsushin Hoso Kiko 映像信号の構造情報を抽出する映像処理装置

Also Published As

Publication number Publication date
US7440615B2 (en) 2008-10-21
WO2007050707A3 (en) 2009-05-07
JP2009514103A (ja) 2009-04-02
WO2007050707A2 (en) 2007-05-03
US20070116356A1 (en) 2007-05-24

Similar Documents

Publication Publication Date Title
JP4777433B2 (ja) ビデオ前景の分割方法
EP3602494B1 (en) Robust mesh tracking and fusion by using part-based key frames and priori model
Shih et al. Exemplar-based video inpainting without ghost shadow artifacts by maintaining temporal continuity
Zhang et al. Robust bilayer segmentation and motion/depth estimation with a handheld camera
Sun et al. Layered image motion with explicit occlusions, temporal consistency, and depth ordering
US20050286758A1 (en) Color segmentation-based stereo 3D reconstruction system and process employing overlapping images of a scene captured from viewpoints forming either a line or a grid
Zhi et al. Toward dynamic image mosaic generation with robustness to parallax
Ling et al. Virtual contour guided video object inpainting using posture mapping and retrieval
JP2002525735A (ja) ベクトル画像シーケンスにおける意味対象物の追跡
Tsin et al. Stereo matching with linear superposition of layers
Jonna et al. A multimodal approach for image de-fencing and depth inpainting
Guo et al. Joint raindrop and haze removal from a single image
Abraham et al. A survey on video inpainting
Mirante et al. A fast image segmentation algorithm using color and depth map
KR101316848B1 (ko) 배경 합성을 위한 자동 객체 분할 장치 및 방법
Kim et al. Fast extraction of objects of interest from images with low depth of field
Lee et al. Multisensor fusion-based object detection and tracking using active shape model
Calagari et al. Data driven 2-D-to-3-D video conversion for soccer
Lin et al. A principal component clustering approach to object-oriented motion segmentation and estimation
Marugame et al. Focused object extraction with multiple cameras
Finger et al. Video Matting from Depth Maps
Zarif et al. Video inpainting: A complete framework
Choudhary et al. Surveillance video synopsis
Han et al. Video foreground segmentation based on sequential feature clustering
Sufyan et al. Removal of unwanted object in a video by using video inpainting technique: a review

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090708

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110427

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110601

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110629

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140708

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140708

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140708

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees