JP4651385B2 - 非線形の複数の動きモデル及び移動境界を抽出する方法及び装置 - Google Patents

非線形の複数の動きモデル及び移動境界を抽出する方法及び装置 Download PDF

Info

Publication number
JP4651385B2
JP4651385B2 JP2004551854A JP2004551854A JP4651385B2 JP 4651385 B2 JP4651385 B2 JP 4651385B2 JP 2004551854 A JP2004551854 A JP 2004551854A JP 2004551854 A JP2004551854 A JP 2004551854A JP 4651385 B2 JP4651385 B2 JP 4651385B2
Authority
JP
Japan
Prior art keywords
motion
frame
pixels
boundary
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004551854A
Other languages
English (en)
Other versions
JP2006505870A (ja
Inventor
パニコーニ、マルコ
ジュニア カリッグ、ジェームス、ジェー.
Original Assignee
ソニー エレクトロニクス インク
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー エレクトロニクス インク filed Critical ソニー エレクトロニクス インク
Publication of JP2006505870A publication Critical patent/JP2006505870A/ja
Application granted granted Critical
Publication of JP4651385B2 publication Critical patent/JP4651385B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/207Analysis of motion for motion estimation over a hierarchy of resolutions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/215Motion-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/223Analysis of motion using block-matching
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • H04N19/139Analysis of motion vectors, e.g. their magnitude, direction, variance or reliability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • H04N19/521Processing of motion vectors for estimating the reliability of the determined motion vectors or motion vector field, e.g. for smoothing the motion vector field or for correcting motion vectors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/537Motion estimation other than block-based
    • H04N19/543Motion estimation other than block-based using regions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/553Motion estimation dealing with occlusions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/12Systems in which the television signal is transmitted via one channel or a plurality of parallel channels, the bandwidth of each channel being less than the bandwidth of the television signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)

Description

本発明は、画像処理に関する。より詳細には、本発明は、画像内における物体の動きの推定に関する。
ビデオを符号化するための標準的な動きのモデル化には、パラメトリックモデル(parametric models)が必要とされ、パラメトリックモデルは、動きを推定するために、固定領域(動きブロック)に適用される。これらの手法には、パラメトリックモデルが動きブロック内で複数の(異なる)動きの存在を処理することができないという点で、限界がある。この問題について説明する。
動き推定における基本的な問題は、複数の動き及び移動物体(moving object)の境界を取り扱うモデルの能力にある。標準的な動きモデル、例えばアフィン近似射影モデル(affine model)、透視射影モデル(perspective model)等では、領域(すなわち動きブロック)を滑らかに変形することができ、その動きブロック内の全ての画素に対するコヒーレントな動き(例えば平行移動、拡大、回転等)を捕捉することができる。動きを推定する領域又はブロックとしては、あまり小さいものを選択することができない。これは、(1)符号化の観点からは、領域を大きくすると、動きのオーバヘッドが小さくなり、(2)推定の観点からは、領域を大きくすると、動きのパラメータをより良く推定することができるという理由からである。
一般的な動きモデルの標準的な限界から生じる重要な問題は、動きブロック内における複数の動きの発生である。動き領域内の移動物体の境界は、おそらく非常に異なる2つの動き(物体の動き及び例えば背景の動き)を示している。また、移動物体の境界は、幾つかの画素が過去又は未来の動き推定に関して遮蔽されて(occluded)いる(隠されて(hidden)いる)ことを意味している。この遮蔽効果により、動き推定に偏りが生じ、予測誤差が大きくなり、物体の境界を正確に抽出することが困難になる。
動きを分割する手法は、多くの場合、オプティカルフロー推定(optical flow estimate)又はパラメトリック(すなわちアフィン近似射影)動きモデルに基づいている。これらの手法は、近傍の物体との境界及び遮蔽効果の通常の問題を有する。分割フィールド内の、したがって物体の境界における滑らかさは、マップ/ベイジアン法(MAP/Bayesian method)における事前確率項(prior probability term)によって、ある程度達成することができる。これは、物体の境界及び動きフィールドを説明する何らかの明示的な結合モデルがないと、分割フィールドの連続性に対してより一層の制約となる。移動物体の境界を捕捉するために、曲率展開モデル(curvature evolution model)を使用することができる。しかし、この手法は、動き推定/フィールドを含んでおらず、物体の境界を展開するモデルの時間的な差分演算子(temporal difference operator)に依存している。
別の手法、例えばレベルセット手法の文脈では、物体の境界の輪郭及び複数のアフィン動きフィールド(affine motion field)を暗黙的にモデル化しているが、動き推定は、1つの参照フレームに関してだけである、すなわちフレームnの動きは、フレームn−1から判定される。上述のように、この手法には幾つかの問題がある。物体境界の近くの幾つかの画素は遮蔽されることもある。その結果、動きフィールドが遮蔽のために境界の近くでは信頼できず、境界の推定は順次バイアスされる。
したがって、一般的な動きモデルには、幾つかの問題が存在する。
以下、本発明に係る動き推定方法及び方法ついて、図面を参照して説明する。なお。本発明は、図面に示す実施形態に限定されるものではない。同様の構成要素には、同じ指示符号を伏している。
非線形の複数の動きモデル及び移動境界を抽出する方法及び装置について説明する。
本発明は、ビデオ画像内の物体の動きを推定する新規な動きモデルに関する。本発明の一実施形態では、空間変数と時間変数との非線形結合、すなわち複数の動きを分離するための一種の領域競合(region competition)と、移動物体の境界の推定値を抽出するための境界モデル化とを含む新規なモデルが使用される。このモデルは、コンパクトであり、動きの分割及び/又はビデオ符号化の用途において使用することができる。
本発明の他の実施形態においては、背景技術で説明した問題を解決するために、動きモデル化の拡張が使用されている。このモデルの基本的特徴は、以下の通りである。
1)時間変数を導入して、過去及び未来のフレームに関する推定を組み合わせることを可能にする。
2)複数の動き(2つ以上の動き)が共存することを可能にする。
3)境界を選択するための一種の領域競合から、物体の境界抽出(境界の曲率が組み込まれた)を判定する。
4)非線形関数を用いて、物体の境界の推定値を制御/リファインする。
本発明は、複数の動き(2つ以上の動き)を取り扱うことができる。しかしながら、本発明を必要以上に分かりにくくしないために、最初は2つの動きについて説明し、後に2つ以上の動きへの拡張について説明する。
時間変数を使用することによって、2つの動きの導入が可能になり、それにもかかわらず、遮蔽効果が避けられることは、当業者にとって、明らかになる。移動物体の境界に近接する幾つかの画素が、例えば前フレーム中では隠されている場合、予測誤差を小さくするために、(それらの画素が属する)動き領域は、その動きを未来(及び過去)に関して参照する傾向がある。これは、ある意味では、一種の「領域競合(region competition)」であり、そこでは、過去のフレーム又は未来のフレームいずれかを動き推定のための参照フレームとして選択することによって、それらの予測誤差を小さくする2つの動き領域の競合として、物体の境界が得られる。したがって、本発明を適用したモデルにおける移動物体の境界は、この種類の領域競合から暗黙的に決定される。これは、輪郭モデル(すなわち積極的な輪郭モデル(active contour model))を明示的に導入するモデルとは対照的である。これらの方法では、輪郭が漸進的に変化(evolve)するときには、輪郭の打切り、及び長さ/曲率の制御に対して重大な問題が生じることがある。
本発明の一実施形態においては、動きモデルは、画像内の領域/ブロックに局所的に適用され、動き推定又は動きの分割に対して改良されたもの(stage)の一部と見ることができる。すなわち、画像の動き推定/分割アルゴリズムを、(例えば最初は標準的なアフィン近似射影動きモデルを用いて)1パス実行した後、ある領域の予測誤差がある品質の閾値を超えている場合、本発明の一実施形態では、動きモデルをそれらの領域に適用することができる。図3は、その処理を示すフローチャート300である。
ステップ302において、標準的な動きモデルから、ある領域についての予測誤差が供給される。ステップ304において、(ステップ302で供給された)予測誤差が、予め設定された第1の閾値よりも大きいかの判定が行われる。(ステップ302からの)予測誤差が第1の閾値よりも大きくない場合、ステップ306において、他の処理を行うことができる。予測誤差が第1の閾値よりも大きい場合、ステップ308において、その領域に対して、2つ以上の動き及び関連した境界が捕捉される。次に、ステップ310において、(ステップ308からの)予測誤差が、予め設定された第2の閾値よりも大きいかを判定するために、チェックが行われる。予測誤差が第2の閾値よりも大きくない場合、ステップ306において、他の処理を行うことができる。予測誤差が第2の閾値よりも大きい場合、ステップ312において、その領域に対して、より複雑な動き及び関連した境界が捕捉される。破線のステップ314において、本発明の技術が実行される。
本発明の他の実施形態においては、動きモデルの拡張を、物体境界の真の軟変形(non-rigid deformation)のために使用することができる。例えば、図3のステップ312は、真の軟変形を取り扱うためのより複雑なモデルとすることができる。境界と境界のマッチング(boundary-to- boundary matching)のような拡張を、図3に示す処理に組み込むことができる。
ビデオ符号化の用途では、ブロックを4分木分割(quadtree segmentation)することによって、複数の(予測誤差を小さくするための)動きを捕捉する動きブロック/領域を簡単に(オーバヘッドを少なくして)分割することができ、動き推定を改善するために、大きな予測誤差を有するブロックは、サブブロックに分割される。同様に、大きな予測誤差を有するブロックは、境界/区画(boundary/partition)を直線でモデル化することによって、4分木分割することができる。本発明の一実施形態においては、この方法は、動きの分割の問題自体により協調したものであり、移動物体の境界の位置及び局所的な形状の優れた推定値を得る能力を含んでいる。
図4は、ビデオ符号化の一実施形態の処理を示すフローチャート400である。ここでは、動きモデルを用いて、動きを推定し、時間的冗長性を取り除き、この結果、符号化しなければならない動き残差(motion residual)が少なくなる。本発明の更なる実施形態、及び符号化のためにどのように効率的かつ効果的に動きモデルを用いることができるかについては、後述する。
図4に示すステップ402において、入力画像が供給される。ステップ404において、動き推定が特定のフレームに対して実行され、本発明の複数の動き及び境界の抽出を用いて、遮蔽領域及び移動境界が識別される。ステップ406において、残りの動き残差が符号化される。
本発明の一実施形態においては、2つの動きを表すために、時間変数を用いる。動きモデルにおいて、例えば過去のフレームでは遮蔽されていた境界近くの画素ではなく、未来のフレームの(遮蔽されていない)画素を選択し、また、その逆も同様に選択して推定を行うように、過去及び未来に対する同時の推定を用いる(すなわち2つの参照フレームを用いる)。モデル中で利用されるのは、遮蔽のこの二元性(duality of occlusion)である。
本発明の実施形態においては、境界のインタフェース(boundary interface)を制御及びリファインするために、時間変数(及び従って境界モデル)における非線形の面(nonlinear aspect)を使用する。
本発明の実施形態においては、図3に示すように、拡張動きモデルを、局所的に、連続した反復手法の一部として使用することができる。例えば、分割処理の1回目のパスにおいて、(予測誤差が大きいために)劣っていると見なされる領域を、複数の動き及び移動境界を捕捉する拡張動きモデルによって、再び推定することができる。
上述のように、境界は、動きモデルの時間変数によって暗黙的に定義され、その関数形式により、動き領域を、滑らかに小さく維持される領域によって定義することができる。
標準的なモデルの概要
本発明の実施形態をより迅速かつ完全に理解できるようにするために、標準的な動きモデルの概要を説明する。動き推定においてよく用いられている標準的な動きモデルは、アフィン近似射影モデル(affine model)であり、以下の式で表される。
Figure 0004651385
ここで、(x’,y’)は、参照フレーム(すなわち前フレーム)上の画素の位置である。(a=e,d=−b)の場合、許容される動きは、平行移動、拡大及び回転だけであり、これらは、ほとんどの事例における基本モードである。非線形の透視射影モデル(Nonlinear perspective model)は、画像面への射影を取り扱う8つのパラメータのアフィン近似射影モデルの拡張である。動きモデルは、ある領域(動きブロック)に適用され、パラメータの推定は、線形最小2乗射影(linear least squared projection)、予測誤差の特設的な最小化(direct minimization of prediction error)、予測誤差の多分解能最小化(multi-resolution minimization of prediction error)等を含むことができる。
動きモデル
本発明の実施形態は、移動物体の境界の複数の動き及び推定を説明するモデルを含んでいる。過去及び未来の動き推定が使用される。これは、時間変数t’(t’=−1:過去のフレームに基づく動き推定、t’=0:未来のフレームに基づく動き推定)を使用することを含んでいる。2つの動きについてのモデル(より一般的に事例については後述する)は、以下の式によって表される。
Figure 0004651385
ここで、B(x,y)は、境界/インタフェースに関する情報を含み、v =(v ,v )は、i=1,2の動きについての動きモデルのベクトルマップ(motion model vector map)である。
モデルの1つを実現するために、モデル(すなわち、以下の式によって表される画素座標の滑らかな関数)を考える。
Figure 0004651385
ここで、{g,h,α,β,i}は、モデルの境界曲線に対するパラメータである。
に対する標準的なアフィン近似射影動きモデルも導入すると、上記式は、下記式となる。
Figure 0004651385
ここで、{a,b,c,d,e,f,a’,b’,c’,d’,e’,f’}は、アフィン近似射影動きモデルのパラメータである
モデルの内容は、以下の通りである。
最初に、上述した最後の2つの式を検討する。これらの式は、2つの動きをモデル化したものであり、1つは6パラメータのアフィン動き(affine motion)であり、もう1つは6パラメータのアフィン動きである。
t’=−1の画素に対する動ベクトルは、以下の式で得られる。
Figure 0004651385
t’=0の画素に対する動きベクトルは、以下の式で得られる。
Figure 0004651385
時間変数に結合することにより、この実施形態における2つの異なる動き(すなわち、異なる平行移動、回転及び拡大)が可能となる。動き領域の2つの動きへの分割は、その領域が動き推定のために過去のフレームを使用するか、未来のフレームを使用するかに応じて定義される。これを図5に示す。
図5において、動き推定のための領域のフレーム参照により、2つの領域への動きの分割が実現される。速度Vで移動する物体は、この実施例では前景物体である。(過去の参照フレームと未来の参照フレームの両方について)予測誤差を最小にすることにより、モデルが決定される。予測誤差が最小になれば、その結果として、一番下の分割(510)になるはずであり、この一番下の分割は、あらゆる遮蔽効果を回避し、したがって、真の移動境界を見つける最高の可能性を有する。502は前フレーム、504は現フレーム、506は未来又は次フレームである。508は、現フレームを2つの動きに分割する1つの可能性を示している。510は、現フレームを2つの動きに分割するもう1つの分割であり、分割508と比較したときに、より予測誤差が小さい場合である。
式(1)における時間変数は、画素位置の滑らかな関数であり、−1〜0の範囲で変化する。操作上は、現フレーム上の動きブロック内の特定の画素位置によって、時間変数t’が定義される。そして、この時間変数t’は、最後の2つの式において、動ベクトルを決定するために使用される。時間t’においてフレーム上に存在する画素位置に対する動ベクトルを参照することにより、予測が形成される。t’=0の場合は、未来のフレームが予測において使用される。t’=−1の場合は、過去のフレームが使用される。t’∈(−1,0)の場合は、過去のフレームと未来のフレームとの線形組合せが使用される。
時間変数は、物体の境界の動きを制御する。境界はs=−0.5である場所に存在するとして定義され、一般的には、この場所は、多項式gx+hy+αx+βy+i=−0.5によって描かれる曲線である。インタフェースモデルの滑らかさにより、各動き領域を平滑な、小さいサポートによって定義することができる。非線形関数Fは、境界を定義する条件t’=F(−0.5)=−0.5とともに、インタフェースを離れて、0又は−1に飽和するという意味において、境界を代表するように選ばれる。非線形関数F(s)=(tanh((s+0.5)/ω)−1)/2は、この特徴を実現し、ここで、wは境界における傾きを制御する。境界又はインタフェースの「幅」としてのパラメータwが参照される。異なる境界幅の関数Fをプロットしたものを図6に示す。
図6に示すように、関数t’=F(s)の振る舞い600が、動きモデルの一実施形態において使用される。この関数は、s=−0.5で定義される物体の境界により、動き推定のための過去(t’=−1)又は未来(t’=0)の参照フレームに対する画素の割当てを制御する。この関数は、幅パラメータ(w)に特徴があり、−1及び0において適切に飽和する。
モデルの重要な特徴は、−1(過去のフレーム)から0(未来のフレーム)への時間変数の広がりを制御する「境界幅」(w)である。(幅wにより定義される)境界の近くの画素は、一種の混合物相、すなわち2つの領域の線形組合せである。すなわち、境界領域内の画素に対する予測は、下記式で表される。
Figure 0004651385
混合状態:
混合状態は、領域1の重さ(1+t’)及び領域2の重さ−t’として定義することができ、ここで、t’∈(−1,0)である(時間が動き領域/領域を参照する)。本発明の一実施形態においては、w自体は、モデル中で動的に変化することができる。そして、システムは、境界の幅/粗さを特徴付ける値wを当然のことながら選択し、境界レイヤ内のどの画素が2つの領域の混合であるのかを判定する。
純粋状態:
細い境界を有する2つの(純)領域を手際よく抽出するための本発明の一実施形態においては、動きパラメータの推定段階中は、wは固定されており、小さい。例えば、幅パラメータはw=1/3に固定されており、(図5に示すような)連続的に細くなるインタフェース幅を使用して、再推定が行われる。境界の推定値を制御及びリファインするために、モデルの非線形関数F(s)及びwの縮小が使用される。インタフェース幅が縮小するにつれて、境界から離れた画素がその参照フレームに関して「凍結状態」になる。(s=−0.5により決定される)境界の近傍の画素だけが、その時間変数を変化させ(すなわち、他方の参照フレームに移動し)、したがって、境界を修正することを許容される。
モデルパラメータの推定:
本発明の一実施形態においては、動きモデルパラメータの推定は予測誤差の最小化から得られる。
Figure 0004651385
ここで、(x’,y’,t’)はモデルパラメータの関数である(式(1)を参照)。
各画素について、予測が過去のフレームと未来のフレームとの線形組合せであることに注意されたい。簡単な双一次時間補間を使用することができる。モデルパラメータの推定は、多分解能レイヤ(multiple resolution layers)を使用する最急降下アルゴリズムから得ることができる(後述する)。
動きモデルのための推定アルゴリズムの詳細な手順は下記のように進行する。使用できる初期条件には、下記の3つのセットがある。
(1)前フレームに関して初期化された動きパラメータ
(2)未来のフレームに関して初期化された動きパラメータ
(3)セット(1)及び(2)からのパラメータの平均
一実施形態においては、各セットについて、インタフェースパラメータは
g=h=α=β=0;
i=−0.075、−0.5、−0.25
となるように選ばれる。したがって、ほとんどの場合はi=−0.5のセット1又は2で十分であるかもしれないのであるが、合計で9つの初期条件が使用される。下記のシーケンス1〜7については、幅パラメータはw=1/3に固定されたままである。
1.パラメータの初期化:
(オリジナル画像の大幅な縮小から得られた)1/16サイズ画像について、ブロックマッチング(BM)が対応動きブロック内の小さなブロックに対して行われる。初期条件セット1については、BMが過去に関して、セット2については、BMが未来に関して行われる。次に、最小2乗法(LS)を使用して、動ベクトルのセットがモデルパラメータにマッピングされる。これにより、初期条件セット1及び2についてのパラメータの初期セット(a,b,c,d,e,f)が得られる。パラメータ(a’,b’,c’,d’,e’,f’)は0に初期化される。第3初期条件セットについては、セット1及び2からのパラメータの平均が使用される。
2.モデルパラメータ(V((Vはレイヤ2(1/16サイズ画像)についてのモデルの全てのパラメータの成分を表す)の推定値を得るために、最急降下法が1/16サイズ画像に対して使用される。
3.1/4サイズ画像に関する推定を開始するための1/16サイズ画像から1/4サイズ画像への射影。この射影は、空間スケーリングを受けるモデルの関数形式を維持するように決定される。レイヤ2からレイヤ1への動きパラメータの射影については、レイヤ射影は下記のようになる。
レイヤ射影:
Figure 0004651385
4.レベル1についての初期条件として上部レイヤからの射影推定値を使用する。1/4サイズ画像について、反復/最急降下法を繰り返す。これにより、推定値(Vが得られる。
5.1/4サイズ画像からオリジナルサイズ画像への射影。3の場合と同様。
6.フルサイズ画像について、反復/最急降下推定を繰り返す。最終解は(Vである。
7.上述の初期条件のセットについて、1〜6を繰り返す。
8.予測誤差が最小である初期条件のセットからのパラメータの推定値を選択する。最善の(Vを初期条件として使用するとともに、連続的に先鋭化していく幅パラメータw(1/4、1/8、1/16)も使用して、動きパラメータを再推定する。これにより、移動物体の位置及び曲率の推定値が改善される。
実施例
動きモデルの幾つかの実施例がここに示してある。第1のセットの実施例においては、動きモデルは、2つの動きを含む領域(80×80ブロック)に適用された。実施例については、オリジナル画像は左側に示され、右側の画像は、2つの領域への複数の動き領域の分割を示している。暗い領域は過去のフレームを参照しており、白い領域は未来のフレームを参照している。図5で検討し、示したように、各実施例において、過去/未来領域への分割が遮蔽効果の最小化と相反しないことに注意されたい。
実施例1が図7に示してある。扇形は右に移動する。扇形物体の曲率が取り込まれ、図5で検討し、示したように、動きモデルは過去動き参照と未来動き参照への分離を実現する。702はオリジナル画像であり、704は、2つの領域への複数の動き領域の分割を示している。暗い領域は過去のフレームを参照しており、白い領域は未来のフレームを参照している。
実施例2が図8に示してある。ここでは、男は下向きに移動する。これは前の実施例の場合と同じ効果である。802はオリジナル画像であり、804は、2つの領域への複数の動き領域の分割を示している。暗い領域は過去のフレームを参照しており、白い領域は未来のフレームを参照している。図5で検討したように、フレーム参照割当ては、遮蔽効果が最小になるように行われる。
実施例3が図9に示してある。前景の少女は左に移動する。少女が左に移動するので、少女の前の静止領域は、遮蔽が起こらない過去に関する動き推定の方を選択する。902はオリジナル画像であり、904は、2つの領域への複数の動き領域の分割を示している。暗い領域は過去のフレームを参照しており、白い領域は未来のフレームを参照している。
上述の実施例について、予測誤差データは、動き予測領域/ブロックとオリジナルブロックとの間の平均2乗誤差として計算された。標準的な動きモデルは、動き推定においてよく使用される単一動きアフィン近似射影モデルを指している。新規な動きモデルは本発明の実施形態を指している。下記のように、新規な動きモデルを使用することにより、予測誤差に改善が見られる。
Figure 0004651385
大きな領域に適用される動きモデル
下記の実施例においては、物体の周囲の大きな領域が80×80ブロックに分割された。この領域は、標準的な種類の動きの分割(アフィン近似射影動きモデル及びk平均クラスタリング)から得られたものであるが、移動物体の領域を識別するラベルと十分に付けられないブロック(大きな予測誤差及び/又は高いひずみ分類を有するブロック)を伴っている。次に、本発明の実施形態の新規な動きモデルが、移動物体の周囲の大きな領域を含む80×80ブロックのセットに適用された。実施例4が図10に示してあり、ここでは、細い黒い線1002は、新規な動きモデルを使用した境界の位置の推定である。
図10に示すような実施例4においては、少女は右に歩き、背景は左に「移動する」。動きモデルは、少女の周囲の大きな領域に適用される。少女の周囲の黒い線(1002)は移動物体の抽出位置である。少女の鼻/顔に沿った輪郭落ちは、80×80ブロックの1つのブロックの境界とぴったりと一致している。したがって、そのブロック内の画素の大部分は1つの動き(顔の動き)に属するものであり、そこで、システムは境界のない1つの領域/状態を選択したのである。
図11に示すのは、アフィン近似射影動きモデル(標準的な動きモデル)1104と、本発明の一実施形態に開示されたような新規な動きモデル1106の使用による改善との比較である。小さな絵1102がオリジナル画像である。画像1104は、アフィン近似射影動きモデルを使用する標準方法から導出された分割マップである。影の違いは動きのクラスの違いを指している。画像1106は、新規な動きモデルによる動きの再推定により得られた新しい分割マップである。画像1106は、画像1104の場合よりも画像内の少女の輪郭が明瞭になり、分割分割フィールドが平滑化したことを示している。
ビデオ符号化
本発明の別の実施形態においては、ビデオ符号化が新規な動きモデルを使用することができる。上述のモデルは、2つの動きを説明する能力を有することから、大きな領域に適用することができる。前に検討した実施例においては、80×80ブロックが使用された。新規な動きモデルは、異なる動き及び境界情報を「コンパクトに」表示するものと見なすことができる。例えば、本発明の一実施形態においては、このモデルは17のパラメータを有し、例えば80×80ブロックにおいて(704×484画像において)使用された場合は、約900の動きパラメータが存在する。これは、動きフィールド及び幾つかの移動境界の位置を抽出するためにデコーダが必要とする全ての情報を含んでいる。これを、非常に簡単な標準16×16ブロックマッチングアルゴリズム(明示的移動境界情報を含まない2つの平行移動パラメータ)が必要とする約2662のパラメータと比較されたい。
動きの数がMの場合のモデル
上述のように、これまでの検討は、本発明の実施形態を分かりにくくしないように、主として2つの動きを中心としたものであった。本発明の他の実施形態は任意の数の動き(M)を説明することができ、上述の実施例及び実施形態を拡張するために適用することができる。
非交差境界によりMの動きを説明するための2つの動きモデルの拡張は以下の形式で書くことができ(これは式(1)の拡張である)、
Figure 0004651385
ここで、上記式(1)と同様に、モデル式を以下のように、
Figure 0004651385
及び
Figure 0004651385
として使用することができる。
上述のモデルにおいては、xは現フレーム(その動きが現在推定中であるフレーム)上の画素位置を指し、xは参照フレーム上の位置を指し、{t ref}は、Mの動きの抽出のために使用されるMの参照フレームである。動きベクトル{v }はアフィン近似射影モデルのフィールドであり、t’は連続時間変数であり、F({s},{w},{t ref})は、境界を表す非線形関数である(1つのインタフェースについての実施例が図13に示してある)。この関数は、M−1の境界についてのインタフェース式{s,j=1,・・・,M−1}、M−1の幅パラメータ{w,j=1,・・・,M−1}、及びMの動きについての参照時間{t ref,i=1,・・・,M}(各境界の中心、Fの中点、2つの動きの事例については、図6を参照)を含む。インタフェース式{s}は、境界の位置及び形状をモデル化する多項式である。式1の2つの動きの
事例と対応させるために、重み付け関数の正規化、
Figure 0004651385
は、i=1において(すなわち、t ref=−1について)1になるように選ばれる。
2つの動きの事例
上述のモデルは前に実現された事例に還元される(式(1)を参照)。2つの参照フレームは、{t ref}=−1(過去)及び{t ref}=0(未来)である。アフィン動きベクトルの前方の因子は
Figure 0004651385
である。インタフェース変数s
は1つだけであり、幅変数wも1つである。非線形時間式は
Figure 0004651385
となり、ここで、例えば、2つの動きについて使用されるモデルは
Figure 0004651385
である。
3つの動き
3つの動きについての実施例が図12に示してある。ここでは、画像領域1300内の3つの「動き」は、静止前景である中間領域、及び矢印のように移動する他の2つの領域である。2つの非交差境界は直線で示されている。
遮蔽/覆われていない領域効果を最小にするために、最適状態(予測誤差の縮小)は、図12に示す領域フレーム参照(Frame ref:)となる。この実施例においては、過去(−1)、未来(0)、及び2フレームの過去(−2)に関する予測が考慮された。この実施例において使用されたインタフェース関数1300の例が図13に示してある。
3つの動き(2つの非交差境界)についてのインタフェース関数の例が図13に示してある。関数は
Figure 0004651385
のように書くことができ、ここで、t ref=−1(過去)及びt ref=−2、t ref=0であり、w、wは、境界の平滑さ/粗さを特徴付ける幅パラメータである(上述の実施例においては、w=0.25、w=0.25)。2つの動きの事例について検討したように、幅パラメータ{w}は固定外部パラメータとすることができるが、しかしながら、一般的には、動的に決定することができる(これにより、システムが境界の幅/粗さを調節又は選択することができる)。上述の「ビデオ符号化」において検討したように、本発明は、複数の動き及び境界情報をコンパクトに表示するものと見なすことができる。3つの動きの例については、約30のパラメータ(6パラメータのアフィン近似射影モデルによりモデル化された3つの動きについての6×3、二次多項式によりモデル化された2つの境界についての5×2、及び、例えば、2つの幅パラメータ)。この結果として、16×16ブロックについての2つのパラメータの使用という従来方式に比べて符号化利得が得られる。
したがって、開示されているのは、非線形の複数の動きモデル及び移動境界抽出のための方法及び装置である。
図1は、説明してきた技術を適用することができるネットワーク環境100を示したものである。図示するように、Sサーバ104−1〜104−S及びCクライアント108−1〜108−Cの形態の幾つかのコンピュータシステムがネットワーク102を通じて相互に接続されており、このネットワーク102は、例えば、ホームベースのネットワークとすることができる。あるいは、ネットワーク102は、インターネット、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、衛星リンク、光ファイバネットワーク、ケーブルネットワーク、又はこれら及び/又はその他の組合せの1つ以上とすることも、1つ以上を含むことができる。サーバは、例えば、ディスク記憶システムだけの役割を果たすことができ、記憶及び演算リソースの役割を果たすことができる。同様に、クライアントが演算、記憶及び表示能力を有することができる。ここに説明した方法は、基本的には、LAN、WAN、システムバス等のような、構内であろうと、遠隔であろうと、あらゆる種類の通信手段又は装置に適用することができる。
図2は、コンピュータシステム200をブロック図の形で示したものであり、コンピュータシステム200は、図1に示すクライアント及びサーバのいずれかを代表することができ、本発明の実施例を代表することができる。ブロック図は高レベル概念表示であり、様々な方法で、様々なアーキテクチャにより実装することができる。バスシステム202は、中央処理装置(CPU)204、読出専用メモリ(ROM)206、ランダムアクセスメモリ(RAM)208、ストレージ210、ディスプレイ220、オーディオ222、キーボード224、ポインタ226、その他の入出力(I/O)装置、及び通信装置230を相互に接続する。バスシステム202は、例えば、システムバスとしてのバス、周辺装置相互接続(Peripheral Component Interconnect:PCI)、高度なグラフィックポート(Advanced Graphics Port:AGP)、小形計算機システムインタフェース(Small Computer System Interface:SCSI)、米国電気電子学会(Institute of Electrical and Electronics Engineers:IEEE)規格番号1394(ファイヤワイヤ(FireWire))、ユニバーサルシリアルバス(Universal Serial Bus:USB)等の1つ以上とすることができる。CPU204は、シングル、マルチ又は分散コンピュータリソースとすることができる。ストレージ210は、コンパクトディスク(CD)、デジタル多用途ディスク(DVD)、ハードディスク(HD)、光ディスク、テープ、フラッシュ、メモリスティック、ビデオレコーダ等とすることができる。ディスプレイ220は、例えば、ブラウン管(CRT)、液晶ディスプレイ(LCD)、プロジェクションシステム、テレビジョン(TV)等とすることができる。コンピュータシステムの実装に応じて、コンピュータシステムは、ブロック図の中のコンポーネントの幾つ、全て、それ以上、又は再配置を含むことができることに注意されたい。例えば、薄いクライアントは、例えば、伝統的なキーボードのない無線携帯装置とすることができる。したがって、図2のシステムについては、多くの変異形が可能である。
本発明を検討し、理解する目的で、技術及び手法を説明するために、様々な用語が当業者によって使用されていることは、明らかである。さらに、明細書においては、説明の目的で、本発明を十分に理解させるための数多くの特別な詳細が示されている。しかしながら、当業者にとっては、これらの特別な詳細なしでも、本発明を実施できることは、明らかである。幾つかの具体例においては、本発明を分かりにくくするのを避けるために、詳細ではなく、ブロック図の形で、公知の構造及び装置が示されている。これらの実施形態については詳細に説明されており、当業者が本発明を十分に実施することができ、他の実施形態を利用することができ、本発明の範囲を逸脱することなく、論理的、機械的、電気的、及びその他の変更を行うことができる。
記述の幾つかの部分は、例えば、コンピュータメモリ内のデータビットに関する演算のアルゴリズム及び記号表示により提示することができる。これらのアルゴリズム記述及び表示は、データ処理の当業者が自らの仕事の内容をその他の当業者に伝達するための手段である。アルゴリズムは、ここでは、また一般的にも、所望の結果をもたらす一貫性のある一連のアクトであると考えられている。これらのアクトは、物理的数量の物理的操作を求めるアクトである。そうであるとは限らないにしても、通常は、これらの数量は、記憶、転送、結合、比較、及びその他の操作が可能な電気又は磁気信号の形をとる。主として共用という理由から、これらの信号をビット、値、エレメント、記号、文字、用語、数字等と呼ぶのが時には便利であることが明らかである。
しかしながら、これらの用語及び類似の用語の全てが適切な物理的数量と関連付けられていなければならず、しかもそれらの数量に適用される単なる便利なラベルにすぎないことに留意されたい。検討から明らかなような特段の指摘がない限りは、記述全体を通じて、「処理」又は「演算」又は「計算」又は「決定」又は「表示」等のような用語を利用する検討が、コンピュータシステムのレジスタ又はメモリ内に物理的(電子的)数量として表示されたデータを操作し、コンピュータシステムのレジスタ又はメモリ、又はその他の情報ストレージ、伝送又はディスプレイ装置内に物理的数量として同様に表示されるその他のデータに変換するコンピュータシステム又は類似の電子演算装置のアクション及び処理に言及できることが高く評価される。
本発明は、この点で演算を行うための装置により実施することができる。この装置は、所要の目的のために特別に構成することができ、コンピュータ内に記憶されたコンピュータプログラムにより選択的に起動又は設定される汎用コンピュータとすることができる。このコンピュータプログラムは、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、コンパクトディスク読出専用メモリ(CD−ROM)及び磁気光ディスクを含むあらゆる種類のディスク、読出専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、電気的プログラマブル読出専用メモリ(EPROM)、電気的消去可能プログラマブル読出専用メモリ(EEPROM)、フラッシュメモリ、磁気又は光カード等、又はコンピュータに対して局所的又はコンピュータに対して遠隔的に電子的命令を記憶するのに適したあらゆる種類のメディアのようなコンピュータで読取り可能な媒体に記憶することができるが、媒体はこれらの限定されるものではない。
ここに提示したアルゴリズム及びディスプレイはいずれかの特定のコンピュータ又はその他の装置と本質的に関連性を有するわけではない。様々な汎用システムをここにおける教示に従ってプログラムとともに使用することができ、所要の方法を実施するために専用の装置を構成するのが便利であることが明らかになることもある。例えば、汎用プロセッサのプログラミングにより、又はハードウェアとソフトウェアの任意の組合せにより、本発明による方法のいずれも固定配線回路内で実施することができる。本発明は、携帯装置、マルチプロセッサシステム、マイクロプロセッサベース又はプログラマブル家電製品、デジタルシグナルプロセッサ(DSP)、セットトップボックス、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ等を含めた、ここに記述した以外のコンピュータシステム構成により実施可能であることが、当業者には直ちに高く評価されよう。通信ネットワークを通じてリンクされている遠隔処理装置によりタスクが実行される分散コンピュータ環境においても、本発明は実施可能である。
本発明の方法は、コンピュータソフトウェアを使用して実施することができる。承認された規格に適合するプログラミング言語により書かれている場合は、多種多様なハードウェアプラットホーム上での実行のため、及び多種多様なオペレーティングシステムとのインタフェースのために、方法を実施するように設計された命令のシーケンスをコンパイルすることができる。それに加えて、本発明はいずれかの特定のプログラミング言語との関連で記述されているわけではない。ここに記述したような本発明の教示を実施するために、多種多様なプログラミング言語を使用することができることが高く評価されよう。さらに、ソフトウェアは様々な形態(例えば、プログラム、プロシージャ、アプリケーション、ドライバ、・・・)でアクションを起こしたり、結果をもたらしたりするものであると言われるのが技術的には普通である。この表現は、コンピュータによりソフトウェアの実行により、コンピュータのプロセッサがアクションを行ったり、結果を作り出したりするということの省略表現であるにすぎない。
通信、プロトコル、アプリケーション、実装、メカニズム等を記述するために、様々な用語及び技術が当業者により使用されていることを理解されたい。この技術の1つは、アルゴリズム又は数式による技術の実装の記述である。すなわち、技術は、例えば、コンピュータによるコードの実行として実装することができるが、一方、その技術の表現は、公式、アルゴリズム又は数式として、より適切かつ簡潔に伝達及び通信することができる。したがって、当業者は、A+B=Cを表示するブロックを、ハードウェア及び/又はソフトウェアにおけるその実装が2つの入力(A及びB)を取り、加算出力(C)を生成する加法関数をして認識する。したがって、記述としての公式、アルゴリズム又は数式の使用は、少なくとも(本発明の技術を実施することができるとともに、実施形態として実装することができるコンピュータシステムのような)ハードウェア及び/又はソフトウェアの中に物理的実施形態を有するものとして理解するものとする。
機械で読取り可能な媒体は、機械(例えば、コンピュータ)で読取り可能な形式で情報を記憶又は伝送するあらゆるメカニズムを含むと理解される。例えば、機械で読取り可能な媒体としては、読出専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、磁気ディスク記録媒体、光記録媒体、フラッシュメモリ装置、電気、光、音響又はその他の形式の伝搬信号(例えば、搬送波、赤外線信号、デジタル信号等)等がある。
用語「一実施形態」又は「実施形態」又は類似の表現は、本発明の実施形態がたった1つだけしか存在しないことを意味するものではなく、むしろ検討中の特定の実施形態が幾つかの可能な実施形態の1つであることを示している。
したがって、非線形の複数の動きモデル及び移動境界抽出のための1つの方法及び装置について記述してきたのである。
本発明の技術を使用することができるネットワーク環境を示す図である。 本発明の実施形態を実施することができるコンピュータシステムの構成を示すブロック図である。 本発明の一実施形態のフローチャートである。 ビデオ符号化の一実施形態のフローチャートである。 2つの領域への動きの分割の一実施形態を示す図である。 画素の時間参照割当てを制御する関数の一実施形態の振る舞いを示す図である。 局所ブロック領域に適用された本発明の動きモデルが過去の動き参照と未来の動き参照への分離をどのようにして実現するのかを、すなわち移動境界の抽出をどのようにして取り込むのかを示す図である。 局所ブロック領域に適用された本発明の動きモデルが過去の動き参照と未来の動き参照への分離をどのようにして実現するのかを、すなわち移動境界の抽出をどのようにして取り込むのかを示す図である。 局所ブロック領域に適用された本発明の動きモデルが過去の動き参照と未来の動き参照への分離をどのようにして実現するのかを、すなわち移動境界の抽出をどのようにして取り込むのかを示す図である。 本発明の動きモデルの実施形態がどのようにして移動境界の位置を推定したのかを示す図である。 標準的な動きモデルと本発明の動きモデルの実施形態との比較を示す図である。 3つの動き、その移動、及び最低予測誤差参照フレームを示す図である。 3つの動きへの時間参照割当てを制御するインタフェース関数の一実施形態の挙動を示す図である。

Claims (14)

  1. フレームのビデオシーケンス内で生じる入力フレームの動きブロックに対応する動き予測エラーを受信するステップであって、受信される動き予測エラーが単一の動きモデルに関連している、前記動き予測エラーを受信するステップと、
    対応する受信された動き予測エラーが所定の基準を満足する場合に、動きブロックを選択するステップと、
    第1の参照フレーム及び第2の参照フレームに関連する前記選択された動きブロックの画素に対して複数の動き予測エラーを算出するステップであって、前記入力フレーム、前記第1の参照フレーム及び前記第2の参照フレームは前記ビデオシーケンスの異なるフレームである、前記複数の動き予測エラーを算出するステップと、
    前記選択された動きブロックに対する前記複数の動き予測エラーの各々の値を最小化する画素領域の構成を決定するステップであって、前記構成が同様の第1の動きを有し前記第1の参照フレームに関して予測される第1の領域の画素及び同様の第2の動きを有し前記第2の参照フレームに関して予測される第2の領域の画素を備え、前記第1の参照フレームが過去フレームであり、前記第2の参照フレームが未来フレームである、前記決定するステップと、
    前記構成から前記選択された動きブロックに対する複数の動きモデルを導出するステップと、
    前記選択された動きブロックに対して前記複数の動きモデルを用いると共に前記入力フレームのその他の動きブロックに対して前記単一の動きモデルを用いて前記入力フレームを符号化するステップと、を備えたコンピュータ処理方法。
  2. 前記複数の動きモデルを導出するステップは、前記第1及び第2の領域の共通部分であるように前記ビデオシーケンスの移動物体の境界を推定するステップを備えた請求項1に記載のコンピュータ処理方法。
  3. 前記構成は、さらに、前記第1及び第2の参照フレームの組み合わせから予測される画素の混合領域を含んでおり、
    前記境界を推定するステップは、単一の参照フレームから予測される画素の領域内にあるように前記混合領域の画素を変更することを備えた請求項2に記載のコンピュータ処理方法。
  4. 前記境界を推定するステップは、さらに、
    時間変数t’=F(s)=−0.5であり、F(s)が非線形関数であり、sが境界モデルB(x、y)であり、x及びyが画素座標であり、t’=−1が過去のフレームに関して予測される画素に対するものであり、t’=0が未来のフレームに関して予測される画素に対するものであり、t’∈(−1、0)が混合領域における画素に対するものである場合に、混合領域における画素を識別することを備えている請求項3に記載のコンピュータ処理方法。
  5. 前記非線形関数は、
    Figure 0004651385
    によって与えられ、ここで、wは、前記境界の幅であり、幾つの画素が前記混合領域にあるかを制御する請求項4に記載のコンピュータ処理方法。
  6. 前記境界モデルは、
    Figure 0004651385
    によって与えられ、g、h、α、β及びiは、所定のパラメータである請求項4に記載のコンピュータ処理方法。
  7. 前記複数の動き予測エラーを算出するステップは、
    Figure 0004651385
    によって与えられる時間変数t’を含む6パラメータ(a,b,c,d,e,f)アフィン(affine)モーション式を用いて動きベクトル(vx、vy)を算出することを備え、
    ここで、x及びyは、前記入力フレームの画素の位置を示し、x’及びy’は、参照フレームの対応する画素の位置を示し、t’=−1は過去のフレームに関して予測される画素に対するものであり、t’=0は未来のフレームに関して予測される画素に対するものであり、
    過去のフレームに関して予測される画素に対する動きベクトルは、
    Figure 0004651385
    であり、
    未来のフレームに関して予測される画素に対する動きベクトルは、
    Figure 0004651385
    である請求項に記載のコンピュータ処理方法。
  8. 前記フレームの画素は、前記過去及び未来のフレームの両方に対して前記動きベクトルを与えることによって予測される請求項7に記載のコンピュータ処理方法。
  9. 前記参照フレームは、前記ビデオシーケンス内の前記入力フレームに関して過去のフレーム及び未来のフレームからなるグループから選択される請求項1に記載のコンピュータ処理方法。
  10. フレームのビデオシーケンス内で生じる入力フレームの動きブロックに対応する動き予測エラーを受信する論理であって、受信される動き予測エラーが単一の動きモデルに関連している、前記動き予測エラーを受信する論理と、
    対応する受信された動き予測エラーが所定の基準を満足する場合に、動きブロックを選択するための論理と、
    第1の参照フレーム及び第2の参照フレームに関連する前記選択された動きブロックの画素に対して複数の動き予測エラーを算出する論理であって、前記入力フレーム、前記第1の参照フレーム及び前記第2の参照フレームは前記ビデオシーケンスの異なるフレームである、前記複数の動き予測エラーを算出する論理と、
    前記選択された動きブロックに対する前記複数の動き予測エラーの各々の値を最小化する構成を決定する論理であって、前記構成が同様の第1の動きを有し前記第1の参照フレームに関して予測される第1の領域の画素及び同様の第1の動きを有し前記第2の参照フレームに関して予測される第2の領域の画素を備え、前記第1の参照フレームが過去フレームであり、前記第2の参照フレームが未来フレームである、前記決定する論理と、
    前記構成から前記選択された動きブロックに対する複数の動きモデルを導出する論理と、
    前記選択された動きブロックに対して前記複数の動きモデルを用いると共に前記入力フレームのその他の動きブロックに対して前記単一の動きモデルを用いて前記入力フレームを符号化する論理と、を備えたシステム。
  11. 前記複数の動きモデルを導出する論理は、さらに、前記第1及び第2の領域の共通部分であるように前記ビデオシーケンスの移動物体の境界を推定する請求項10に記載のシステム。
  12. 前記構成は、さらに、
    前記第1及び第2の参照フレームの組み合わせから予測される画素の混合領域を含んでおり、
    前記複数の動きモデルを導出する論理は、さらに、前記境界を推定するときに単一の参照フレームから予測される画素の領域内にあるように前記混合領域の画素を変更する請求項11に記載のシステム。
  13. 前記参照フレームは、前記ビデオシーケンス内の前記入力フレームに関して過去のフレーム及び未来のフレームからなるグループから選択される請求項10に記載のシステム。
  14. 前記複数の動きモデル及び前記単一の動きモデルの両方に応じてビデオシーケンスを復号化する論理をさらに備えている請求項10に記載のシステム。
JP2004551854A 2002-11-11 2003-11-06 非線形の複数の動きモデル及び移動境界を抽出する方法及び装置 Expired - Fee Related JP4651385B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/291,989 US20040091047A1 (en) 2002-11-11 2002-11-11 Method and apparatus for nonlinear multiple motion model and moving boundary extraction
PCT/US2003/035512 WO2004044842A2 (en) 2002-11-11 2003-11-06 Method and apparatus for nonlinear multiple motion model and moving boundary extraction

Publications (2)

Publication Number Publication Date
JP2006505870A JP2006505870A (ja) 2006-02-16
JP4651385B2 true JP4651385B2 (ja) 2011-03-16

Family

ID=32229341

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004551854A Expired - Fee Related JP4651385B2 (ja) 2002-11-11 2003-11-06 非線形の複数の動きモデル及び移動境界を抽出する方法及び装置

Country Status (7)

Country Link
US (2) US20040091047A1 (ja)
EP (1) EP1561347A4 (ja)
JP (1) JP4651385B2 (ja)
KR (1) KR101021409B1 (ja)
CN (2) CN1711776A (ja)
AU (1) AU2003290644A1 (ja)
WO (1) WO2004044842A2 (ja)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7095786B1 (en) 2003-01-11 2006-08-22 Neo Magic Corp. Object tracking using adaptive block-size matching along object boundary and frame-skipping when object motion is low
US7957466B2 (en) * 2005-09-16 2011-06-07 Sony Corporation Adaptive area of influence filter for moving object boundaries
US8340185B2 (en) * 2006-06-27 2012-12-25 Marvell World Trade Ltd. Systems and methods for a motion compensated picture rate converter
US7783118B2 (en) * 2006-07-13 2010-08-24 Seiko Epson Corporation Method and apparatus for determining motion in images
CN101502119B (zh) 2006-08-02 2012-05-23 汤姆逊许可公司 用于视频编码的自适应几何分割方法和设备
US8923400B1 (en) * 2007-02-16 2014-12-30 Geo Semiconductor Inc Method and/or apparatus for multiple pass digital image stabilization
US8238428B2 (en) * 2007-04-17 2012-08-07 Qualcomm Incorporated Pixel-by-pixel weighting for intra-frame coding
US20090174812A1 (en) * 2007-07-06 2009-07-09 Texas Instruments Incorporated Motion-compressed temporal interpolation
US20090052532A1 (en) * 2007-08-24 2009-02-26 Simon Robinson Automatically identifying edges of moving objects
US8861603B2 (en) * 2007-08-28 2014-10-14 Samsung Electronics Co., Ltd. System and method for motion vector collection based on K-means clustering for motion compensated interpolation of digital video
WO2009032255A2 (en) * 2007-09-04 2009-03-12 The Regents Of The University Of California Hierarchical motion vector processing method, software and devices
US8208552B2 (en) * 2008-01-25 2012-06-26 Mediatek Inc. Method, video encoder, and integrated circuit for detecting non-rigid body motion
US8059908B2 (en) * 2008-04-29 2011-11-15 Sony Corporation Adaptive area of influence filter for irregular spatial sub-sampled images
US8055087B2 (en) * 2008-04-29 2011-11-08 Sony Corporation Sample level variation for spatial sub-sampled images
US8059909B2 (en) * 2008-04-29 2011-11-15 Sony Corporation Adaptive generation of irregular spatial sub-sampling for images
KR101502362B1 (ko) 2008-10-10 2015-03-13 삼성전자주식회사 영상처리 장치 및 방법
FR2940492A1 (fr) * 2008-12-19 2010-06-25 Thomson Licensing Procede d'estimation de mouvement multi-resolutions
JP5606625B2 (ja) * 2010-07-21 2014-10-15 ドルビー ラボラトリーズ ライセンシング コーポレイション ビデオ符号化のための高度な動きモデルを使った参照処理
JP2013048717A (ja) * 2011-08-31 2013-03-14 Sony Corp 画像処理装置及び方法、記録媒体、並びにプログラム
EP2805306B1 (en) * 2012-01-19 2016-01-06 Thomson Licensing Method and device for generating a motion field for a video sequence
EP2826021A4 (en) 2012-03-15 2016-04-27 Intel Corp HIERARCHICAL MOTION ESTIMATION EMPLOYING NON-LINEAR SCALING AND AN ADAPTIVE SOURCE BLOCK SIZE
CN104253650B (zh) * 2013-06-27 2016-12-28 富士通株式会社 信道内非线性损伤的估计装置及方法
US9508026B2 (en) * 2014-07-01 2016-11-29 Irida Labs S.A. System and a method for camera motion analysis and understanding from a video sequence
US10306229B2 (en) 2015-01-26 2019-05-28 Qualcomm Incorporated Enhanced multiple transforms for prediction residual
CN104661031B (zh) 2015-02-16 2017-12-22 华为技术有限公司 用于视频图像编码和解码的方法、编码设备和解码设备
US10623774B2 (en) 2016-03-22 2020-04-14 Qualcomm Incorporated Constrained block-level optimization and signaling for video coding tools
CN106384361B (zh) * 2016-09-14 2019-06-14 西安理工大学 多视环境中基于水平集函数演化的非刚性目标场景流估计方法
US11323748B2 (en) 2018-12-19 2022-05-03 Qualcomm Incorporated Tree-based transform unit (TU) partition for video coding
CN110139100B (zh) * 2019-05-16 2021-07-06 东莞职业技术学院 多图像运动估计的扩展块匹配及运动矢量估计算法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0799603A (ja) * 1992-09-18 1995-04-11 Sony Corp ビデオ信号符号化方法及び装置、ビデオ信号復号化方法及び装置、又はビデオ信号記録メディア
JPH08223577A (ja) * 1994-12-12 1996-08-30 Sony Corp 動画像符号化方法及び装置、並びに動画像復号方法及び装置
JPH08249472A (ja) * 1995-03-15 1996-09-27 Toshiba Corp 移動物体検知装置及び移動物体検知方法
US6400831B2 (en) * 1998-04-02 2002-06-04 Microsoft Corporation Semantic video object segmentation and tracking

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0322956B1 (en) 1987-12-22 1994-08-03 Koninklijke Philips Electronics N.V. Video encoding and decoding using an adpative filter
JP3679426B2 (ja) 1993-03-15 2005-08-03 マサチューセッツ・インスティチュート・オブ・テクノロジー 画像データを符号化して夫々がコヒーレントな動きの領域を表わす複数の層とそれら層に付随する動きパラメータとにするシステム
JP3929492B2 (ja) 1995-10-25 2007-06-13 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ セグメント化画像符号化方法及びシステム並びにその復号化方法及びシステム
KR970025184A (ko) 1995-10-26 1997-05-30 김광호 예측매크로블럭 변환을 이용한 동화상 복호기
US5778097A (en) 1996-03-07 1998-07-07 Intel Corporation Table-driven bi-directional motion estimation using scratch area and offset valves
AU5501296A (en) 1996-04-19 1997-11-12 Nokia Mobile Phones Limited Video encoder and decoder using motion-based segmentation and merging
JP3876392B2 (ja) 1996-04-26 2007-01-31 富士通株式会社 動きベクトル探索方法
US5991447A (en) 1997-03-07 1999-11-23 General Instrument Corporation Prediction and coding of bi-directionally predicted video object planes for interlaced digital video
US6249548B1 (en) 1998-07-10 2001-06-19 U.S. Phillips Corporation Motion vector processing
US6658059B1 (en) * 1999-01-15 2003-12-02 Digital Video Express, L.P. Motion field modeling and estimation using motion transform
US6665423B1 (en) * 2000-01-27 2003-12-16 Eastman Kodak Company Method and system for object-oriented motion-based video description
KR100415266B1 (ko) * 2000-05-11 2004-01-16 가부시끼가이샤 도시바 물체영역정보 기술방법과 물체영역정보 생성장치 및 기록매체
US6731799B1 (en) * 2000-06-01 2004-05-04 University Of Washington Object segmentation with background extraction and moving boundary techniques
US7092550B2 (en) * 2001-12-12 2006-08-15 Sony Corporation Implementation of hough transform and its application in video motion analysis
BR0304545A (pt) 2002-01-14 2004-11-03 Nokia Corp Método de codificação das imagens em uma sequência de vìdeo digital para fornecer os dados de vìdeo codificados, codificador de vìdeo, método de decodificação dos dados indicativos de uma sequência de vìdeo digital, decodificador de vìdeo, e, sistema de decodificação de vìdeo
US6646578B1 (en) 2002-11-22 2003-11-11 Ub Video Inc. Context adaptive variable length decoding system and method

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0799603A (ja) * 1992-09-18 1995-04-11 Sony Corp ビデオ信号符号化方法及び装置、ビデオ信号復号化方法及び装置、又はビデオ信号記録メディア
JPH08223577A (ja) * 1994-12-12 1996-08-30 Sony Corp 動画像符号化方法及び装置、並びに動画像復号方法及び装置
JPH08249472A (ja) * 1995-03-15 1996-09-27 Toshiba Corp 移動物体検知装置及び移動物体検知方法
US6400831B2 (en) * 1998-04-02 2002-06-04 Microsoft Corporation Semantic video object segmentation and tracking

Also Published As

Publication number Publication date
CN101257632A (zh) 2008-09-03
WO2004044842A2 (en) 2004-05-27
CN1711776A (zh) 2005-12-21
JP2006505870A (ja) 2006-02-16
US7751479B2 (en) 2010-07-06
US20050213660A1 (en) 2005-09-29
KR20050072139A (ko) 2005-07-08
WO2004044842A3 (en) 2005-02-03
EP1561347A2 (en) 2005-08-10
AU2003290644A1 (en) 2004-06-03
KR101021409B1 (ko) 2011-03-14
EP1561347A4 (en) 2009-03-18
AU2003290644A8 (en) 2004-06-03
US20040091047A1 (en) 2004-05-13
CN101257632B (zh) 2011-12-14

Similar Documents

Publication Publication Date Title
JP4651385B2 (ja) 非線形の複数の動きモデル及び移動境界を抽出する方法及び装置
Wexler et al. Space-time completion of video
Wexler et al. Space-time video completion
US6438275B1 (en) Method for motion compensated frame rate upsampling based on piecewise affine warping
JP4740657B2 (ja) カラーセグメンテーションに基づくステレオ3次元再構成システムおよびプロセス
US8897562B2 (en) Adaptive trimap propagation for video matting
US8792718B2 (en) Temporal matte filter for video matting
US8102428B2 (en) Content-aware video stabilization
US7573478B2 (en) Multi-image-frame sprite recognition in animated sequences
JPH10285602A (ja) 映像データをエンコードするための動的なスプライト
US20130071041A1 (en) High-Quality Denoising of an Image Sequence
US20140126818A1 (en) Method of occlusion-based background motion estimation
EP1014303A1 (en) Object boundary detection using a constrained viterbi search
US9317928B2 (en) Detecting and tracking point features with primary colors
Cao et al. UniFaceGAN: a unified framework for temporally consistent facial video editing
US20060098886A1 (en) Efficient predictive image parameter estimation
Lee et al. Fast 3D video stabilization using ROI-based warping
US20070076978A1 (en) Moving image generating apparatus, moving image generating method and program therefor
CN112085842A (zh) 深度值确定方法及装置、电子设备和存储介质
CN106780365B (zh) 一种基于异构计算的图像去抖动系统
Koochari et al. Exemplar-based video inpainting with large patches
JPH09200763A (ja) 動画像符号化における動き補償方法
JP2980810B2 (ja) 動きベクトル探索方法と装置
JPH0837664A (ja) 動画像符号化/復号化装置
JP2934151B2 (ja) 動きベクトル探索方法と装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061006

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20080528

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20080528

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080618

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090803

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20091104

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20091111

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100419

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100720

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100727

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101019

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101115

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101214

R150 Certificate of patent or registration of utility model

Ref document number: 4651385

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131224

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees