JP4651385B2

JP4651385B2 - 非線形の複数の動きモデル及び移動境界を抽出する方法及び装置

Info

Publication number: JP4651385B2
Application number: JP2004551854A
Authority: JP
Inventors: パニコーニ、マルコ; ジュニアカリッグ、ジェームス、ジェー．
Original assignee: ソニーエレクトロニクスインク
Priority date: 2002-11-11
Filing date: 2003-11-06
Publication date: 2011-03-16
Anticipated expiration: 2023-11-06
Also published as: US7751479B2; CN1711776A; AU2003290644A1; US20050213660A1; US20040091047A1; CN101257632A; AU2003290644A8; CN101257632B; EP1561347A4; WO2004044842A3; KR101021409B1; WO2004044842A2; EP1561347A2; KR20050072139A; JP2006505870A

Description

本発明は、画像処理に関する。より詳細には、本発明は、画像内における物体の動きの推定に関する。

ビデオを符号化するための標準的な動きのモデル化には、パラメトリックモデル（parametric models）が必要とされ、パラメトリックモデルは、動きを推定するために、固定領域（動きブロック）に適用される。これらの手法には、パラメトリックモデルが動きブロック内で複数の（異なる）動きの存在を処理することができないという点で、限界がある。この問題について説明する。

動き推定における基本的な問題は、複数の動き及び移動物体（moving object）の境界を取り扱うモデルの能力にある。標準的な動きモデル、例えばアフィン近似射影モデル（affine model）、透視射影モデル（perspective model）等では、領域（すなわち動きブロック）を滑らかに変形することができ、その動きブロック内の全ての画素に対するコヒーレントな動き（例えば平行移動、拡大、回転等）を捕捉することができる。動きを推定する領域又はブロックとしては、あまり小さいものを選択することができない。これは、（１）符号化の観点からは、領域を大きくすると、動きのオーバヘッドが小さくなり、（２）推定の観点からは、領域を大きくすると、動きのパラメータをより良く推定することができるという理由からである。

一般的な動きモデルの標準的な限界から生じる重要な問題は、動きブロック内における複数の動きの発生である。動き領域内の移動物体の境界は、おそらく非常に異なる２つの動き（物体の動き及び例えば背景の動き）を示している。また、移動物体の境界は、幾つかの画素が過去又は未来の動き推定に関して遮蔽されて（occluded）いる（隠されて（hidden）いる）ことを意味している。この遮蔽効果により、動き推定に偏りが生じ、予測誤差が大きくなり、物体の境界を正確に抽出することが困難になる。

動きを分割する手法は、多くの場合、オプティカルフロー推定（optical flow estimate）又はパラメトリック（すなわちアフィン近似射影）動きモデルに基づいている。これらの手法は、近傍の物体との境界及び遮蔽効果の通常の問題を有する。分割フィールド内の、したがって物体の境界における滑らかさは、マップ／ベイジアン法（MAP/Bayesian method）における事前確率項（prior probability term）によって、ある程度達成することができる。これは、物体の境界及び動きフィールドを説明する何らかの明示的な結合モデルがないと、分割フィールドの連続性に対してより一層の制約となる。移動物体の境界を捕捉するために、曲率展開モデル（curvature evolution model）を使用することができる。しかし、この手法は、動き推定／フィールドを含んでおらず、物体の境界を展開するモデルの時間的な差分演算子（temporal difference operator）に依存している。

別の手法、例えばレベルセット手法の文脈では、物体の境界の輪郭及び複数のアフィン動きフィールド（affine motion field）を暗黙的にモデル化しているが、動き推定は、１つの参照フレームに関してだけである、すなわちフレームｎの動きは、フレームｎ−１から判定される。上述のように、この手法には幾つかの問題がある。物体境界の近くの幾つかの画素は遮蔽されることもある。その結果、動きフィールドが遮蔽のために境界の近くでは信頼できず、境界の推定は順次バイアスされる。

したがって、一般的な動きモデルには、幾つかの問題が存在する。

以下、本発明に係る動き推定方法及び方法ついて、図面を参照して説明する。なお。本発明は、図面に示す実施形態に限定されるものではない。同様の構成要素には、同じ指示符号を伏している。

非線形の複数の動きモデル及び移動境界を抽出する方法及び装置について説明する。

本発明は、ビデオ画像内の物体の動きを推定する新規な動きモデルに関する。本発明の一実施形態では、空間変数と時間変数との非線形結合、すなわち複数の動きを分離するための一種の領域競合（region competition）と、移動物体の境界の推定値を抽出するための境界モデル化とを含む新規なモデルが使用される。このモデルは、コンパクトであり、動きの分割及び／又はビデオ符号化の用途において使用することができる。

本発明の他の実施形態においては、背景技術で説明した問題を解決するために、動きモデル化の拡張が使用されている。このモデルの基本的特徴は、以下の通りである。

１）時間変数を導入して、過去及び未来のフレームに関する推定を組み合わせることを可能にする。

２）複数の動き（２つ以上の動き）が共存することを可能にする。

３）境界を選択するための一種の領域競合から、物体の境界抽出（境界の曲率が組み込まれた）を判定する。

４）非線形関数を用いて、物体の境界の推定値を制御／リファインする。

本発明は、複数の動き（２つ以上の動き）を取り扱うことができる。しかしながら、本発明を必要以上に分かりにくくしないために、最初は２つの動きについて説明し、後に２つ以上の動きへの拡張について説明する。

時間変数を使用することによって、２つの動きの導入が可能になり、それにもかかわらず、遮蔽効果が避けられることは、当業者にとって、明らかになる。移動物体の境界に近接する幾つかの画素が、例えば前フレーム中では隠されている場合、予測誤差を小さくするために、（それらの画素が属する）動き領域は、その動きを未来（及び過去）に関して参照する傾向がある。これは、ある意味では、一種の「領域競合（region competition）」であり、そこでは、過去のフレーム又は未来のフレームいずれかを動き推定のための参照フレームとして選択することによって、それらの予測誤差を小さくする２つの動き領域の競合として、物体の境界が得られる。したがって、本発明を適用したモデルにおける移動物体の境界は、この種類の領域競合から暗黙的に決定される。これは、輪郭モデル（すなわち積極的な輪郭モデル（active contour model））を明示的に導入するモデルとは対照的である。これらの方法では、輪郭が漸進的に変化（evolve）するときには、輪郭の打切り、及び長さ／曲率の制御に対して重大な問題が生じることがある。

本発明の一実施形態においては、動きモデルは、画像内の領域／ブロックに局所的に適用され、動き推定又は動きの分割に対して改良されたもの（stage）の一部と見ることができる。すなわち、画像の動き推定／分割アルゴリズムを、（例えば最初は標準的なアフィン近似射影動きモデルを用いて）１パス実行した後、ある領域の予測誤差がある品質の閾値を超えている場合、本発明の一実施形態では、動きモデルをそれらの領域に適用することができる。図３は、その処理を示すフローチャート３００である。

ステップ３０２において、標準的な動きモデルから、ある領域についての予測誤差が供給される。ステップ３０４において、（ステップ３０２で供給された）予測誤差が、予め設定された第１の閾値よりも大きいかの判定が行われる。（ステップ３０２からの）予測誤差が第１の閾値よりも大きくない場合、ステップ３０６において、他の処理を行うことができる。予測誤差が第１の閾値よりも大きい場合、ステップ３０８において、その領域に対して、２つ以上の動き及び関連した境界が捕捉される。次に、ステップ３１０において、（ステップ３０８からの）予測誤差が、予め設定された第２の閾値よりも大きいかを判定するために、チェックが行われる。予測誤差が第２の閾値よりも大きくない場合、ステップ３０６において、他の処理を行うことができる。予測誤差が第２の閾値よりも大きい場合、ステップ３１２において、その領域に対して、より複雑な動き及び関連した境界が捕捉される。破線のステップ３１４において、本発明の技術が実行される。

本発明の他の実施形態においては、動きモデルの拡張を、物体境界の真の軟変形（non-rigid deformation）のために使用することができる。例えば、図３のステップ３１２は、真の軟変形を取り扱うためのより複雑なモデルとすることができる。境界と境界のマッチング（boundary-to- boundary matching）のような拡張を、図３に示す処理に組み込むことができる。

ビデオ符号化の用途では、ブロックを４分木分割（quadtree segmentation）することによって、複数の（予測誤差を小さくするための）動きを捕捉する動きブロック／領域を簡単に（オーバヘッドを少なくして）分割することができ、動き推定を改善するために、大きな予測誤差を有するブロックは、サブブロックに分割される。同様に、大きな予測誤差を有するブロックは、境界／区画（boundary/partition）を直線でモデル化することによって、４分木分割することができる。本発明の一実施形態においては、この方法は、動きの分割の問題自体により協調したものであり、移動物体の境界の位置及び局所的な形状の優れた推定値を得る能力を含んでいる。

図４は、ビデオ符号化の一実施形態の処理を示すフローチャート４００である。ここでは、動きモデルを用いて、動きを推定し、時間的冗長性を取り除き、この結果、符号化しなければならない動き残差（motion residual）が少なくなる。本発明の更なる実施形態、及び符号化のためにどのように効率的かつ効果的に動きモデルを用いることができるかについては、後述する。

図４に示すステップ４０２において、入力画像が供給される。ステップ４０４において、動き推定が特定のフレームに対して実行され、本発明の複数の動き及び境界の抽出を用いて、遮蔽領域及び移動境界が識別される。ステップ４０６において、残りの動き残差が符号化される。

本発明の一実施形態においては、２つの動きを表すために、時間変数を用いる。動きモデルにおいて、例えば過去のフレームでは遮蔽されていた境界近くの画素ではなく、未来のフレームの（遮蔽されていない）画素を選択し、また、その逆も同様に選択して推定を行うように、過去及び未来に対する同時の推定を用いる（すなわち２つの参照フレームを用いる）。モデル中で利用されるのは、遮蔽のこの二元性（duality of occlusion）である。

本発明の実施形態においては、境界のインタフェース（boundary interface）を制御及びリファインするために、時間変数（及び従って境界モデル）における非線形の面（nonlinear aspect）を使用する。

本発明の実施形態においては、図３に示すように、拡張動きモデルを、局所的に、連続した反復手法の一部として使用することができる。例えば、分割処理の１回目のパスにおいて、（予測誤差が大きいために）劣っていると見なされる領域を、複数の動き及び移動境界を捕捉する拡張動きモデルによって、再び推定することができる。

上述のように、境界は、動きモデルの時間変数によって暗黙的に定義され、その関数形式により、動き領域を、滑らかに小さく維持される領域によって定義することができる。

標準的なモデルの概要
本発明の実施形態をより迅速かつ完全に理解できるようにするために、標準的な動きモデルの概要を説明する。動き推定においてよく用いられている標準的な動きモデルは、アフィン近似射影モデル（affine model）であり、以下の式で表される。

ここで、（ｘ’，ｙ’）は、参照フレーム（すなわち前フレーム）上の画素の位置である。（ａ＝ｅ，ｄ＝−ｂ）の場合、許容される動きは、平行移動、拡大及び回転だけであり、これらは、ほとんどの事例における基本モードである。非線形の透視射影モデル（Nonlinear perspective model）は、画像面への射影を取り扱う８つのパラメータのアフィン近似射影モデルの拡張である。動きモデルは、ある領域（動きブロック）に適用され、パラメータの推定は、線形最小２乗射影（linear least squared projection）、予測誤差の特設的な最小化（direct minimization of prediction error）、予測誤差の多分解能最小化（multi-resolution minimization of prediction error）等を含むことができる。

動きモデル
本発明の実施形態は、移動物体の境界の複数の動き及び推定を説明するモデルを含んでいる。過去及び未来の動き推定が使用される。これは、時間変数ｔ’（ｔ’＝−１：過去のフレームに基づく動き推定、ｔ’＝０：未来のフレームに基づく動き推定）を使用することを含んでいる。２つの動きについてのモデル（より一般的に事例については後述する）は、以下の式によって表される。

ここで、Ｂ（ｘ，ｙ）は、境界／インタフェースに関する情報を含み、ｖ_ｉ ^→＝（ｖ_ｉ ^ｘ，ｖ_ｉ ^ｙ）は、ｉ＝１，２の動きについての動きモデルのベクトルマップ（motion model vector map）である。

モデルの１つを実現するために、モデル（すなわち、以下の式によって表される画素座標の滑らかな関数）を考える。

ここで、｛ｇ，ｈ，α，β，ｉ｝は、モデルの境界曲線に対するパラメータである。

ｖ_ｉ ^→に対する標準的なアフィン近似射影動きモデルも導入すると、上記式は、下記式となる。

ここで、｛a，b，c，d，e，f，a’，b’，c’，d’，e’，f’｝は、アフィン近似射影動きモデルのパラメータである

モデルの内容は、以下の通りである。
最初に、上述した最後の２つの式を検討する。これらの式は、２つの動きをモデル化したものであり、１つは６パラメータのアフィン動き（affine motion）であり、もう１つは６パラメータのアフィン動きである。

ｔ’＝−１の画素に対する動ベクトルは、以下の式で得られる。

ｔ’＝０の画素に対する動きベクトルは、以下の式で得られる。

時間変数に結合することにより、この実施形態における２つの異なる動き（すなわち、異なる平行移動、回転及び拡大）が可能となる。動き領域の２つの動きへの分割は、その領域が動き推定のために過去のフレームを使用するか、未来のフレームを使用するかに応じて定義される。これを図５に示す。

図５において、動き推定のための領域のフレーム参照により、２つの領域への動きの分割が実現される。速度Ｖ_０で移動する物体は、この実施例では前景物体である。（過去の参照フレームと未来の参照フレームの両方について）予測誤差を最小にすることにより、モデルが決定される。予測誤差が最小になれば、その結果として、一番下の分割（５１０）になるはずであり、この一番下の分割は、あらゆる遮蔽効果を回避し、したがって、真の移動境界を見つける最高の可能性を有する。５０２は前フレーム、５０４は現フレーム、５０６は未来又は次フレームである。５０８は、現フレームを２つの動きに分割する１つの可能性を示している。５１０は、現フレームを２つの動きに分割するもう１つの分割であり、分割５０８と比較したときに、より予測誤差が小さい場合である。

式（１）における時間変数は、画素位置の滑らかな関数であり、−１〜０の範囲で変化する。操作上は、現フレーム上の動きブロック内の特定の画素位置によって、時間変数ｔ’が定義される。そして、この時間変数ｔ’は、最後の２つの式において、動ベクトルを決定するために使用される。時間ｔ’においてフレーム上に存在する画素位置に対する動ベクトルを参照することにより、予測が形成される。ｔ’＝０の場合は、未来のフレームが予測において使用される。ｔ’＝−１の場合は、過去のフレームが使用される。ｔ’∈（−１，０）の場合は、過去のフレームと未来のフレームとの線形組合せが使用される。

時間変数は、物体の境界の動きを制御する。境界はｓ＝−０．５である場所に存在するとして定義され、一般的には、この場所は、多項式ｇｘ＋ｈｙ＋αｘ^２＋βｙ^２＋ｉ＝−０．５によって描かれる曲線である。インタフェースモデルの滑らかさにより、各動き領域を平滑な、小さいサポートによって定義することができる。非線形関数Ｆは、境界を定義する条件ｔ’＝Ｆ（−０．５）＝−０．５とともに、インタフェースを離れて、０又は−１に飽和するという意味において、境界を代表するように選ばれる。非線形関数Ｆ（ｓ）＝（tanh（（ｓ＋０．５）／ω）−１）／２は、この特徴を実現し、ここで、ｗは境界における傾きを制御する。境界又はインタフェースの「幅」としてのパラメータｗが参照される。異なる境界幅の関数Ｆをプロットしたものを図６に示す。

図６に示すように、関数ｔ’＝Ｆ（ｓ）の振る舞い６００が、動きモデルの一実施形態において使用される。この関数は、ｓ＝−０．５で定義される物体の境界により、動き推定のための過去（ｔ’＝−１）又は未来（ｔ’＝０）の参照フレームに対する画素の割当てを制御する。この関数は、幅パラメータ（ｗ）に特徴があり、−１及び０において適切に飽和する。

モデルの重要な特徴は、−１（過去のフレーム）から０（未来のフレーム）への時間変数の広がりを制御する「境界幅」（ｗ）である。（幅ｗにより定義される）境界の近くの画素は、一種の混合物相、すなわち２つの領域の線形組合せである。すなわち、境界領域内の画素に対する予測は、下記式で表される。

混合状態：
混合状態は、領域１の重さ（１＋ｔ’）及び領域２の重さ−ｔ’として定義することができ、ここで、ｔ’∈（−１，０）である（時間が動き領域／領域を参照する）。本発明の一実施形態においては、ｗ自体は、モデル中で動的に変化することができる。そして、システムは、境界の幅／粗さを特徴付ける値ｗを当然のことながら選択し、境界レイヤ内のどの画素が２つの領域の混合であるのかを判定する。

純粋状態：
細い境界を有する２つの（純）領域を手際よく抽出するための本発明の一実施形態においては、動きパラメータの推定段階中は、ｗは固定されており、小さい。例えば、幅パラメータはｗ＝１／３に固定されており、（図５に示すような）連続的に細くなるインタフェース幅を使用して、再推定が行われる。境界の推定値を制御及びリファインするために、モデルの非線形関数Ｆ（ｓ）及びｗの縮小が使用される。インタフェース幅が縮小するにつれて、境界から離れた画素がその参照フレームに関して「凍結状態」になる。（ｓ＝−０．５により決定される）境界の近傍の画素だけが、その時間変数を変化させ（すなわち、他方の参照フレームに移動し）、したがって、境界を修正することを許容される。

モデルパラメータの推定：
本発明の一実施形態においては、動きモデルパラメータの推定は予測誤差の最小化から得られる。

ここで、（ｘ’，ｙ’，ｔ’）はモデルパラメータの関数である（式（１）を参照）。
各画素について、予測が過去のフレームと未来のフレームとの線形組合せであることに注意されたい。簡単な双一次時間補間を使用することができる。モデルパラメータの推定は、多分解能レイヤ（multiple resolution layers）を使用する最急降下アルゴリズムから得ることができる（後述する）。

動きモデルのための推定アルゴリズムの詳細な手順は下記のように進行する。使用できる初期条件には、下記の３つのセットがある。

（１）前フレームに関して初期化された動きパラメータ
（２）未来のフレームに関して初期化された動きパラメータ
（３）セット（１）及び（２）からのパラメータの平均
一実施形態においては、各セットについて、インタフェースパラメータは
ｇ＝ｈ＝α＝β＝０；
ｉ＝−０．０７５、−０．５、−０．２５
となるように選ばれる。したがって、ほとんどの場合はｉ＝−０．５のセット１又は２で十分であるかもしれないのであるが、合計で９つの初期条件が使用される。下記のシーケンス１〜７については、幅パラメータはｗ＝１／３に固定されたままである。

１．パラメータの初期化：
（オリジナル画像の大幅な縮小から得られた）１／１６サイズ画像について、ブロックマッチング（ＢＭ）が対応動きブロック内の小さなブロックに対して行われる。初期条件セット１については、ＢＭが過去に関して、セット２については、ＢＭが未来に関して行われる。次に、最小２乗法（ＬＳ）を使用して、動ベクトルのセットがモデルパラメータにマッピングされる。これにより、初期条件セット１及び２についてのパラメータの初期セット（ａ，b，ｃ，ｄ，ｅ，ｆ）が得られる。パラメータ（ａ’，b’，ｃ’，ｄ’，ｅ’，ｆ’）は０に初期化される。第３初期条件セットについては、セット１及び２からのパラメータの平均が使用される。

２．モデルパラメータ（Ｖ^→）^２（（Ｖ^→）^２はレイヤ２（１／１６サイズ画像）についてのモデルの全てのパラメータの成分を表す）の推定値を得るために、最急降下法が１／１６サイズ画像に対して使用される。

３．１／４サイズ画像に関する推定を開始するための１／１６サイズ画像から１／４サイズ画像への射影。この射影は、空間スケーリングを受けるモデルの関数形式を維持するように決定される。レイヤ２からレイヤ１への動きパラメータの射影については、レイヤ射影は下記のようになる。
レイヤ射影：

４．レベル１についての初期条件として上部レイヤからの射影推定値を使用する。１／４サイズ画像について、反復／最急降下法を繰り返す。これにより、推定値（Ｖ^→）^１が得られる。

５．１／４サイズ画像からオリジナルサイズ画像への射影。３の場合と同様。

６．フルサイズ画像について、反復／最急降下推定を繰り返す。最終解は（Ｖ^→）^０である。

７．上述の初期条件のセットについて、１〜６を繰り返す。

８．予測誤差が最小である初期条件のセットからのパラメータの推定値を選択する。最善の（Ｖ^→）^０を初期条件として使用するとともに、連続的に先鋭化していく幅パラメータｗ（１／４、１／８、１／１６）も使用して、動きパラメータを再推定する。これにより、移動物体の位置及び曲率の推定値が改善される。

実施例
動きモデルの幾つかの実施例がここに示してある。第１のセットの実施例においては、動きモデルは、２つの動きを含む領域（８０×８０ブロック）に適用された。実施例については、オリジナル画像は左側に示され、右側の画像は、２つの領域への複数の動き領域の分割を示している。暗い領域は過去のフレームを参照しており、白い領域は未来のフレームを参照している。図５で検討し、示したように、各実施例において、過去／未来領域への分割が遮蔽効果の最小化と相反しないことに注意されたい。

実施例１が図７に示してある。扇形は右に移動する。扇形物体の曲率が取り込まれ、図５で検討し、示したように、動きモデルは過去動き参照と未来動き参照への分離を実現する。７０２はオリジナル画像であり、７０４は、２つの領域への複数の動き領域の分割を示している。暗い領域は過去のフレームを参照しており、白い領域は未来のフレームを参照している。

実施例２が図８に示してある。ここでは、男は下向きに移動する。これは前の実施例の場合と同じ効果である。８０２はオリジナル画像であり、８０４は、２つの領域への複数の動き領域の分割を示している。暗い領域は過去のフレームを参照しており、白い領域は未来のフレームを参照している。図５で検討したように、フレーム参照割当ては、遮蔽効果が最小になるように行われる。

実施例３が図９に示してある。前景の少女は左に移動する。少女が左に移動するので、少女の前の静止領域は、遮蔽が起こらない過去に関する動き推定の方を選択する。９０２はオリジナル画像であり、９０４は、２つの領域への複数の動き領域の分割を示している。暗い領域は過去のフレームを参照しており、白い領域は未来のフレームを参照している。

上述の実施例について、予測誤差データは、動き予測領域／ブロックとオリジナルブロックとの間の平均２乗誤差として計算された。標準的な動きモデルは、動き推定においてよく使用される単一動きアフィン近似射影モデルを指している。新規な動きモデルは本発明の実施形態を指している。下記のように、新規な動きモデルを使用することにより、予測誤差に改善が見られる。

大きな領域に適用される動きモデル
下記の実施例においては、物体の周囲の大きな領域が８０×８０ブロックに分割された。この領域は、標準的な種類の動きの分割（アフィン近似射影動きモデル及びｋ平均クラスタリング）から得られたものであるが、移動物体の領域を識別するラベルと十分に付けられないブロック（大きな予測誤差及び／又は高いひずみ分類を有するブロック）を伴っている。次に、本発明の実施形態の新規な動きモデルが、移動物体の周囲の大きな領域を含む８０×８０ブロックのセットに適用された。実施例４が図１０に示してあり、ここでは、細い黒い線１００２は、新規な動きモデルを使用した境界の位置の推定である。

図１０に示すような実施例４においては、少女は右に歩き、背景は左に「移動する」。動きモデルは、少女の周囲の大きな領域に適用される。少女の周囲の黒い線（１００２）は移動物体の抽出位置である。少女の鼻／顔に沿った輪郭落ちは、８０×８０ブロックの１つのブロックの境界とぴったりと一致している。したがって、そのブロック内の画素の大部分は１つの動き（顔の動き）に属するものであり、そこで、システムは境界のない１つの領域／状態を選択したのである。

図１１に示すのは、アフィン近似射影動きモデル（標準的な動きモデル）１１０４と、本発明の一実施形態に開示されたような新規な動きモデル１１０６の使用による改善との比較である。小さな絵１１０２がオリジナル画像である。画像１１０４は、アフィン近似射影動きモデルを使用する標準方法から導出された分割マップである。影の違いは動きのクラスの違いを指している。画像１１０６は、新規な動きモデルによる動きの再推定により得られた新しい分割マップである。画像１１０６は、画像１１０４の場合よりも画像内の少女の輪郭が明瞭になり、分割分割フィールドが平滑化したことを示している。

ビデオ符号化
本発明の別の実施形態においては、ビデオ符号化が新規な動きモデルを使用することができる。上述のモデルは、２つの動きを説明する能力を有することから、大きな領域に適用することができる。前に検討した実施例においては、８０×８０ブロックが使用された。新規な動きモデルは、異なる動き及び境界情報を「コンパクトに」表示するものと見なすことができる。例えば、本発明の一実施形態においては、このモデルは１７のパラメータを有し、例えば８０×８０ブロックにおいて（７０４×４８４画像において）使用された場合は、約９００の動きパラメータが存在する。これは、動きフィールド及び幾つかの移動境界の位置を抽出するためにデコーダが必要とする全ての情報を含んでいる。これを、非常に簡単な標準１６×１６ブロックマッチングアルゴリズム（明示的移動境界情報を含まない２つの平行移動パラメータ）が必要とする約２６６２のパラメータと比較されたい。

動きの数がＭの場合のモデル
上述のように、これまでの検討は、本発明の実施形態を分かりにくくしないように、主として２つの動きを中心としたものであった。本発明の他の実施形態は任意の数の動き（Ｍ）を説明することができ、上述の実施例及び実施形態を拡張するために適用することができる。

非交差境界によりＭの動きを説明するための２つの動きモデルの拡張は以下の形式で書くことができ（これは式（１）の拡張である）、

ここで、上記式（１）と同様に、モデル式を以下のように、

及び

として使用することができる。

上述のモデルにおいては、ｘ^→は現フレーム（その動きが現在推定中であるフレーム）上の画素位置を指し、ｘ^→は参照フレーム上の位置を指し、｛ｔ_ｉ ^ｒｅｆ｝は、Ｍの動きの抽出のために使用されるＭの参照フレームである。動きベクトル｛ｖ_ｉ ^→｝はアフィン近似射影モデルのフィールドであり、ｔ’は連続時間変数であり、Ｆ（｛ｓ_ｊ｝，｛ｗ_ｊ｝，｛ｔ_ｉ ^ｒｅｆ｝）は、境界を表す非線形関数である（１つのインタフェースについての実施例が図１３に示してある）。この関数は、Ｍ−１の境界についてのインタフェース式｛ｓ_ｊ，ｊ＝１，・・・，Ｍ−１｝、Ｍ−１の幅パラメータ｛ｗ_ｊ，ｊ＝１，・・・，Ｍ−１｝、及びＭの動きについての参照時間｛ｔ_ｉ ^ｒｅｆ，ｉ＝１，・・・，Ｍ｝（各境界の中心、Ｆの中点、２つの動きの事例については、図６を参照）を含む。インタフェース式｛ｓ_ｊ｝は、境界の位置及び形状をモデル化する多項式である。式１の２つの動きの
事例と対応させるために、重み付け関数の正規化、

は、ｉ＝１において（すなわち、ｔ_１ ^ｒｅｆ＝−１について）１になるように選ばれる。

２つの動きの事例
上述のモデルは前に実現された事例に還元される（式（１）を参照）。２つの参照フレームは、｛ｔ_１ ^ｒｅｆ｝＝−１（過去）及び｛ｔ_２ ^ｒｅｆ｝＝０（未来）である。アフィン動きベクトルの前方の因子は

である。インタフェース変数ｓ
は１つだけであり、幅変数ｗも１つである。非線形時間式は

となり、ここで、例えば、２つの動きについて使用されるモデルは

である。

３つの動き
３つの動きについての実施例が図１２に示してある。ここでは、画像領域１３００内の３つの「動き」は、静止前景である中間領域、及び矢印のように移動する他の２つの領域である。２つの非交差境界は直線で示されている。

遮蔽／覆われていない領域効果を最小にするために、最適状態（予測誤差の縮小）は、図１２に示す領域フレーム参照（Frame ref：）となる。この実施例においては、過去（−１）、未来（０）、及び２フレームの過去（−２）に関する予測が考慮された。この実施例において使用されたインタフェース関数１３００の例が図１３に示してある。

３つの動き（２つの非交差境界）についてのインタフェース関数の例が図１３に示してある。関数は

のように書くことができ、ここで、ｔ_１ ^ｒｅｆ＝−１（過去）及びｔ_２ ^ｒｅｆ＝−２、ｔ_３ ^ｒｅｆ＝０であり、ｗ_１、ｗ_２は、境界の平滑さ／粗さを特徴付ける幅パラメータである（上述の実施例においては、ｗ_１＝０．２５、ｗ_２＝０．２５）。２つの動きの事例について検討したように、幅パラメータ｛ｗ_ｊ｝は固定外部パラメータとすることができるが、しかしながら、一般的には、動的に決定することができる（これにより、システムが境界の幅／粗さを調節又は選択することができる）。上述の「ビデオ符号化」において検討したように、本発明は、複数の動き及び境界情報をコンパクトに表示するものと見なすことができる。３つの動きの例については、約３０のパラメータ（６パラメータのアフィン近似射影モデルによりモデル化された３つの動きについての６×３、二次多項式によりモデル化された２つの境界についての５×２、及び、例えば、２つの幅パラメータ）。この結果として、１６×１６ブロックについての２つのパラメータの使用という従来方式に比べて符号化利得が得られる。

したがって、開示されているのは、非線形の複数の動きモデル及び移動境界抽出のための方法及び装置である。

図１は、説明してきた技術を適用することができるネットワーク環境１００を示したものである。図示するように、Ｓサーバ１０４−１〜１０４−Ｓ及びＣクライアント１０８−１〜１０８−Ｃの形態の幾つかのコンピュータシステムがネットワーク１０２を通じて相互に接続されており、このネットワーク１０２は、例えば、ホームベースのネットワークとすることができる。あるいは、ネットワーク１０２は、インターネット、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、衛星リンク、光ファイバネットワーク、ケーブルネットワーク、又はこれら及び／又はその他の組合せの１つ以上とすることも、１つ以上を含むことができる。サーバは、例えば、ディスク記憶システムだけの役割を果たすことができ、記憶及び演算リソースの役割を果たすことができる。同様に、クライアントが演算、記憶及び表示能力を有することができる。ここに説明した方法は、基本的には、ＬＡＮ、ＷＡＮ、システムバス等のような、構内であろうと、遠隔であろうと、あらゆる種類の通信手段又は装置に適用することができる。

図２は、コンピュータシステム２００をブロック図の形で示したものであり、コンピュータシステム２００は、図１に示すクライアント及びサーバのいずれかを代表することができ、本発明の実施例を代表することができる。ブロック図は高レベル概念表示であり、様々な方法で、様々なアーキテクチャにより実装することができる。バスシステム２０２は、中央処理装置（ＣＰＵ）２０４、読出専用メモリ（ＲＯＭ）２０６、ランダムアクセスメモリ（ＲＡＭ）２０８、ストレージ２１０、ディスプレイ２２０、オーディオ２２２、キーボード２２４、ポインタ２２６、その他の入出力（Ｉ／Ｏ）装置、及び通信装置２３０を相互に接続する。バスシステム２０２は、例えば、システムバスとしてのバス、周辺装置相互接続（Peripheral Component Interconnect：ＰＣＩ）、高度なグラフィックポート（Advanced Graphics Port：ＡＧＰ）、小形計算機システムインタフェース（Small Computer System Interface：ＳＣＳＩ）、米国電気電子学会（Institute of Electrical and Electronics Engineers：ＩＥＥＥ）規格番号１３９４（ファイヤワイヤ（FireWire））、ユニバーサルシリアルバス（Universal Serial Bus：ＵＳＢ）等の１つ以上とすることができる。ＣＰＵ２０４は、シングル、マルチ又は分散コンピュータリソースとすることができる。ストレージ２１０は、コンパクトディスク（ＣＤ）、デジタル多用途ディスク（ＤＶＤ）、ハードディスク（ＨＤ）、光ディスク、テープ、フラッシュ、メモリスティック、ビデオレコーダ等とすることができる。ディスプレイ２２０は、例えば、ブラウン管（ＣＲＴ）、液晶ディスプレイ（ＬＣＤ）、プロジェクションシステム、テレビジョン（ＴＶ）等とすることができる。コンピュータシステムの実装に応じて、コンピュータシステムは、ブロック図の中のコンポーネントの幾つ、全て、それ以上、又は再配置を含むことができることに注意されたい。例えば、薄いクライアントは、例えば、伝統的なキーボードのない無線携帯装置とすることができる。したがって、図２のシステムについては、多くの変異形が可能である。

本発明を検討し、理解する目的で、技術及び手法を説明するために、様々な用語が当業者によって使用されていることは、明らかである。さらに、明細書においては、説明の目的で、本発明を十分に理解させるための数多くの特別な詳細が示されている。しかしながら、当業者にとっては、これらの特別な詳細なしでも、本発明を実施できることは、明らかである。幾つかの具体例においては、本発明を分かりにくくするのを避けるために、詳細ではなく、ブロック図の形で、公知の構造及び装置が示されている。これらの実施形態については詳細に説明されており、当業者が本発明を十分に実施することができ、他の実施形態を利用することができ、本発明の範囲を逸脱することなく、論理的、機械的、電気的、及びその他の変更を行うことができる。

記述の幾つかの部分は、例えば、コンピュータメモリ内のデータビットに関する演算のアルゴリズム及び記号表示により提示することができる。これらのアルゴリズム記述及び表示は、データ処理の当業者が自らの仕事の内容をその他の当業者に伝達するための手段である。アルゴリズムは、ここでは、また一般的にも、所望の結果をもたらす一貫性のある一連のアクトであると考えられている。これらのアクトは、物理的数量の物理的操作を求めるアクトである。そうであるとは限らないにしても、通常は、これらの数量は、記憶、転送、結合、比較、及びその他の操作が可能な電気又は磁気信号の形をとる。主として共用という理由から、これらの信号をビット、値、エレメント、記号、文字、用語、数字等と呼ぶのが時には便利であることが明らかである。

しかしながら、これらの用語及び類似の用語の全てが適切な物理的数量と関連付けられていなければならず、しかもそれらの数量に適用される単なる便利なラベルにすぎないことに留意されたい。検討から明らかなような特段の指摘がない限りは、記述全体を通じて、「処理」又は「演算」又は「計算」又は「決定」又は「表示」等のような用語を利用する検討が、コンピュータシステムのレジスタ又はメモリ内に物理的（電子的）数量として表示されたデータを操作し、コンピュータシステムのレジスタ又はメモリ、又はその他の情報ストレージ、伝送又はディスプレイ装置内に物理的数量として同様に表示されるその他のデータに変換するコンピュータシステム又は類似の電子演算装置のアクション及び処理に言及できることが高く評価される。

本発明は、この点で演算を行うための装置により実施することができる。この装置は、所要の目的のために特別に構成することができ、コンピュータ内に記憶されたコンピュータプログラムにより選択的に起動又は設定される汎用コンピュータとすることができる。このコンピュータプログラムは、フロッピー（登録商標）ディスク、ハードディスク、光ディスク、コンパクトディスク読出専用メモリ（ＣＤ−ＲＯＭ）及び磁気光ディスクを含むあらゆる種類のディスク、読出専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、電気的プログラマブル読出専用メモリ（ＥＰＲＯＭ）、電気的消去可能プログラマブル読出専用メモリ（ＥＥＰＲＯＭ）、フラッシュメモリ、磁気又は光カード等、又はコンピュータに対して局所的又はコンピュータに対して遠隔的に電子的命令を記憶するのに適したあらゆる種類のメディアのようなコンピュータで読取り可能な媒体に記憶することができるが、媒体はこれらの限定されるものではない。

ここに提示したアルゴリズム及びディスプレイはいずれかの特定のコンピュータ又はその他の装置と本質的に関連性を有するわけではない。様々な汎用システムをここにおける教示に従ってプログラムとともに使用することができ、所要の方法を実施するために専用の装置を構成するのが便利であることが明らかになることもある。例えば、汎用プロセッサのプログラミングにより、又はハードウェアとソフトウェアの任意の組合せにより、本発明による方法のいずれも固定配線回路内で実施することができる。本発明は、携帯装置、マルチプロセッサシステム、マイクロプロセッサベース又はプログラマブル家電製品、デジタルシグナルプロセッサ（ＤＳＰ）、セットトップボックス、ネットワークＰＣ、ミニコンピュータ、メインフレームコンピュータ等を含めた、ここに記述した以外のコンピュータシステム構成により実施可能であることが、当業者には直ちに高く評価されよう。通信ネットワークを通じてリンクされている遠隔処理装置によりタスクが実行される分散コンピュータ環境においても、本発明は実施可能である。

本発明の方法は、コンピュータソフトウェアを使用して実施することができる。承認された規格に適合するプログラミング言語により書かれている場合は、多種多様なハードウェアプラットホーム上での実行のため、及び多種多様なオペレーティングシステムとのインタフェースのために、方法を実施するように設計された命令のシーケンスをコンパイルすることができる。それに加えて、本発明はいずれかの特定のプログラミング言語との関連で記述されているわけではない。ここに記述したような本発明の教示を実施するために、多種多様なプログラミング言語を使用することができることが高く評価されよう。さらに、ソフトウェアは様々な形態（例えば、プログラム、プロシージャ、アプリケーション、ドライバ、・・・）でアクションを起こしたり、結果をもたらしたりするものであると言われるのが技術的には普通である。この表現は、コンピュータによりソフトウェアの実行により、コンピュータのプロセッサがアクションを行ったり、結果を作り出したりするということの省略表現であるにすぎない。

通信、プロトコル、アプリケーション、実装、メカニズム等を記述するために、様々な用語及び技術が当業者により使用されていることを理解されたい。この技術の１つは、アルゴリズム又は数式による技術の実装の記述である。すなわち、技術は、例えば、コンピュータによるコードの実行として実装することができるが、一方、その技術の表現は、公式、アルゴリズム又は数式として、より適切かつ簡潔に伝達及び通信することができる。したがって、当業者は、Ａ＋Ｂ＝Ｃを表示するブロックを、ハードウェア及び／又はソフトウェアにおけるその実装が２つの入力（Ａ及びＢ）を取り、加算出力（Ｃ）を生成する加法関数をして認識する。したがって、記述としての公式、アルゴリズム又は数式の使用は、少なくとも（本発明の技術を実施することができるとともに、実施形態として実装することができるコンピュータシステムのような）ハードウェア及び／又はソフトウェアの中に物理的実施形態を有するものとして理解するものとする。

機械で読取り可能な媒体は、機械（例えば、コンピュータ）で読取り可能な形式で情報を記憶又は伝送するあらゆるメカニズムを含むと理解される。例えば、機械で読取り可能な媒体としては、読出専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、磁気ディスク記録媒体、光記録媒体、フラッシュメモリ装置、電気、光、音響又はその他の形式の伝搬信号（例えば、搬送波、赤外線信号、デジタル信号等）等がある。

用語「一実施形態」又は「実施形態」又は類似の表現は、本発明の実施形態がたった１つだけしか存在しないことを意味するものではなく、むしろ検討中の特定の実施形態が幾つかの可能な実施形態の１つであることを示している。

したがって、非線形の複数の動きモデル及び移動境界抽出のための１つの方法及び装置について記述してきたのである。

本発明の技術を使用することができるネットワーク環境を示す図である。本発明の実施形態を実施することができるコンピュータシステムの構成を示すブロック図である。本発明の一実施形態のフローチャートである。ビデオ符号化の一実施形態のフローチャートである。２つの領域への動きの分割の一実施形態を示す図である。画素の時間参照割当てを制御する関数の一実施形態の振る舞いを示す図である。局所ブロック領域に適用された本発明の動きモデルが過去の動き参照と未来の動き参照への分離をどのようにして実現するのかを、すなわち移動境界の抽出をどのようにして取り込むのかを示す図である。局所ブロック領域に適用された本発明の動きモデルが過去の動き参照と未来の動き参照への分離をどのようにして実現するのかを、すなわち移動境界の抽出をどのようにして取り込むのかを示す図である。局所ブロック領域に適用された本発明の動きモデルが過去の動き参照と未来の動き参照への分離をどのようにして実現するのかを、すなわち移動境界の抽出をどのようにして取り込むのかを示す図である。本発明の動きモデルの実施形態がどのようにして移動境界の位置を推定したのかを示す図である。標準的な動きモデルと本発明の動きモデルの実施形態との比較を示す図である。３つの動き、その移動、及び最低予測誤差参照フレームを示す図である。３つの動きへの時間参照割当てを制御するインタフェース関数の一実施形態の挙動を示す図である。

Claims

フレームのビデオシーケンス内で生じる入力フレームの動きブロックに対応する動き予測エラーを受信するステップであって、受信される動き予測エラーが単一の動きモデルに関連している、前記動き予測エラーを受信するステップと、
対応する受信された動き予測エラーが所定の基準を満足する場合に、動きブロックを選択するステップと、
第１の参照フレーム及び第２の参照フレームに関連する前記選択された動きブロックの画素に対して複数の動き予測エラーを算出するステップであって、前記入力フレーム、前記第１の参照フレーム及び前記第２の参照フレームは前記ビデオシーケンスの異なるフレームである、前記複数の動き予測エラーを算出するステップと、
前記選択された動きブロックに対する前記複数の動き予測エラーの各々の値を最小化する画素領域の構成を決定するステップであって、前記構成が同様の第１の動きを有し前記第１の参照フレームに関して予測される第１の領域の画素及び同様の第２の動きを有し前記第２の参照フレームに関して予測される第２の領域の画素を備え、前記第１の参照フレームが過去フレームであり、前記第２の参照フレームが未来フレームである、前記決定するステップと、
前記構成から前記選択された動きブロックに対する複数の動きモデルを導出するステップと、
前記選択された動きブロックに対して前記複数の動きモデルを用いると共に前記入力フレームのその他の動きブロックに対して前記単一の動きモデルを用いて前記入力フレームを符号化するステップと、を備えたコンピュータ処理方法。
前記複数の動きモデルを導出するステップは、前記第１及び第２の領域の共通部分であるように前記ビデオシーケンスの移動物体の境界を推定するステップを備えた請求項１に記載のコンピュータ処理方法。
前記構成は、さらに、前記第１及び第２の参照フレームの組み合わせから予測される画素の混合領域を含んでおり、
前記境界を推定するステップは、単一の参照フレームから予測される画素の領域内にあるように前記混合領域の画素を変更することを備えた請求項２に記載のコンピュータ処理方法。
前記境界を推定するステップは、さらに、
時間変数ｔ’＝Ｆ（ｓ）＝−０．５であり、Ｆ（ｓ）が非線形関数であり、ｓが境界モデルＢ（ｘ、ｙ）であり、ｘ及びｙが画素座標であり、ｔ’＝−１が過去のフレームに関して予測される画素に対するものであり、ｔ’＝０が未来のフレームに関して予測される画素に対するものであり、ｔ’∈（−１、０）が混合領域における画素に対するものである場合に、混合領域における画素を識別することを備えている請求項３に記載のコンピュータ処理方法。
前記非線形関数は、

によって与えられ、ここで、ｗは、前記境界の幅であり、幾つの画素が前記混合領域にあるかを制御する請求項４に記載のコンピュータ処理方法。
前記境界モデルは、

によって与えられ、ｇ、ｈ、α、β及びｉは、所定のパラメータである請求項４に記載のコンピュータ処理方法。
前記複数の動き予測エラーを算出するステップは、

によって与えられる時間変数ｔ’を含む６パラメータ（ａ，ｂ，ｃ，ｄ，ｅ，ｆ）アフィン（affine）モーション式を用いて動きベクトル（ｖ_x、ｖ_y）を算出することを備え、
ここで、ｘ及びｙは、前記入力フレームの画素の位置を示し、ｘ’及びｙ’は、参照フレームの対応する画素の位置を示し、ｔ’＝−１は過去のフレームに関して予測される画素に対するものであり、ｔ’＝０は未来のフレームに関して予測される画素に対するものであり、
過去のフレームに関して予測される画素に対する動きベクトルは、

であり、
未来のフレームに関して予測される画素に対する動きベクトルは、

である請求項１に記載のコンピュータ処理方法。
前記フレームの画素は、前記過去及び未来のフレームの両方に対して前記動きベクトルを与えることによって予測される請求項７に記載のコンピュータ処理方法。
前記参照フレームは、前記ビデオシーケンス内の前記入力フレームに関して過去のフレーム及び未来のフレームからなるグループから選択される請求項１に記載のコンピュータ処理方法。
フレームのビデオシーケンス内で生じる入力フレームの動きブロックに対応する動き予測エラーを受信する論理であって、受信される動き予測エラーが単一の動きモデルに関連している、前記動き予測エラーを受信する論理と、
対応する受信された動き予測エラーが所定の基準を満足する場合に、動きブロックを選択するための論理と、
第１の参照フレーム及び第２の参照フレームに関連する前記選択された動きブロックの画素に対して複数の動き予測エラーを算出する論理であって、前記入力フレーム、前記第１の参照フレーム及び前記第２の参照フレームは前記ビデオシーケンスの異なるフレームである、前記複数の動き予測エラーを算出する論理と、
前記選択された動きブロックに対する前記複数の動き予測エラーの各々の値を最小化する構成を決定する論理であって、前記構成が同様の第１の動きを有し前記第１の参照フレームに関して予測される第１の領域の画素及び同様の第１の動きを有し前記第２の参照フレームに関して予測される第２の領域の画素を備え、前記第１の参照フレームが過去フレームであり、前記第２の参照フレームが未来フレームである、前記決定する論理と、
前記構成から前記選択された動きブロックに対する複数の動きモデルを導出する論理と、
前記選択された動きブロックに対して前記複数の動きモデルを用いると共に前記入力フレームのその他の動きブロックに対して前記単一の動きモデルを用いて前記入力フレームを符号化する論理と、を備えたシステム。
前記複数の動きモデルを導出する論理は、さらに、前記第１及び第２の領域の共通部分であるように前記ビデオシーケンスの移動物体の境界を推定する請求項１０に記載のシステム。
前記構成は、さらに、
前記第１及び第２の参照フレームの組み合わせから予測される画素の混合領域を含んでおり、
前記複数の動きモデルを導出する論理は、さらに、前記境界を推定するときに単一の参照フレームから予測される画素の領域内にあるように前記混合領域の画素を変更する請求項１１に記載のシステム。
前記参照フレームは、前記ビデオシーケンス内の前記入力フレームに関して過去のフレーム及び未来のフレームからなるグループから選択される請求項１０に記載のシステム。
前記複数の動きモデル及び前記単一の動きモデルの両方に応じてビデオシーケンスを復号化する論理をさらに備えている請求項１０に記載のシステム。