JP3557982B2 - オプティカルフロー推定方法 - Google Patents
オプティカルフロー推定方法 Download PDFInfo
- Publication number
- JP3557982B2 JP3557982B2 JP2000022967A JP2000022967A JP3557982B2 JP 3557982 B2 JP3557982 B2 JP 3557982B2 JP 2000022967 A JP2000022967 A JP 2000022967A JP 2000022967 A JP2000022967 A JP 2000022967A JP 3557982 B2 JP3557982 B2 JP 3557982B2
- Authority
- JP
- Japan
- Prior art keywords
- flow
- optical flow
- image
- motion
- images
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/269—Analysis of motion using gradient-based methods
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Description
【発明の属する技術分野】
本発明は、機械に人間の視覚系を持たせることを目的とするマシンビジョン(機械視覚)の分野に関するものであり、特に複数の画像間でのオプティカルフローを有効に推定する方法に関する。
【0002】
【従来の技術】
運動推定は、ロボット工学(ナビゲーションおよび障害物回避を含む)、自律走行自動車、医学画像解析(血管造影等の非剛直運動を含む)等の多くの種類のマシンビジョン処理の際に生じる重要な問題である。2個以上の時系列連続画像間の動きが小さい場合、2個の異なる像間の2次元の動きベクトル場として定義されるオプティカルフローによって説明される。オプティカルフローは、画像中の対象物が、どのように運動し、どこに向かって運動し、どの程度の速さであるかを示すものである。
【0003】
輝度一定の仮定(Constant Brightness Assumption:以下CBAと称する)下では、画素の動きは1次元方向に制限することができる。しかしながら、1個の画素におけるフローには2成分(すなわち、方向(向きおよび角度)と絶対値(すなわち速度))が存在するため、オプティカルフロー推定は固有の困難さを有する問題である。従って、その問題に対処すべく、いくつかの試みが行われてきた。
【0004】
ほとんどの先行技術が、フロー場を「規則化」することで、すなわちフロー場に対して何らかの形の平滑化を行うことで、その問題を克服するものである(Horn et al., ”Determining Optical Flow, ”Artificial Intelligence, Vol.17, pp.185−203 (1981); H.Nagel et al., ”On The Estimation Of Optical Flow: Relations Between Different Approaches And Some New Results,” Artificial Intelligence, Vol.33, pp.299−324 (1987)参照)。CBAはまた、2個の画像間の最小二乗差を最小化することでフロー場を推定するエネルギー最小化とすることもできる(P.Anandan, ”A Computational Framework And An Algorithm ForThe Measurement Of Structure From Motion, ”Int’l Journal of Computer Vision, Vol.2, pp.283−310 (1989); A.Singh, Optic Flow Computation: A Unified Perspective, IEEE Computer Society Press (1992)参照)。オプティカルフローはまた、小さい画像区画全体にわたって局所輝度を分割することで計算することもできる(B.Lucas et al., ”An Iterative Image Registration TechniqueWith An Application To Stereo Vision, ”DARPA IU Workshop, pp.121−130 (1981)参照)。平滑化の問題には、パラメータ化された画像全体の運動モデルを適合化することで対処することもできる(S.Srinivasan et al., ”Optical Flow Using Overlapped Basis Functions For Solving Global Motion Problems,” Proceedings of European Conference on Computer Vision, Freburg, Germany, pp.288−304 (1988)参照)。
【0005】
多くの先行技術による推定方法によれば、コスト関数を最小化することで、輝度の制約と平滑化との間の均衡が得られる。それらの方法は、反復非線形法に基づくものであるため、広域最小値に収束するとは限らず、従って、局所最小値に収束する際に満足できる結果を与えない。
【0006】
【発明が解決しようとする課題】
本発明の方法は、フロー推定の問題を、マルコフランダム場(Markov Random Field:MRF」)の枠組みでのラベリング問題として公式化することで、上記の制限を克服するものである。従って本発明は、フロー場における不連続性を保持しながら、高密度でノンパラメトリックなフローを解くものである。
【0007】
ある種のMRFでは、グラフ上での最大フロー計算によって、正確な帰納的最大(Maximum A Posteriori:MAP)推定値を効率良く得ることができる。最適であることが保証されていることから、この計算によって、局所最小解の問題が回避される。MRF公式化およびグラフ理論解を用いる最近の一部の方法について、各種文献等にその例が記載されている(S.Roy et al., ”A Maximum−Flow Formulation Of The n−Camera Stereo Correspondence Problem,” Int’l Conference on Computer Vision, Mumbai, India, pp.492−499 (1998);ロイ(S.Roy)によって1997年11月26日に出願された米国特許出願08/978、834号(発明の名称「Maximum Flow Method For Stereo Correspondence」。);H.Ishikawa et al., ”Occlusions, Discontinuities, and Epipolar Lines In Stereo,” Proceedings of European Conference on Computer Vision, Freiburg, Germany, pp.232−237 (1998);Y.Boykow et al., ”Markov Random Fields With Efficient Approximations,” Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, pp.648−655 (1998)参照)。
【0008】
フロー推定における別の重要な問題は画像導関数の計算である。画像は空間、時間および強度の次元で識別されることから、空間時間導関数の離散的計算の正確さには制限がある。この問題は、複雑な導関数フィルターによってある程度解決される。実際には導関数は、照明の変化、輝度の尺度および反射などの輝度一定の仮定からの逸脱によっても信頼性が低下する。従って、輝度の制約が、「真の」厳密な制約と考えるべきではない。この不確定性の考え方について説明するため、本発明では、輝度の制約を確率的枠組みに入れる。オプティカルフローの確率的解釈についての関連する例が、シモンセリらの論文(E.Simoncelli et al, ”Probability Distributions of Optical Flow,”, Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, pp.310−315 (1991))に記載されている。この方法では、非確率的アプローチにおける問題の一部が克服されているが、オプティカルフローの確率の非線形特性について考慮されておらず、また画像導関数における誤差を適切に考慮せずに過度に単純化されたオプティカルフローモデルを用いているため充分な効果を得られるものではない。
【0009】
そこで、輝度の制約を行ないながら、画像導関数の測定における誤差を適切にモデル化し、しかもそのモデルの環境においてオプティカルフローに対する画像全体の最適解を効率良く得られるオプティカルフローの推定方法が必要とされている。
【0010】
従って本発明の目的は、複数画像間のオプティカルフローを有効かつ正確に推定するオプティカルフローの推定方法を提供することにある。
【0011】
本発明の別の目的は、輝度一定の仮定の制約を行ないながら、画像導関数の測定における誤差を適切にモデル化するオプティカルフローの推定方法を提供することにある。
【0012】
本発明のさらに別の目的は、そのモデルの環境下で、オプティカルフローに対する画像の全体的な最適解を効率良く与えるオプティカルフローの推定方法を提供することにある。
【0013】
【課題を解決するための手段】
本発明によれば、複数の画像間でのオプティカルフローを推定する方法が提供される。本発明のオプティカルフロー推定方法は、運動の方向成分と運動速度成分を得るステップとから構成されている。運動方向成分を求める方法は、複数の画像の空間時間導関数を用いて第1のグラフを作成するステップと、第1のグラフで第1の最大フローについて解を求めることで、それから第1の最小カットを得るステップと、第1の最小カットから運動方向成分を計算する段階を行うステップとから構成される。また、運動速度成分を求めるステップは、複数の画像の空間時間導関数および前記運動方向成分を用いて第2のグラフを作成するステップと、第2のグラフで第2の最大フローについて解を求めることで、それから第2の最小カットを得るステップと、第2の最小カットから運動速度成分を計算する段階を行うステップとから構成される。そして、運動方向成分および運動速度成分とを組み合わせて、複数画像間のオプティカルフローが推定される。本発明のオプティカルフロー推定方法は、輝度の制約を行ないながら、画像導関数の測定における誤差を適切にモデル化し、そのモデルの環境において、オプティカルフローに対して画像全体の最適解を効率良く提供するものである。
【0014】
【発明の実施の形態】
次に、本発明の実施の形態について詳細に説明する。
【0015】
本発明の実施形態について説明する前に、本発明についての理解を深めるため、輝度の制約を行ないながら画像導関数における誤差をモデル化する場合の問題について説明および公式化する。
A.問題についての公式化
輝度の制約は、画素の画像輝度が一定であると仮定して得られる。その結果、空間時間座標に関する画素の強度の全体的導関数はゼロである。従って、以下の式のようになる。
【0016】
【数6】
式中、Ix、IyおよびItは空間時間画像導関数であり、υx、υyは、x方向およびy方向でのフロー成分である。この制約は、直線の式を説明するものである(図1(a)および図1(b)参照)。図1(a)において、斜線を施した「許容」領域は、法線ベクトルυnについての全ての可能な運動を表している。
図1(b)において、法線ベクトルυnを中心とする斜線を施した半円における全ての方向が同等の確率を有する。前述のように、輝度の制約は、画像導関数における固有の不確定性によって緩和されるはずである。以下に説明するように、ベイズ(Bayesian)の枠組みにおいて単純かつ直観的な前提(すなわち、問題の解を得る前にわかっている知見を表す、アプリオリ確率分布)を用いることで、CBAの有用なモデルを得ることができる。
【0017】
便宜上のため、本明細書では、以下の表記を用いる。空間導関数Ix、Iyを∇Iと称し、空間時間導関数Ix、Iy、ItはIdと称する。これらの画像導関数はいかなる方法でも求めることができ、そのための多くのアルゴリズムが公知である。ある画素でのフローは、υ、すなわちυ=[υx、υy、1]と表記される。
【0018】
図1(a)および図1(b)に示したように、Id 0と表記される真の空間時間導関数は、動きベクトルυを、Id 0・υ=0で示される直線上に来るように制限する。確率の形では、P(υ|Id)は、ノイズ画像導関数Idによって決まるフローの確率と定義される。画像導関数についての誤差モデルは、以下のように定義される。
【0019】
【数7】
式中、nは観察誤差であり、平均値ゼロおよび何らかの共分散Σにてガウス分布していると仮定されている。P(υ|Id)を得るために、ベイズの法則を用いて下記式が得られる。
【0020】
【数8】
加法的ノイズモデルを考慮すると、条件的確率P(Id 0|Id)はガウス分布であり、平均はId、共分散がΣである。従って、真の画像導関数P(υ|Id 0)によって決まるフローのアプリオリ分布を考慮すると、所望の条件的確率P(υ|Id)を示すことができる。
【0021】
式(3)と同じ条件的確率について記載している同様の確率的方法がこれまで用いられているが(シモンセリら(同上)参照)、先行技術の方法は、2つの重要な点で本実施形態と異なっている。第1に、先行技術の方法のノイズモデルは、画像導関数ではなくフローベクトルに誤差の原因があり、それは最初から誤差のあることが知られている。第2に、先行技術の方法では、フローベクトルP(υ)でのアプリオリ分布を選択する必要がある。この前提条件は説明が非常に困難であり、運動の種類、シーンでの奥行き分布などによって変わる。さらに、解析を容易にするためには、P(υ)についてゼロ平均のガウス分布を選択する必要があり、それは実際には実現できる場合が少ない。
【0022】
それとは対照的に本実施形態では、条件的分布P(υ|Id 0)、すなわち画素の真の画像導関数を考慮したフロー確率を選択する必要があるだけである。そこで、本実施形態で使用される前提の方が扱い易く、画面全体の運動パターンP(υ)についての知識を必要としない。この前提の選択およびそれが解に与える影響について、以下のセクションで説明する。
B.輝度制約についての確率モデル
図1(a)および図1(b)からわかる通り、動きベクトルυの未知成分はCBA直線上にあり、角度θによってパラメータ化することができる。これは、可能なθ値の空間を、許容(斜線)領域と非許容領域に分けるものである。許容領域は、Id 0に関連する法線ベクトルυnを中心とする半円である。そこで、必要な前提条件P(υ|Id 0)をθの条件的前提条件と記載することができる。
【0023】
最も弱い形では、θに関する前提は単に、許容領域でのフロー方向が同等の確率を有するというものである(図1のP(θ|Id 0)参照)。従来技術における“核”は、以下の通りである。
【0024】
【数9】
式中、θnは、法線ベクトルυnの方向である。所望に応じて、フローについての具体的知見を用いて、フロー方向の条件的分布を変えることができる。例として、フローの速度が厳密に規定された場合に、θnからの許容される角度逸脱の範囲を縮小することができる。
【0025】
真のフローはθによって十分にわかることから、条件的前提P(θ|Id 0)を選択することで、条件的前提P(υ|Id 0)が自動的に決まる。それは、以下のように示すことができる。
【0026】
【数10】
式中、υnは‖It‖/‖∇I‖に等しい速度を有する。式(3)、(4)および(5)を比較することで、P(υ|Id)はP(Id 0|Id)の関数として表すことができる。しかしながら、この関数は簡単な解析型を有するものではない。実際、それは数値的に評価するのが好ましい。
【0027】
各画素が画像導関数Idを生じる。次に、分布P(Id 0|Id)から誘導されて、一連の実現的な値が得られる。各実現的な値について、従来の核が所望の分布P(υ|Id)上に累積される。真のフローP(υ|Id)の条件的分布は、異なる方向を示す核の加重平均であり、その場合加重は、条件的分布P(Id 0|Id)によって決定される。
【0028】
上記の確率分布について説明するため、図2には、3種類の画像導関数[20、20、10]、[10、10、5]および[4、4、2]についての法線フロー分布および条件フロー分布P(υ|Id)を示してある。これらの導関数は、各種量の画像テクスチャを特徴づける領域で認められる同じ法線フローベクトル[−0.35、−0.35]に相当する。画像導関数における誤差は、空間時間次元の各次元での標準偏差が1のガウス分布によってモデル化される。高レベルのテクスチャの場合(Id=[20、20、10])、輝度制限と法線フローベクトルは信頼性が高い。従って、得られる法線フロー分布は非常にコンパクトであり、フロー分布全体は、輝度制限線方向のみが不確定である。中程度のテクスチャの場合(法線フローベクトルの位置および全フローの両方における不確定性が高くなる。画像テクスチャの量が低い場合(Id=[4、4、2])、法線フローおよび全フローの両方の値における不確定性の程度が大幅に高くなる。これは、法線フローおよび輝度制限の信頼性が局所区画にある画像テクスチャの量によって決まるという直観的事実に相当するものである。低テクスチャ領域ではこのモデルは、輝度制限線からの大幅な逸脱をもたらすものではない。
【0029】
図3には、図2と同じId値を用いて、フローの方向および速度について得られる分布を示してある。図3において各縦軸には、記載されている画像導関数についてのフローの方向(上図)および速度(下図)の条件的分布を示してある。図3からわかる通り、フロー方向の分布は本質的に、利用可能なテクスチャの量による影響を受けない。しかしながら、テクスチャの量は、フローの速度の確率に大きく影響する。高テクスチャの場合、法線フローが信頼性が高く、従って全フローの速度は法線フロー(垂線で示してある)の速度より大きいはずである。テクスチャの量が減少するに連れて、法線フローの速度の信頼性が低くなり、法線フローより小さいフローの速度の確率が高くなる。これは、信頼性の低い法線フローは全フロー値の範囲をさほど制限するものではないという直観的事実を裏付けるものである。極端な場合は、識別可能な運動がない場合、すなわちId≒[0、0、0]の場合であると考えられる。その場合、シミュレーションされる方向分布は、[−π、π]の範囲で均一である。結果的に、そのような画素の方向は、強制的な平滑化のために、完全に隣接画素の方向によって決まることになる。
C.オプティカルフローの解法
ほとんどの先行技術の方法では、フロー場は局所的には平滑であるとの仮定のもとに、輝度の制約に対する忠実度を左右するコスト関数を最小とすることによりオプティカルフローの推定を行っている。奥行きの不連続性のため、フロー場は各区分ごとに平滑であるのが普通である(すなわちそれには、大きい不連続部によって分離された平滑運動区画がある)。平滑化を行うことにより、フローの推定が、それらの境界部を通って平滑化され、結果的にフロー推定が不正確になる。
【0030】
概して、得られるコスト関数は、反復非線形最適化法を用いて最小化され、広域最小値に収束する保証はない。フロー推定を、制限がある種類のMRFモデルに関するラベル問題として公式化することで、反復法を回避することができ、画像全体の最適解が保証される。グラフ上で最大フロー問題への変換を行うことで、このラベル問題の正確な帰納的最大(MAP)推定値を得ることができる。この広域最小値は、大きい不連続部を保存する傾向を有する。
【0031】
MRFのMAP推定値に対して最大のフロー解を得るには、ラベルが1次元である必要がある。残念ながら、全ての画素のフローが、2次元ベクトルによって説明される。そのため、フローを2個の1次元空間にパラメータ化する必要がある。本実施形態においては、2次元フロー場[υx、υy]は、相当する角度−速度表示[θ、m]へとパラメータ化される。このパラメータ化の好ましい選択について、以下でさらに詳細に説明する。
【0032】
一般的なMRFの考え方は当業界では知られており、それについての詳細な説明がリー(S.LI)らの著作にある(S.Li et al., Markov Random Field Modeling In Computer Vision, Springer−Verlag publ. (1995))。しかしながら、本実施形態の方法の公式化に先だって、MRFの基礎となる考え方を以下に簡単に説明する。
【0033】
S={0、...、m−1}で表される箇所(画素)の集合が与えられた場合には、個々のラベル問題は、ラベル集合L={0、...、m−1}から引き出される固有のラベル(方向または速度)を各箇所に割り当てるという問題となる。ラベルの各構成は、確率変数F={F0、...、Fm−1}群から引き出される。MRFのマルコフ特性は、ある場所が一定のラベルfiを取る確率がそれに隣接するものによってのみ決まるように決定される。概して、その確率は決定が困難であるが、ハンマースレー−クリフォード(Hammersley−Clifford)の定理により、その確率をギブズ分布を用いて「クリーク電位」Vc(f)に関連させ得ることが明らかである。すなわち下記式の通りである。
【0034】
【数11】
上記式において、U(f)=Σc ∈Vc(f)である。すなわち、全クリークにわたって合計されたクリーク電位である。クリークは局所的近傍N全体にわたって考慮され、この近傍としては例えば、画素の4個の隣接画素(各画素が隣接する画素を4個のみ有すると考える場合)その他の隣接関数があると考えられる。ベイズの式では、事後確率P(F=f|X=x)(xは観察されたデータである)を最大とすることが望ましい。ベイズ則を用いると、下記式のようになる。
【0035】
【数12】
ノイズが“iid”(identically and independently distributed:独立し同様に分布)であると仮定すると、確度の項は以下のように定義される。
【0036】
【数13】
上記式において、積は全箇所にわたるものである(すなわち、全ピクセル)。要約すると、MAPの推定は、エネルギーが下記式で表されるエネルギー最小化問題に書き換えることができる。
【0037】
【数14】
上記式は、ラベル構成からの寄与と得られるクリークポテンシャルからの寄与とを含んでいる。代表的には、クリークポテンシャルは、問題の事前の知見を反映するものであり、オプティカルフローの場合には、推定されたフロー場に平滑化を課すのに使用される。
【0038】
前述のように、本実施形態は、非反復的広域最小化法を用いて、ラベル問題の解を得るものである。これは、E(f)をフローグラフとして表し、そこで最大フローの計算を行うことで得られる。平均計算量を実験的に測定したところ、O(n1.15、d1.31)である(nは画像のサイズであり、dはラベル数である)。この環境では、クリークポテンシャルV()は線形である必要があり、下記の形の平滑化項が得られる。
【0039】
【数15】
式中、βは解において望まれる平滑化の量を制御する比例定数である。
1.オプティカルフローについての最大フロー解
前セクションで説明したように、最大フロー計算を用いて最小化するコスト関数は以下の通りである。
【0040】
【数16】
最大フロー式およびMRF解釈の詳細は公知であり、上述の米国特許出願08/978、834号ならびにロイ(Roy)らやイシカワ(Ishikawa)らの論文(前出)などに記載されている。MAP推定に関連する最小コストカットの広域最適性も保証されることが知られており、ボイコフ(Boykov)ら(前出)やイシカワら(前出)の文献に記載されている。
【0041】
前述のように、本実施形態におけるフロー場のパラメータ化は、(θ、m)表示である。フローについての解を得るには、フロー速度分布P(υ|Id)をそれの角度成分P(θ|Id)および速度成分P(m|Id)に簡単に因数分解することで、上記の段落Bに記載の方法に従って、条件的確率P(θ|Id)を計算する。方向フロー場θ(全画素についての方向の構成を示す)についての解を得るため、式11は以下の形となる。
【0042】
【数17】
MRF法は有限数のラベルを用いることから、θ=[−π、π]の値の範囲は有限数の段階に区分する必要があることが明らかであろう。本実施形態を用いた実験では、段階のサイズは1°〜4°を用いた。画素の運動を区分することで、非離散的表現の場合と比較して大きい誤差を生じるように思われるかも知れないが、この実験から、それは当てはまらないことが明らかになった。
【0043】
フロー方向についての解が得られたら次に、各画素についての速度mについての解を得る必要がある。速度は、フロー方向の解を求めた方法と同様にして解を得ることができる。しかしながら実際には、速度の計算は、フローの方向の計算よりかなり難しい。好ましくは、計算された方向推定値によって得られる追加データを利用することで、条件的分布P(m|Id)を修正する。それによってP(m|θs、Id)が得られる(θsは、画素の方向についての解である)。そこで、運動速度を計算するためのコスト関数は、以下のようになる。
【0044】
【数18】
留意すべき点として、式(12)および(13)におけるβを、それぞれβ1およびβ2と表すことで、βの特定の値が任意であり、運動方向と運動速度の両方で両式において同じであっても、あるいは運動方向および運動速度について2式で異なっていても良いことを示している。
【0045】
上記の修正により、得られる効果は大幅に向上される。それは、方向推定がフロー全体を直線に制限することで、速度の分布の不確定性を低減することで説明される。すなわち、輝度制約線方向の曖昧さがなくなっていることから、この新たな条件的分布P(m|θs、Id)は、真のフローの速度を代表する程度がかなり高くなっている。2つの推定値(すなわち、θおよびm)を合わせることで、2個の画像間のオプティカルフローが得られる。
【0046】
図4について説明すると、本実施形態の方法全体を描いたフローチャートを示してある。時系列連続画像400が、本方法に対する入力として提供される。時系列連続画像400は代表的には、7個以上の画像の連続ビデオ画像であるが、画像導関数の計算ができるだけの時間的密度を有する複数画像であればいかなるものであっても良い。時系列連続画像400を、本実施形態の方法の2つの段階に対する入力として用いる。第1段階では運動方向を推定し(ステップ402、404、406および408)、第2段階では、運動速度を推定する(ステップ410、412、414および416)。運動方向の結果も運動速度を得るための段階への入力として提供されることから、運動方向を得るための段階を最初に行うのが普通である。
【0047】
運動方向を得るための段階では、第1のフローグラフG1がステップ402において作成される。第1のフローグラフG1は、画像の空間時間導関数(式(1))を用いて作成され、コスト関数が得られ(式(12))、それの最小値が、運動の方向成分となる。このフローグラフG1は上述の米国特許出願08/978、834号と同様の構成となっているが、式(12)のコスト関数を用いて、エッジ容量関数(occ(u、v)=βおよびreg(u、v)=−ln(P(θ|Idi)))を誘導している。次に、本実施形態の方法では、ステップ404において、第1のグラフG1で中の最大フローの解を求め、上述の米国特許出願08/978、834号に記載の方法と同様にして、第1のグラフG1から最小カットを抜き出す。ステップ406では、該最小カットから運動方向を計算する。方向θi(全画素について、i∈S)は、最小カットにおける「ラベル」エッジによって直接得られる。結果として、運動方向408が得られ、それは運動の方向であることから、オプティカルフローの1成分を表す。
【0048】
運動速度段階では、ステップ410で第2のフローグラフG2が作成される。第2のフローグラフG2は、画像の空間時間導関数(式(1))と前段階で計算された画素の運動方向408とを用いて作成される。コスト関数が得られ(式(13))、その最小値が、P(m|θ、Id)に当てはめた場合に、運動速度成分を与える。このフローグラフG2は上述の米国特許出願08/978、834号と同様の構成となっているが、このコスト関数を用いて、エッジ容量関数(occ(u、v)=βおよびreg(u、v)=−ln(P(m|θsi、Idi)))を誘導している。次に本実施形態の方法では、ステップ412において、第2のフローグラフG2中での最大フローの解を求め、上述の米国特許出願08/978、834号に記載の方法と同様にして、第2のグラフG2から最小カットを抜き出す。ステップ414では、その最小カットから運動速度を計算する。速度mi(全画素について、i∈S)は、最小カットにおける「ラベル」エッジによって直接得られる。結果として、運動速度416が得られ、それは運動速度であることから、オプティカルフローの別の成分を表す。
【0049】
オプティカルフロー418は、運動方向成分408と運動速度成分416を合わせたものであることから、オプティカルフロー場全体となる。
2.2次元フローのパラメータ化
前述のように、オプティカルフローはパラメータ化されて、2個の1次元表現になる。これら2つのパラメータはできるだけ互いに独立であることが望ましい(すなわち、P(υ|Id)=P(a(υ)|Id)P(b(υ)|Id)であって、式中a(υ)およびb(υ)はフローを表す新たな1次元パラメータである)。そこで、角度−速度表現(θ、m)および速度成分(υx、υy)という2つの選択肢を検討した。最良の表現を決定するため、相互相関係数を実験的に測定した。多数の代表的画像導関数の場合(500の実験)、相当する条件的分布P(υ|Id)を得て、2つの異なるパラメータ化について相互相関係数を計算した。相互相関係数ρは以下のように定義される。
【0050】
【数19】
式中、Eは期待値であり、μは平均を示し、(a、b)は(θ、m)または(υx、υy)のいずれかである。ρの平均値は、(θ、m)表現の場合は0.04であり、(υx、υy)表現の場合は0.4である。(θ、m)表現はほとんど独立であるが、(υx、υy)表現はそうではないことが明らかである。従って、角度−速度のパラメータ化を選択するのが適切である。
D.結果
本セクションでは、バロン(Barron)らによる評価についての論文(Barron et al., ”Performance Of Optical Flow Techniques,” Int’l Journal of Computer Vision, Vol.2, No.1, pp.43−77 (1994))からの合成データ集合および実データ集合について本実施形態の方法を用い、さらにはその論文に記載の各種方法の結果と本実施形態の結果とを比較することで、本実施形態の方法の効果を評価する。
【0051】
本実施形態の方法について試験を行う際には、画像導関数の計算は、空間−時間ガウスフィルター(σ=1.5)の適用と、次に4点差演算子(1/12)[−1、8、−8、1]の適用から成るものである。バロンら(同上)における修正ホーン−シュンク(Horn and Shunk)アルゴリズムは、同じ導関数計算を使用するものである。ほとんどの実験に要する実行時間は、小さい画像の場合で数秒の範囲であり、高速ワークステーションでの大きい画像の場合で10分以内である。これらの実行時間は、解にほとんど影響を与えることなく、運動パラメータについての比較的粗い離散化を用いることで、容易に短縮することができる。本セクションに示した結果はいずれも、事後処理を行わずに、本実施形態の方法によって得られた生のフロー場である。
1.合成画像
本実施形態のオプティカルフロー推定方法を、正しい結果が得られているバロンらの5種類の合成画像列について行った。この5種類の合成画像列は、バロンらの論文において、様々なアルゴリズムを比較するために用いられている画像列の例であり、それぞれ「Sinusoid 1」、「square 2」、「Translating Tree」、「Diverging Tree」、「Yosemite」というタイトルがつけられている。
【0052】
本実施形態のオプティカルフロー推定方法による結果を、100%のフロー場密度を与えるバロンらにおける5種類のアルゴリズムの結果と比較した。本実施形態は特に、高密度フロー場の推定を行うためのものであって、密度の低い場を与えるよう修正することは容易ではないことから、低密度法を直接比較することはできない。誤差の測定は、バロンらにおいて用いられている方法と同じである。2つの動き[u0、υ0]および[u1、υ1]の場合、誤差の測定値は、2個のベクトル[u0、υ0、1]および[u1、υ1、1]間の角度と定義される。
【0053】
得られた結果を図5にまとめてある。図5において、本実施形態の結果は、最大フローとして表している。これらデータ集合に対する本実施形態の成績は常に良好である。しかしながら、これらのデータ集合はいずれも、非常に平滑な運動場を特徴とするものであって、この運動場は、運動の不連続部付近のアルゴリズムの挙動を明らかにするものではない。さらに、それにはノイズおよびその他の画素の不一致要素が含まれる。これらは、実画像についてのオプティカルフロー計算の重要な側面であり、本実施形態で特に良好に扱われるものである。
【0054】
最も驚くべき結果は、本実施形態の方法が他のいずれの方法より数桁も優れた成績を与える「square 2」に関するものである。これは、非常に低密度の導関数データが得られている場合であることから、局所的ではなく全体的に平滑化を行うことが有利であることを示すものである。本実施形態が、相関に基づくアルゴリズム(例:Anandan(前出);Singh(前出))より常に良好な成績を与え、他のいかなる方法より大きく劣ることは決してないことが明らかであろう。
2.実画像
実際の条件下での本実施形態の成績を示すため、4種類の実画像についてのフローを調べる(図6(a)、図7(a)、図8(a)および図9(a))。これらは、良く知られているルービックキューブ(図6(a))、NASA画像列(図7(a))、ハンブルグのタクシー(図8(a))およびSRI樹木(図9(a))であり、バロンらの論文(前述)でも検討されている。正しい結果が得られていないため、質的結果のみを示す。
【0055】
ルービックキューブについての推定フロー場を図6(b)に示してある。このデータ集合は、回転台上で回転するキューブについての特徴を示すものである。フローは、方向および速度のいずれにおいても、回転台およびキューブの運動にそのまま従うことがわかる。フローは、回転台の上面のようなテクスチャのない領域全体で良好に広がっている。さらに、運動の不連続部は良好に保存されている。このフロー場の詳細図が図6(c)にある。図6において、存在する3種類の運動(キューブ、回転台および背景の運動)が正確に再現されている。
【0056】
NASA画像列は、カメラズームによって生じる発散フロー場の特徴を示すものである。図7(a)に示した画像においてカメラはズームインしている。運動速度は非常に小さく、1画素よりかなり小さいのが普通である。図7(b)に示したように、フローの発散は良好に再現されている。注目すべき点として、炭酸飲料中央部における誤差はほとんどが、反射と少ない運動とが相まって生じたものと考えられる。
【0057】
ハンブルグのタクシー画像列は、複数の独立した運動の1例である。3台の車が画像列を通じて独立に動いている。得られるフローを図8(b)に示してある。車の動きは良好に再現され、良好に局所化されていることから、運動速度の簡単な閾値処理を行うことで、運動を分割することができる。これは、運動不連続部の正確な再現が必須である場合の例である。
【0058】
SRI樹木の画像列は、水平方向に移動するカメラについての特徴を示すものである。それは、多数の閉塞および低コントラストを特徴とするものである。カメラの動きが普通とは異なることから、運動速度は、場面の奥行きと等価である。従って、図9(b)での結果は、奥行きマップとして示してある。暗い領域は運動が小さいことを示し(大きい奥行き)、明るい領域は運動が大きいことを示している(奥行きが小さい)。結果は、カメラの動きについてのデータを利用し、従って良好な性能を有すると予想される専用の立体アルゴリズムによって得られる結果に非常に近いものである。画像中央にある木の幹に沿って見られるように、奥行きの不連続部は良好に再現されている。他方、注目すべき点として、地表面の平面性が良好に保存されている。それは、高レベルの平滑化を行ないながら、しかもシャープな不連続部を再現することが可能であることを示している。従って、確率的枠組みでオプティカルフローを推定する新規な方法が提供される。簡単なノイズモデルを用いて、画像導関数の固有の不正確さを明瞭に考慮することで、全フローの確率モデルが得られている。フローをそれの角度−速度成分に分離することで、全フローが2段階で計算され、各段階は線形のクリーク電位を用いたMRFのMAP推定に基づくものである。これらの推定値は最適のものであり、グラフ全体にわたる最大フローの計算によって効果的に得られる。再現されるフロー場は高密度であり、シャープな運動不連続部を保持している。注意深く確率モデルを作成することで、オプティカルフロー推定の問題に固有の大幅な誤差に対して高レベルの堅牢性を得ることができると考えられる。
【0059】
以上、ある種の利用分野で使用するためのオプティカルフローの推定方法について説明・図示したが、本明細書に添付の請求の範囲のみによって限定される本発明の精神および広義の内容から逸脱しない限りにおいて、変更および修正が可能であることは、当業者には明らかであろう。
【0060】
【発明の効果】
上記で説明したように本発明によれば、下記のような効果を得ることができる。
(1)複数画像間のオプティカルフローを有効かつ正確に推定することができる。
(2)輝度一定の仮定の制約を行ないながら、画像導関数の測定における誤差を適切にモデル化することができる。
(3)モデル化された環境下で、オプティカルフローに対する画像の全体的な最適解を効率良く得ることができる。
【図面の簡単な説明】
【図1】オプティカルフロー推定に対する輝度制約を示す図であり(図1(a))、および、図1(a)に図示した輝度制約に相当する従来の条件的分布P(θ|Id 0)を示す図(図1(b))である。
【図2】図2は、3つの異なる画像テクスチャを代表する3つの異なる画像導関数を有する3つの異なる画像導関数についての法線フローおよびオプティカルフローの確率分布、すなわち、局所画像変化の程度を描いた図である。
【図3】図3は、図2で用いた3つの異なる画像導関数についてのオプティカルフローの方向および速度の確率分布を描いた図である。
【図4】本発明の方法の全体を示すフローチャートである。
【図5】本発明の方法について結果と比較した、各種合成データ集合についての各種試験アルゴリズムの結果を示す棒グラフである。
【図6】本発明についての試験を行うのに使用される回転台上で回転するキューブの連続画像のうちの1個の画像、(図6(a))、および図6(a)の画像を含む連続画像を用いて、本発明の方法によって推定されるオプティカルフロー場を示した図(図6(b))、図6(b)に示したオプティカルフロー場の拡大図である(図6(c))。
【図7】本発明についての試験を行うのに使用される、炭酸飲料缶と各種取り合わせた対象物の連続画像中の1画像である(図7(a))、および図7(a)の画像を含む連続画像を用いて、本発明の方法によって推定したオプティカルフロー場を示した図(図7(b))である。
【図8】本発明についての試験を行うのに使用される、独立に運動する複数の車の連続画像中の1画像を示した図(図8(a))、および図8(a)の画像を含む連続画像を用いて、本発明の方法によって推定されるオプティカルフロー場を示す図(図8(b))である。
【図9】本発明についての試験を行うのに使用される、カメラが画像を横切って水平方向に移動する、樹木の連続画像中の1画像を示す図(図9(a))、および図9(a)の画像を含む連続画像を用いて、本発明の方法によって推定されるオプティカルフロー場を示す奥行きマップを示す図(図9(b))である。
【符号の説明】
400 時系列連続画像
402、404、406 ステップ
408 運動方向
410、412、414 ステップ
416 運動速度
Claims (4)
- 複数の画像間でのオプティカルフローを推定するオプティカルフロー推定方法であって、
(a)複数の画像の空間時間導関数を用い、
で示されるコスト関数からエッジ容量関数を誘導することで第1のフローグラフG1を作成するステップと、
前記第1のフローグラフG1中の第1の最大フローについて解を求めることで、それから第1の最小カットを得るステップと、
前記第1の最小カットから運動方向成分を計算するステップとを有する、
運動方向成分を得るステップと、
(b)前記複数の画像の空間時間導関数および前記運動方向成分を用いて、
で示されるコスト関数からエッジ容量関数を誘導することで第2のフローグラフG2を作成するステップと、
前記第2のフローグラフG2中の第2の最大フローについて解を求めることで、それから第2の最小カットを得るステップと、
前記第2の最小カットから運動速度成分を計算するステップとを有する、
運動速度成分を得るステップとを有し、
前記運動方向成分および前記運動速度成分とを組み合わせて、複数画像間のオプティカルフローを推定するオプティカルフロー推定方法。 - 隣接する画素が4個である、請求項1記載のオプティカルフロー推定方法。
- 条件的確率分布P(θ|Idi)と輝度一定の仮定とを組み合わせて、条件的確率分布P(m|θsi、Idi)を得る、請求項1記載のオプティカルフロー推定方法。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13016899P | 1999-04-20 | 1999-04-20 | |
US09/391732 | 1999-09-08 | ||
US60/130168 | 1999-09-08 | ||
US09/391,732 US6507661B1 (en) | 1999-04-20 | 1999-09-08 | Method for estimating optical flow |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000306108A JP2000306108A (ja) | 2000-11-02 |
JP3557982B2 true JP3557982B2 (ja) | 2004-08-25 |
Family
ID=26828229
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000022967A Expired - Fee Related JP3557982B2 (ja) | 1999-04-20 | 2000-01-31 | オプティカルフロー推定方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US6507661B1 (ja) |
EP (1) | EP1047019A3 (ja) |
JP (1) | JP3557982B2 (ja) |
CA (1) | CA2297233C (ja) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB9920256D0 (en) * | 1999-08-26 | 1999-10-27 | Wave Limited M | Motion estimation and compensation in video compression |
US6744923B1 (en) * | 1999-08-30 | 2004-06-01 | Cornell Research Foundation, Inc. | System and method for fast approximate energy minimization via graph cuts |
DE10109921A1 (de) * | 2001-03-01 | 2002-09-05 | Ruediger Schrott | Computeranimation von Rennfahrzeugen für Fernsehübertragungen |
KR100415313B1 (ko) * | 2001-12-24 | 2004-01-16 | 한국전자통신연구원 | 동영상에서 상관 정합과 시스템 모델을 이용한 광류와카메라 움직임 산출 장치 |
US7164800B2 (en) * | 2003-02-19 | 2007-01-16 | Eastman Kodak Company | Method and system for constraint-consistent motion estimation |
CA2464569A1 (en) * | 2003-04-16 | 2004-10-16 | Universite De Montreal | Single or multi-projector for arbitrary surfaces without calibration nor reconstruction |
US20050111753A1 (en) * | 2003-11-20 | 2005-05-26 | Yissum Research Development Company Of The Hebrew University Of Jerusalem | Image mosaicing responsive to camera ego motion |
US20060020562A1 (en) * | 2004-07-21 | 2006-01-26 | University Of Southern Mississippi | Apparatus and method for estimating optical flow |
US7558755B2 (en) * | 2005-07-13 | 2009-07-07 | Mott Antony R | Methods and systems for valuing investments, budgets and decisions |
TWI287103B (en) * | 2005-11-04 | 2007-09-21 | Univ Nat Chiao Tung | Embedded network controlled optical flow image positioning omni-direction motion system |
US20070280507A1 (en) * | 2006-06-01 | 2007-12-06 | Beddhu Murali | Apparatus and Upwind Methods for Optical Flow Velocity Estimation |
DE102006027123A1 (de) | 2006-06-12 | 2007-12-13 | Robert Bosch Gmbh | Verfahren für die Erfassung eines Verkehrsraums |
US8340349B2 (en) * | 2006-06-20 | 2012-12-25 | Sri International | Moving target detection in the presence of parallax |
US7974460B2 (en) * | 2007-02-06 | 2011-07-05 | Honeywell International Inc. | Method and system for three-dimensional obstacle mapping for navigation of autonomous vehicles |
US7925089B2 (en) * | 2007-09-18 | 2011-04-12 | Microsoft Corporation | Optimization of multi-label problems in computer vision |
FR2931277B1 (fr) * | 2008-05-19 | 2010-12-31 | Ecole Polytech | Procede et dispositif de reconnaissance invariante-affine de formes |
US8060271B2 (en) * | 2008-06-06 | 2011-11-15 | Toyota Motor Engineering & Manufacturing North America, Inc. | Detecting principal directions of unknown environments |
KR100955044B1 (ko) * | 2008-07-11 | 2010-04-28 | 포항공과대학교 산학협력단 | 서브 픽셀 해상도의 옵티컬 플로우 추정 장치 및 방법 |
JP5278776B2 (ja) * | 2008-12-09 | 2013-09-04 | トヨタ自動車株式会社 | 物体検出装置および物体検出方法 |
US8553943B2 (en) * | 2011-06-14 | 2013-10-08 | Qualcomm Incorporated | Content-adaptive systems, methods and apparatus for determining optical flow |
EP4012529A1 (en) | 2014-09-30 | 2022-06-15 | SZ DJI Technology Co., Ltd. | System and method for data recording and analysis |
CN107534736B (zh) | 2016-03-30 | 2020-04-28 | 华为技术有限公司 | 终端的图像配准方法、装置和终端 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5680487A (en) * | 1991-12-23 | 1997-10-21 | Texas Instruments Incorporated | System and method for determining optical flow |
EP0633546B1 (en) * | 1993-07-02 | 2003-08-27 | Siemens Corporate Research, Inc. | Background recovery in monocular vision |
US5751838A (en) * | 1996-01-26 | 1998-05-12 | Nec Research Institute, Inc. | Correction of camera motion between two image frames |
US6046763A (en) * | 1997-04-11 | 2000-04-04 | Nec Research Institute, Inc. | Maximum flow method for stereo correspondence |
-
1999
- 1999-09-08 US US09/391,732 patent/US6507661B1/en not_active Expired - Lifetime
-
2000
- 2000-01-26 CA CA002297233A patent/CA2297233C/en not_active Expired - Fee Related
- 2000-01-27 EP EP00101283A patent/EP1047019A3/en not_active Withdrawn
- 2000-01-31 JP JP2000022967A patent/JP3557982B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
EP1047019A3 (en) | 2003-10-29 |
EP1047019A2 (en) | 2000-10-25 |
CA2297233C (en) | 2006-07-18 |
US6507661B1 (en) | 2003-01-14 |
JP2000306108A (ja) | 2000-11-02 |
CA2297233A1 (en) | 2000-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3557982B2 (ja) | オプティカルフロー推定方法 | |
Whelan et al. | Real-time large-scale dense RGB-D SLAM with volumetric fusion | |
Newcombe et al. | Live dense reconstruction with a single moving camera | |
Pradeep et al. | MonoFusion: Real-time 3D reconstruction of small scenes with a single web camera | |
US20180211399A1 (en) | Modeling method and apparatus using three-dimensional (3d) point cloud | |
Zhu et al. | Spatial-temporal fusion for high accuracy depth maps using dynamic MRFs | |
Scharstein et al. | A taxonomy and evaluation of dense two-frame stereo correspondence algorithms | |
Min et al. | Cost aggregation and occlusion handling with WLS in stereo matching | |
Nair et al. | A survey on time-of-flight stereo fusion | |
US8447099B2 (en) | Forming 3D models using two images | |
US7352386B1 (en) | Method and apparatus for recovering a three-dimensional scene from two-dimensional images | |
US11049270B2 (en) | Method and apparatus for calculating depth map based on reliability | |
US20120177284A1 (en) | Forming 3d models using multiple images | |
CN108269266A (zh) | 使用马尔可夫随机场优化来产生分割图像 | |
Choi et al. | A consensus-driven approach for structure and texture aware depth map upsampling | |
Papadakis et al. | Multi-label depth estimation for graph cuts stereo problems | |
Stückler et al. | Efficient dense rigid-body motion segmentation and estimation in RGB-D video | |
Jung et al. | Consistent stereo matching under varying radiometric conditions | |
Tan et al. | Mirror3d: Depth refinement for mirror surfaces | |
Bebeselea-Sterp et al. | A comparative study of stereovision algorithms | |
Chen et al. | A particle filtering framework for joint video tracking and pose estimation | |
Pan et al. | Depth map completion by jointly exploiting blurry color images and sparse depth maps | |
Sánchez et al. | Towards real time 3D tracking and reconstruction on a GPU using Monte Carlo simulations | |
Favorskaya et al. | Warping techniques in video stabilization | |
Kuschk et al. | Real-time variational stereo reconstruction with applications to large-scale dense SLAM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20040218 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040405 |
|
A911 | Transfer of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20040409 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040427 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040510 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090528 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100528 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110528 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110528 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120528 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120528 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130528 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140528 Year of fee payment: 10 |
|
LAPS | Cancellation because of no payment of annual fees |