JP3790253B2 - 動画像処理装置 - Google Patents

動画像処理装置 Download PDF

Info

Publication number
JP3790253B2
JP3790253B2 JP2004324365A JP2004324365A JP3790253B2 JP 3790253 B2 JP3790253 B2 JP 3790253B2 JP 2004324365 A JP2004324365 A JP 2004324365A JP 2004324365 A JP2004324365 A JP 2004324365A JP 3790253 B2 JP3790253 B2 JP 3790253B2
Authority
JP
Japan
Prior art keywords
image
information
images
feature points
motion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004324365A
Other languages
English (en)
Other versions
JP2005050384A (ja
Inventor
恭一 岡本
チポラ ロベルト
義徳 久野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2004324365A priority Critical patent/JP3790253B2/ja
Publication of JP2005050384A publication Critical patent/JP2005050384A/ja
Application granted granted Critical
Publication of JP3790253B2 publication Critical patent/JP3790253B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

この発明は、複数の画像情報を入力し、特徴点の位置の変化から対象物体の動きおよび構造を検出する動画像処理装置に関する。
複数の画像に撮影された物体の構造を検出する方式としては、既に幾つかの方式が提案されている。
例えば、S.Ullmanは、The interpretaion of visual motion.MIT Press Cambridge,USA,1919には、3枚以上の平行投影した画像であり、剛体である物体の同一平面上にない4点の対応が決まっている場合に、4点の構造および動きを完全に求める方法が紹介されている。
また、H.C.Longuest-HigginsはA computer algorithm for reconstructing a scene from two projections Nature,293:133-135,1981には、透視変換した2枚の画像上で8つの対応点がある場合に、構造および動きを検出する線形計算方式が開示されている。
他に、O.D.FaugerasとS.J.MaybankはMotion from point matches:multiplicity of solutions,IEEE Workshop on Motion 248-255 1989には、中心投影した2画像に5つの対応点があれば、それらの対応を満たす構造および動きは有限になることが記載されている。
また、特開平3−6780号には、2枚の画像上の対応点から、まず3次元の回転運動を求め、次に、その回転運動情報から対応点の一つを基準とする3次元の位置関係を求める方式が開示されている。
これらの方式は、すべて、物体の3次元座標とこの物体が中心投影で投影された画像上の座標との間に方程式を立て、その方程式を解いて答を求める方式である。
また、Jan J KoenderinkとAndrea J.van DoolrnのAffine structure from motion, Journal of Optiical Society of America pp. 377-385 vol.8, No.2 1991に開示されているように、物体の運動をアフィン(affine)変換(1次変換)で表わし、そこから物体の構造を検出する方式も計算されている。この方式では、動画像の2枚のフレームから物体のおよその構造を計算することができる。この方式により計算した物体の構造は、奥行き方向の情報がカメラから物体までの距離に比例する未知の係数を掛け合わせることによって得られる構造となる。
上述した中心投影の方程式を解く方法は、撮影対象となる物体が撮影装置に非常に近く、大きく写っている場合には、効率良く物体の運動および構造を計算することができるが、実際の処理画像で起きるように、画像中で撮影対象となる物体が写っている面積が小さい場合や、撮影装置から対象物体までの距離が遠い場合には、中心投影による画像の変形が小さくなり、その変形をもとに物体の運動を計算するため、計算結果が不安定になってしまうという欠点があった。例えば、視線方向に垂直な向きへの平行移動と、その移動方向に垂直な軸の周りの回転とを区別することが難しくなったり、それ以外にも、中心投影による効果が小さいと、深さ方向の曖昧性が発生し、近くにある彫りの浅い物体か、遠くにある彫りの深い物体かの判別が難しくなったり、観察者の近くで小さな物体が運動しているのか、遠くで大きな物体が運動しているのか判別が難しくなるようなことが起きた。
また、Koendoerinkの方法は、検出した物体の構造に未知の係数を含んでいるので、ここから物体の運動を計算することは難しかった。
本発明は、このような問題点を解決するためになされたものであり、観察者の動きによる画像の変形をアフィン変換(1次変換)で近似して表現し、かつ、ある特徴点の実際の運動によって移動した位置と周囲の特徴の運動によるアフィン変形によって移動した位置との差である仮想視差を計算し、仮想視差情報から物体の運動を直接計算することにより、中心投影の曖昧性に影響されることなく、精度良く物体の運動パラメータを算出する動画像処理装置を提供することを目的とする。
本発明は、複数の画像に対応する画像情報を入力する画像入力手段と、複数の画像の各々から特徴点を抽出するため前記画像情報に特徴点抽出処理を行う特徴点抽出手段と、近傍の特徴点の運動から並進運動方向を計算する並進フロー計算部と、上記並進フロー計算部で計算した並進運動方向を用いて異なる運動をしている領域を分割する独立運動分割部とを具備する動画像処理装置を提供する。
また本発明は、複数の画像に対応する画像情報を入力する画像入力手段と、前記複数の画像間での画像を撮像した観察側の運動情報を推定する運動情報推定手段と推定した運動情報によってポインティングイベントを発生するポインティング情報生成部と、予め記憶した物体の3Dモデルをポインティング情報にしたがって並進回転運動させて表示するポインタ表示手段とを具備する動画像処理装置を提供する。
更に本発明は、複数の画像に対応する画像情報を入力する画像入力手段と、形状が不明の物体を撮影して得られる複数の画像情報から、物体の3次元形状と物体表面のテクスチャパタンを抽出する構造抽出部と、入力画像を変形して新たな視点から物体を見た時の画像を合成する画像合成部とを具備する画像処理装置を提供する。
本発明によれば、動いている背景画像の中から、異なる動きをしている物体を示す領域を取り出すことができ、異なる動きをしている領域を取り除き、背景画像を示す残りの領域から並進運動の画像平面への投影θA以外の運動パラメータも計算しカメラの運動を求めることができる。
以下、本発明による実施例を図に基づいて説明する。
図1に示される数値表現された物体モデルの運動姿勢の指示に用いた簡単な一実施例によると、画像入力部1は特徴点抽出部2を介してポイティング情報生成部4に接続される。このポイティング情報生成部4には、アフィンフロー解析部3およびジェスチャパタンマッチング部6が接続される。ジェスチャパタンマッチング部6はジェスチャパタン記憶部7に接続され、更にポインタ表示部8とともにステータス切換部5に接続される。ポインタ表示部8は3D(3次元)モデル記憶部9、画像合成部10およびポインタモデル記憶部12に接続される。画像合成部10は画像入力部1に接続されるとともに画像表示部11に接続される。
画像入力部1は、運動している物体をテレビカメラなどで撮影することによって得られる時系列画像情報を入力し、これを特徴点抽出部2に転送する。この画像は運動している物体を撮影しやすいように画像表示部11の前に座った人間を天井から撮影した画像、画像表示部11のディスプレイの枠状のカメラで撮影した画像および中心投影の効果が大きく出ないように長い焦点距離で撮像範囲を狭くした複数のカメラを並べ、それらのカメラから入力した画像を繋ぎ合わせた画像などである。また、ここで、画像として入力する物体は、人間の手等の体の一部、もしくは、図2のように後の特徴点抽出部2にて処理しやすいように他の部分と容易に区別できるように、例えば一部に色を塗ったり、色のついた物をつけたりして特徴をつけた手袋などをした手などの体の一部、あるいは、人間が手に持って動かすことができ、画像処理で他の部分と区別できる特徴を持った器具などである。図3はそのような器具の一例で、同じ大きさの球を4つ、他の球と区別できるようにそれぞれ異なる色に塗り、3次元空間内で同一平面上にない位置関係で接続したものである。図4は別の器具の一例であり、箱の表面にLED等の発光素子を埋め込んだ器具であり、内蔵する電池による電力で発光する。この器具を掴んだときに指で押させる位置にスイッチがあり、スイッチを押している間は発光を止めてその間には運動を指示することなく器具を動かすことができる。図2の手袋上の特徴、図4の発光素子などは、3次元的なあらゆる視線方向から見て、近傍にない特徴が4点以上見えるように、配置されている。
特徴点抽出部2は、画像入力部1から時系列画像情報を入力し、画像処理によって、他の領域と容易に弁別できて物体上の同一の点が投影されたと特定できる、複数の特徴点を抽出し、追跡し、その座標値をポインティング情報生成部4に出力する。撮影した物体が手などであれば、画像中の近傍の画素との明度差が大きいような点を特徴点として抽出する。図2や図3のように色を塗った部分を特徴とする場合は、どのような色を特徴とするか、色情報を記憶するためのメモリを用意しておき、そこに記憶された色情報と同じ色を持った領域を画像情報から抽出し、その重心座標をポインティング情報生成部4に出力する。また、この場合のように、色を持った領域の大きさが判る場合には、領域の大きさも補助情報として、ポインティング情報生成部4に出力する。このメモリに記憶させる色情報はあらかじめメモリに書き込んでおくか、この実施例による装置を起動した後、色情報を学習するための学習手段を起動し、入力した画像情報を画像表示部に表示し、ユーザに画像中のどの部分の色を特徴とするかをカーソルによって領域を選択させるか、あるいは入力した動画像情報とウインドウを重ねて画像表示部11に表示し、ユーザに特徴となる色がウインドウ内に入るように手や器具を操作させ、キー入力などのタイミングでウインドウによって指定した領域の画像を取り込むなどして、特徴となる色を含んだ部分画像を得てそこから色を学習し、メモリに記憶する。色の学習は、例えば、I(明度)H(色相)S(彩度)の3成分で表現された画像であれば、次のような2次方程式による表現を用意し、指定した部分画像の画素値に最小2乗推定を行なってパラメータを推定するなどすれば、色の学習を行なうことができる。
H=h0+h1I+h2I2
S=s0+s1I+s2I2
図4の器具のように発光素子を使う場合は、適当な閾値を設けて画像を2値化し、閾値より明るい領域のそれぞれの重心を取って特徴の座標値を計算し、ポインティング情報生成部4に出力する。
ポインティング情報生成部4は特徴点抽出部2から特徴点座標の時系列データを入力し、そこからある2つの時点での複数の特徴点の座標を選んで、アフィンフロー解析部3で運動パラメータを解析し、その結果を用いてポインタを動かすために必要な情報を生成する。
このアフィンフロー解析部3で行なっている処理について以下に詳しく説明する。
アフィンフロー解析部3では、2枚の画像中での4つの特徴点の座標を入力し、4つの特徴点により構成される物体の画像を撮影したカメラ(観察者)の2枚の画像間での運動を計算する。この場合、図5のような中心投影で撮影している撮影系のモデルを考える。ここで、3次元空間上の座標(X,Y,Z)にある点が焦点距離fにある画像平面上の点(x,y)に投影されている。この状態で、観察者側が速度{U1,U2,U3}で並進運動し、{Ω1,Ω2,Ω3}で回転運動をしているとする。特徴点抽出部2から入力した特徴点(x,y)が視線方向に十分近いものとして、特徴点(x,y)の画像平面上での移動速度V(x,y)の成分を(u,v)で表す。
この速度成分を観察者側の運動パラメータで表現してみる。3次元座標(X,Y,Z)と速度パラメータとの関係は、
Figure 0003790253
であるので、移動後の座標X1、Y1、Z1として
Figure 0003790253
が得られる。これを、3次元座標と画像平面上の点の投影関係、
Figure 0003790253
の微分、
Figure 0003790253
に代入すれば、
Figure 0003790253
を得る。
vについても同様に計算を行なって、
Figure 0003790253
と、表すことができる。この画像の移動速度は、並進運動に依存するシーンの情報(Z)を含んだ成分と回転運動に依存する成分とに分けることができる。回転運動に依存する成分は、画素の位置によって変化するだけで対象物の場所や形には依存しないので、従来例でも述べたように、数式的に解く方法はあっても、中心投影による効果が出ないと、画像の上に現れる変化が小さくなるので、実際に回転運動のパラメータを求めることは難しい。そのため、回転運動による変化が並進運動に誤差となって加わり、並進運動の計算精度も悪くなる。その結果として、物体の形や運動を精度良く計算することは難しかった。
しかし、2つの特徴点が画像上の同じ場所に投影されていたと仮定し、その2つの特徴点の移動速度の差(Δu,Δv)、(以後、これを運動視差と呼ぶ)を考えると、運動視差の大きさは、
Figure 0003790253
である。但し、Z,Zは運動視差の計算に用いる2つの特徴点のZ座標である。この運動視差は、物体までの距離と観察者の並進運動だけに依存し、観察者の回転運動には、依存しない。また、この式12から、
Figure 0003790253
のように、x,y,U3が十分に小さければ、運動視差から並進運動の方向が求められることが判る。U3が小さくない場合は、座標値(x,y)の異なる複数の点の運動視差をこの式に代入して解けば,U1とU2の比から並進運動の方向を求めることができる。
一方、観察者の運動が十分滑らかで、また、撮影している物体の表面も十分滑らかであれば、式(11)の画像の速度場は、ある小さな領域の中で、線形方程式で近似することができる。つまり、画像上のある座標(x,y)の近傍での画像速度場は、アフィン変換(一次変換)を使って、
Figure 0003790253
で表すことができる。このうち、0(x2,xy,y2)は2次の非線形成分を表すが、この部分は十分小さいものと考えて以後の計算では無視する。
最初の項の[u0,y0]は、画像の平行移動を表し、2番目の項の2×2テンソルは、画像の形の変形を表す。第2項の添字は、添字で示したパラメータで偏微分したことを示す。この第2項の2×2テンソルは、図6にあるような、いくつかの幾何学的に意味のある成分に分割される。向きの変化を示す画像平面上での回転(Curl)curlV、スケールの変化(Divergence)を示す等方的変化divV、画像の変形(Deformation)(面積を一定に保ったまま、ある軸の方向に引き延ばし、それと垂直な軸の方向に縮める変化)の大きさを示すdefV、および画像変形の拡張する方向を示す変形の主軸μなどである。これらの特徴量は、ある座標(x,y)での画像の速度をV(x,y)としたときに、
Figure 0003790253
で表される。これらの特徴量のうち、divV,curlV,defVの値は、画像中で座標系をどのように取っても、取り方による変化のない不変特徴量である。変形の主軸μは、座標系の軸の向きだけに依存する特徴量である。
図7のように、ある画像平面上にある特徴点Pと、その近傍にある3つの特徴点を考える。既に示したように、十分小さい領域の中では画像平面上の速度は、3つの特徴点から求められるアフィン変換(一次変換)で近似できる。点Pと同じ座標にあって、他の3点の移動速度のアフィン変換で決まる移動速度を持つ仮想的な点P′を考える。実際の点Pと仮想的な点P′の運動視差は、点Pと同じ座標に投影されるが、観察者までの距離の違う点との運動の違いである。この点PとP′との運動視差を以後、仮想視差と呼ぶことにする。運動視差は、式(12)に示したように、観察者の回転運動には影響されず、並進運動と距離だけに依存するので、ここから、安定した運動パラメータと、3次元構造情報を計算することができる。
この仮想視差からどのような情報が得られるか、画像の移動速度(式11)を、アフイン変換式(14)にあてはめて求める。撮影している物体は観察者から十分遠いと仮定しているので、観察者から物体までの距離に比べて物体表面の3次元座標間の距離の変化は非常は小さい。そこで、fが1のときの画像中心から物体までの距離をλとし、物体表面までの距離の変化を
Figure 0003790253
で表すことにより、Zを深さを表す変数λで正規化しておく。これによって、観察者の並進運動の成分と、アフイン変換の各パラメータは、
Figure 0003790253
のように表される。
この結果を式(15)から(18)までの不変特徴量を表す式に代入すれれば、
Figure 0003790253
となる。式を見てわかるように、これらのパラメータは、観察者の動き、深さ、表面の向きに依存している。これを、2つのベクトルAとFを使って、座標系に依存しないように書き換えることができる。Aは、下の式のような、深さλで正規化された、画像平面に平行な並進速度ベクトルである。Uは並進運動ベクトル、Qは視線方向の単位ベクトルである。
Figure 0003790253
Fは、やはり深さλで正規化した、物体表面の最大勾配の方向を示す2次元ベクトルである。
Figure 0003790253
このFは、図8にあるように、大きさが、物体表面の傾斜σのtangent(視線方向と物体表面の法線のなす角のtangent)を表す。またFの方向は、tangent平面とx軸とのなす角τを表す。
Figure 0003790253
以上のような性質を持つ、ベクトルAとFを使って、上記の不変特徴量の表現を書き換えると、
Figure 0003790253
と表される。画像変形の主軸を示す角μは、AとFの中点を通る角度で表される。
Figure 0003790253
この式(34)から式(37)を使って得られる情報は、中心投影をweak-perspective投影で近似したため、曖昧性を含んだものになっている。例えば、物体の運動速度は、近くを運動している小さな物体と遠くを運動している大きな物体との判別ができなく、大きさと速度の曖昧性があるので、速度の代わりに、現在の運動速度で運動した時に物体に衝突するまでの距離tc
Figure 0003790253
で表すことになる。式(36)は近くにある彫りの浅い物体か、遠くにある彫りの深い物体かの判別ができなく、深さの曖昧性を含んでおり、この式の値からは、画像の変形が、大きく動いた(|A|が大きい)表面の傾きの小さい(|F|が小さい)物体か、小さく動いた表面の傾きの大きい物体かの区別はできなくなっている。このように曖昧性が存在する部分を明らかにしておくことにより、残りの必要な情報をノイズの影響を受けずに精度良く求めることができる。
次に、アフィンフロー解析部3で行なっている処理を図9のフローチャートに従って説明する。
まず、入力した4つの特徴点から3点を抽出して組み合わせたときに、3点を結んで構成される領域の面積が最大となる3つの特徴点を選び、選んだ3点を参照点、残りの1点を基準点とする(ステップST101)。
3つの参照点の運動速度を代入して式(14)を解き、一次近似したアフィン変換パラメータu0,v0,ux,uy,vx,vyを求める。物体の運動が小さくて滑らかな場合には、参照点の3フレーム以上の画像での位置情報を使って最小2乗法を使ってアフイン変換パラメータを求める(ステップST102)。
次に、基準点とアフイン変換で補間した仮想点の運動速度の仮想視差を求める。物体がカメラから十分遠く、視線方向の並進運動U3が大きくないと仮定できるときには、この仮想視差の方向が、Aの方向θAを表わす。そうでないときには、複数の点の仮想視差を式(13)を代入してθA=Δu/Δvを求める(ステップST103)。
3つの参照点から式(15),(16),(17)および(18)を使って、curl,div,defの各不変特徴量を求める。これらの不変特徴量は、物体の並進運動や回転運動によって起きる変化に物体表面の向きと画像平面上での動きによって起きる変化が加わったものである(ステップST104)。
変形の主軸μと並進運動の画像平面への投影θAから、式(37)を使って、参照点の3点で定められる平面の傾きτを求める(ステップST105)。
式(35)から、表面方向と画像平面上での動きの関係による形の伸縮を差し引く。
これまでに判った値を用いて、式(35)からF・A=|defv|cos(τ−θA)を引く。残った成分は、視線方向に沿った物体の動きによる画像のスケールの変化を示し、ここから、衝突までの時間tc が求められる(ステップST106)。
式(34)から表面の方向と画像平面上での動きの影響を差し引く。これまでに判った値を用いて、式(34)からF×A=|defv|sin(τ−θA)を引くと、残った成分は、物体と撮影者間の視線方向の周りの回転によるものだけになる(ステップST107)。
アフィンフロー解析部3は、このようにして、並進運動方向θA、スケールの変化tc、視線方向の周りの回転Ω・U、など、画像情報から安定して計算することのできる観察者の運動パラメータを計算し、ポインティング情報生成部4に出力する(ステップST108)。
先に述べたように、ポインティング情報生成部4は特徴点抽出部2から特徴点座標の時系列データを入力し、そこから適当な2つの時点の特徴点座標を選んでアフィンフロー解析部3で運動パラメータを計算し、3次元の空間を指示するために必要な情報を生成する。以下、フローチャート10に従って、この処理を説明する。
まず、特徴点抽出部2から特徴点座標(補助情報がある場合は、補助情報も)を入力する。入力した特徴点の数をnとし、座標を(xi,yi)とする(ステップST201)。
撮影対象の物体は動いているので、特徴点が他の部分に隠されて見えなくなったり、隠されていた特徴点が出現したりする場合がある。特徴点が4点より少ない場合は何もせず、特徴点が4点以上になった場合は、前回ポインティング情報を生成した時に抽出した特徴点と今回抽出した特徴点の共通集合から、物体上に均等に位置されるような特徴点を4点選択する(ステップST202)。
選択した特徴点について、前回ポインティングに使った時の座標値(lxi,lyi)からの移動距離((xi−lxi)2+(yi−lyi)2)を計算し、この距離を一定の閾値と比較する。特徴の大きさなど、補助情報がある場合には、その値を使って閾値を決める。選んだ特徴点を以前にポインティングに使ったことがなければ、lxi,lyiに、xi,yiを代入する。4点の移動距離で、閾値以上の距離を持つ点が1つでもあれば、以降の処理を行ない、全て閾値以下であれば、ステップST201に戻る(ステップST203)。
このようにして求めた、4点の過去の座標値(lxi,lyi)と現在の座標値(xi,yi)をアフィンフロー解析部3に入力して運動パラメータを計算する(ステップST204)。
アフィンフロー解析部3で計算した運動パラメータは物体が静止し、観察者(カメラ)が運動していると仮定した時のパラメータである。これを、物体の運動を表す値に置き換えると、重心の動きは物体のX,Y方向への並進運動、スケールの変化を表すtcはZ方向への並進運動、Ω・Uは、Z軸周りの回転運動、Aは物体のX軸周りの回転運動とY軸周りの回転運動の比を表す。これらパラメータそれぞれについて、閾値と比較し、閾値より大きな動きがあれば、そのパラメータの示す物体の運動を一定の大きさだけ起こすようなポインティングイベントを発生する(ステップST205)。その際、画面上に見るポインタの動きと、人間が、自分の手や、ポインティングに利用する器具を見た時の運動の方向を一致させるようにポインティングイベントでの運動方向の符合を決める。
ここで発生したポインティングイベントは、ポインタ表示部8およびジェスチャパタンマッチング部6に送られる。アフィンフロー解析部3で求めた運動パラメータは、中心投影を仮定しないと計算できないパラメータは深さλを使った相対的な表現をしているが、ポインティング情報生成部4では物体の絶対的な動きを必要とする時のために、中心投影の方程式(11)にλを使って相対値で表現したパラメータを代入して位置と姿勢を計算し、この情報もポインタ表示部6に出力する(ステップST206)。
ポインタ表示部8は、後で述べるステータス切替部5からの指示によって、ポインタモデル記憶部12に記憶されている。例えば図11のように容易に3次元的に向きのわかるポインタの3Dモデルか、3Dモデル記憶部9に記憶されているモデルのうち、ステータス切替部5によって指定された3Dモデルかを選択し、選択した3Dモデルの現在の位置と姿勢から、入力したポインティングイベントに従って並進、回転運動させたグラフィクス画像情報を生成し、出力する。
ポインタモデル記憶部12には、前述したようにポインタの3Dモデルと現在の位置と姿勢が記憶されており、3Dモデル記憶部9には、現在、画像に表示されている3Dモデルとモデルの位置と姿勢が記憶されている。
ジェスチャパタンマッチング部6では、ポインティング情報生成部4から入力した最新のポインティングイベントの時系列のリストで、ユーザからのキーボード入力などで途切れていないパタンと、ジェスチャパタン記憶部7に記憶されたジェスチャパタンとを比較して、ユーザによるポインタの操作が、あらかじめ登録された何かの意味を持った動きかどうかを判定する。合致したジェスチャパタンがあれば、そのパタンと一緒に記憶されているオペレーションを実行する。
ジェスチャパタン記憶部7の中では、ジェスチャパタンは、図12に示すようなリスト構造の並んだ表で記憶されている。1つのジェスチャは、ジェスチャのパタンと、それが起きた時に呼び出されるオペレーションを示す文字列から構成されている。1つのジェスチャパタンは、ポインティングイベントのリストで表現されており、1つのポインティングイベントは並進運動{U1,U2,U3}と、回転運動{Ω1,Ω2,Ω3}の6つのパラメータについて、正負の方向への運動があることを示す+か−、あるいは運動がないことを示す0の3種類のシンボルで表されている。図12で、ジェスチャパタンのリストにリストの次の要素を示す2つのsucessorがあり、自分で閉ループを構成しているものがあるが、これは、この閉ループで同じポインティングイベントの繰り返しを許容する仕組みである。sucessorの横の変数nは4つの閉ループがみな同じ回数だけ繰り返すことを示す。図12の例では、ジェスチャパタンは、xy平面上での任意の大きさの正方形を示し、このジェスチャによって/usr/bin/X11/ktというオペレーションが起動されることを示している。
ステータス切替部5は、ディスプレイに表示された3次元空間内を自由にポインタを動かして操作する、ポインタ操作状態か、表示されたモデルのうちの一つをポインタによって指定した後、モデルの位置や姿勢を変更するモデル把握状態の、どちらかの現在のポインタの状態を記憶し、また、ユーザからの指示か、ポインタ表示部からの指示によって、ポインタの状態を切替え、それにともなって他の部分の設定変更を行なう。
ポインタ操作状態の時には、ポインタ表示部8に、ポインタモデル記憶部に記憶されたモデルを使うように指示し、発生したポインティングイベントに従ってポインタモデルの位置と姿勢を変更する。ポインティングイベントはジェスチャパタンマッチング部にも入力され、ジェスチャの認識が行なわれ、イベント列にジェスチャが含まれると認識されれば、そのジェスチャに対応したオペレーションが実行される。ユーザのキーボード入力やジェスチャなどによる指示か、ポインタの3次元位置が3Dモデル記憶部に記憶してある3Dモデルの1つの位置と一致した時に、ポインタの状態はモデル把握状態に切り替わる。
モデル把握状態では、3Dモデル記憶部9に記憶されたモデルを位置姿勢を変更させて表示する。まず、モデル把握状態に入ると、指示された3Dモデルを3Dモデル記憶部9から取り出して、ポインタ表示部8に送り、これを他のモデルと区別できるよう色などを変えて表示するように指示する。次に、画像合成部10に、モデルの位置や形などを入力して、3Dモデルの画像情報と入力した画像情報から、手でモデルを掴んでいたり、ポインティング用の器具に3Dモデルがはめ込まれていたりするように見える画像を合成し、画像表示部11で表示する。モデルの移動や回転には、ポインタ操作状態とは異なり、ポインティングイベントではなく、中心投影に当てはめて計算した位置や姿勢の情報を用いる。
画像合成部10では、まず、画像入力部1から入力した画像情報から特徴点を囲む閉領域を切り出すことによって、手や器具の写っている部分を取り出す。次に、手や器具の運動が、実際の運動と画像上での運動の方向がユーザから見て一致するように、取り出した画像の左右を反転する。入力した3Dモデルの位置や形などの情報と特徴点の座標を元に、手や器具の画像に平行移動、スケールの変更などの処理を行なって、特徴点の位置を3Dモデルのグラフィクス画像の頂点などに合わせる。その後、モデルのグラフィクス画像と手や器具の画像を半透明で重ね表示を行なって、図13のように、モデルを掴んでいるように見える画像を合成し、画像表示部11に出力する。
図14を参照して本発明の他の実施例を説明する。
動画像入力部21は、カメラ(観察者)が3次元空間内を未知の運動をしながら画像を撮影し、撮影した動画像に対応する画像情報を特徴点抽出部22に転送する。この動画像入力部21が撮影している撮影環境は、基本的に静止環境であるが、運動物体が含まれていても構わない。
特徴点抽出部22は、動画像入力部21からの時系列画像情報を受け、画像処理によって、明度や色が近傍の領域と急激に変化し、2枚の画像で物体の同一の点が投影されたと特定できる多数の特徴点を抽出し、抽出した特徴点を並進フロー計算部23に入力する。
並進フロー計算部23は、入力された特徴点のそれぞれの座標を比較し、最近傍の4点を結んだネットワークを構成し、最近傍の4点の組合わせの全てに対してアフィンフロー解析部3が行う処理と同様な処理を行なって、仮想視差を求め、観察者の運動パラメータを計算する。計算した運動パラメータのうち、並進運動方向θAを見ると、この値は、カメラが撮影環境に対して並進運動し得ている方向を示すものであるから、動画像入力部21が撮影した画像が静止環境であれば、どの4点の特徴点の組合わせを取っても同じ値を示している。実際には、中心投影を狭い視野範囲に限定してアフィン変換で近似しているので、互いに近傍にある特徴点の組合わせで同じ値を示す。従って、画像全体に分布する特徴点の組合わせから並進運動方向θAだけを抜き出して、図15のような分布図を作成し、出力する。尚、図15の矢印は、2つの物体の各々の複数の点の動きを示している。
独立運動分割部24は、並進フロー計算部23で計算した並進運動方向のフロー図において、近傍にある特徴点の組合わせの並進運動方向θAを比較し、その差が一定閾値より大きいところで領域分割を行なう。これによって、図15の実線で囲まれた領域のように、動いている背景画像の中から、異なる動きをしている物体を示す領域を取り出すことができる。この後、異なる動きをしている領域を取り除き、残った、背景画像を示す領域からθA以外の運動パラメータも計算し、カメラの運動を求めて出力する。
図16を参照して本発明に係る他の実施例を説明する。
画像入力部31は、1つの物体を複数の方向から撮影した画像に対応する画像情報を入力する。ここで入力する画像情報の画像は、時間的に連続していなくても構わない。また、物体を撮影した時の観察者の位置関係も不明である。
特徴点抽出部32は、画像入力部31より入力した画像情報に、各点抽出処理などの画像処理を行ない、明度や色が近傍の領域と急激に変化している多数の特徴点に対応する特徴点情報を抽出し、対応特徴探索部33に出力する。抽出した特徴点情報は、入力した画像情報に重ね合わせて画像表示部36に表示される。
初期対応探索部33は複数の画像間において特徴点情報を比較し、撮影対象となった物体上の同一の点が投影されたものかどうか調べる。まず、特徴点抽出部32から入力した全ての特徴点情報に未対応を示すフラグをつける。次に、画像間において、特徴点を中心とする小領域の相関マッチングを行ない、相関係数が一定閾値より高い特徴点情報同士を対応させ、対応した特徴点情報には、対応したことを示すフラグをつけ、特徴点の集合情報を対応修正部、即ち対応特徴更新部37に出力する。画像表示部36に、対応した特徴点情報を、色を変えるなどして未対応の特徴点情報と区別できるように入力画像情報と重ね合わせて表示し、また、複数の画像情報間においてどの特徴点情報とどの特徴点情報が対応しているかが分かるように表示する。
インタフェイス部34は、初期対応探索部33から対応のついた特徴点を含む特徴点集合情報を入力し、特徴点の対応関係の修正作業を行なう。初期対応探索部32によって作成した対応関係が、十分正確で誤りが少なければ、対応点の修正は行なわずに後で処理を行なうことも可能である。
初期対応探索の結果、画像表示部36に表示している特徴点を重ね表示した入力画像に、マウスなどのポインティングデバイスで制御されたカーソルを表示し、ユーザが特徴点を選択できるようにする。既に対応フラグのついた特徴点を選んだ場合には、その特徴点とそれに対応する特徴点のフラグを未対応につけかえ、対応関係を取り消す。入力した複数の画像情報において未対応フラグのついた特徴点情報を1つづつ連続して選んだ場合には、それらの特徴点情報に対応が確定したことを示すフラグをつけ、それらの特徴点情報間に対応関係を設定する。また、特徴点のない領域でも、複数の画像において、1つづつ連続して選んだ画素があれば、その画素の座標に対応が確定した特徴点を生成して対応関係を設定する。また、画像と特徴点以外に、対応点の更新および物体の構造抽出並びに画像の合成を呼び出すボタンを表示し、ポインティングデバイスによってこれらを選択できるようにしておく。ユーザが対応点の更新ボタンを選んだ場合には、対応特徴更新部37に特徴点の集合情報を渡して、特徴点の対応関係を更新する。物体の構造抽出のボタンを選んだ場合には、構造抽出部に特徴点の集合を渡して、撮影した物体の3次元構造を抽出する。画像の合成のボタンを選んだ場合には、さらに、どこから見た画像を合成するかを質問して、画像を合成する視点までの並進、回転の運動ベクトルを入力し、画像合成部35に入力した画像、特徴点の集合、構造抽出部で抽出した物体の3次元構造、運動ベクトルを渡して、画像を合成し、画像表示部に表示する。
画像表示部36は、複数の入力画像、特徴点、画像から抽出した物体構造の3Dモデル、視線方向を変えて合成した画像などを表示し、そこにカーソルを重ね表示して、画像上の座標や特徴点を指示できるようにする。
対応特徴更新部37は、インタフェイス部34から特徴点の集合情報を受け、新たな基準に従って、未対応の特徴点の対応づけを行なう。まず、入力した特徴点集合情報の中から、対応が確定し、対応フラグのついた特徴点(これを点A0とする)を選択し、特徴点A0の近傍にある未対応フラグのついた特徴点Bを選択する。特徴点A0と対応する、他の画像中の特徴点A0′の近傍にある特徴点B′と特徴点Bを比較し、対応するかどうかを判定する。BとB′の比較は、両方の近傍に、対応のついた特徴点が2点以下しかなければ、初期対応探索と同様に特徴点を中心とする小領域の相関マッチングを行ない、初期対応探索部33で使った閾値より低い閾値で対応するかどうかを判定する。図17のように、BとB′の両方の近傍に対応のついた特徴点が3点以上あれば、画像の変形を考慮したマッチングを行なう。まず、三角形A0,A1,A2を三角形A0′,A1′,A2′に変形するアフィン変換を計算する。Bを中心とする小領域を、計算したアフィン変換で変形し、変形した小領域とB′を中心とする小領域との間で相関マッチングを行ない、近傍に対応済みの点が2点以下しかない場合と同じ閾値で判定する。このようにして見つけた特徴点には、初期対応探索部33と同様に特徴点に対応を示すフラグをつけ、特徴点間を対応関係で結ぶ。この処理を、新たに対応する特徴点がなくなるまで、繰り返してインタフェイス部34に復帰する。
構造抽出部38は、形状が不明の物体を撮影して得られる複数の画像情報とこれらの画像情報間で対応をつけた特徴点の集合情報を受け、これら情報から物体の3次元形状モデルと、物体表面のテクスチャパタンを抽出し、出力する。まず、特徴点の集合情報から近傍にある4点の組合わせを取り出し、その4点にアフィンフロー解析部3による処理を行なって、運動パラメータを計算する。この4点を、図7のように、3角形を構成する3点と、それ以外の1点Pに分けて考える。点P′は一方の画像で点Pと同じ座標にあって、もう一方の画像では、他の3点の移動で表現されるアフィン変換で移動する仮想的な点である。この点P′は、3次元空間では3点で決まる3次元平面上にあって、画像平面には点Pと同じ座標に投影される点を示している。この仮想視差PP′の大きさは、式(12)より、
Figure 0003790253
で表される。但し、Zpは点pの座標、Zp1は点P′のZ座標である。ここに、この4点の近傍にある別の特徴点Qを追加した図18の状況を想定する。点Q′は点P′と同様に、ほかの3点の移動で決まるアフィン変換で移動する仮想的な点であって、やはり3次元空間では3点で決まる3次元平面上の点である。2つの仮想視差PP′とQQ′を考えると、画像中で近傍にあって、また、観察者から物体までの距離が十分遠いことから、この2つの仮想視差の長さの比は、(ZP−ZP′)/(ZQ−ZQ′)となり、これからPとQのある3次元平面に対する深さ方向の座標の比が求められる。この処理を全ての近傍にある特徴点の組合わせに対して行なって、物体の深さ方向の長さが、ある長さλに対する比で表現された、物体の3Dモデルを算出する。この後、あるλに対応する物体の3Dモデルがグラフィクス表示され、ユーザが、この3Dモデルを見ながらλの値を調整するか、3Dモデルの表面で、平面が交差している部分を見つけ、交差角が直角になるように、λの大きさを推定する、などして、完全な物体の3Dモデルが計算される。また、λの大きさが計算されると、式(31)より、画像上で、近傍にある3点の特徴点で囲まれた3角形の物体表面の勾配が求められ、これから、物体表面のテクスチャ情報も取り出すことができる。
構造抽出部38は、このようにして計算した物体の3Dモデルとテクスチャ情報を出力する。
画像合成部35は、入力した物体の3次元構造と視点までの運動ベクトルを使って、入力画像を変形し、新たな視点から物体を見た時の画像を合成する。観察者が動いた時の画像の変形は、式(34)から式(36)によって、観察者の並進運動ベクトルと回転運動ベクトル、物体表面の勾配と、画像平面上の並進運動で表現される。観察者の運動と画像平面上での並進運動は、視点までの運動ベクトルから計算され、物体表面の勾配は、物体の3次元構造から得られるので、これから、視点を変更したことによる、画像の変形を表現するアフィン変換行列を計算することができる。まず、入力画像において対象物体が写っている領域を、領域内にある特徴点を結んだ直線で区切られた3角パッチに分割する。各3角パッチの画像に対して、上記のアフィン変換を適用して、新たな3角パッチ画像を作成する。作成したパッチ画像をつなぎ合わせたものが新たな視線方向から見た時の物体の画像であり、これを画像表示部に表示する。
本発明の一実施例であり、CADシステムでのモデルの操作などのヒューマンインタフェイスに用いる動画像処理装置のブロック図。 ポインティングに用いる第1の例の器具の図。 ポインティングに用いる第2の例の器具の図。 ポインティングに用いる第3の例の器具の図。 中心投影による撮像形での3次元座標と画像座標の関係を示す図。 画像から抽出できる不変特徴量を示す図。 運動視差を説明する図。 物体表面の傾斜の表現方法を説明する図。 アフィンフロー解析部の動作を説明するフローチャート図。 ポインティング情報生成部の動作を説明するフローチャート図。 ポインタの3D(3次元)モデルを示す図。 ジェスチャパタン記憶部に記憶されたジェスチャパタンのデータ構造を示す図。 3Dモデルと入力した画像の一部を重ね合わせて合成した画像を示す図。 本発明の他の実施例であり、独立下運動を弁別するシステムのブロック図。 並進運動方向の分布図。 本発明の他の実施例であり、複数画像から3Dモデルを獲得し、物体を他の方向から見た時の画像を合成するシステムに適用した動画像処理装置の構成図。 アフィン変換による画像変形を考慮したマッチングを示す図。 2つの仮想視差の関係を示す図。
符号の説明
1…画像入力部、2…特徴点抽出部、3…アフィンフロー解析部、4…ポインティング情報生成部、5…ステータス切替部、6…ジェスチャパタンマッチング部、7…ジェスチャパタン記憶部、8…ポインタ表示部、9…3Dモデル記憶部、10…画像合成部、11…画像表示部、12…ポインタモデル記憶部、21…動画像入力部、22…特徴点抽出部、23…並進フロー計算部、24…独立運動分割部、31…画像入力部、32…特徴点抽出部、33…初期対応探索部、34…インタフェイス部、35…画像合成部、36…画像表示部、37…対応特徴更新部、38…構造抽出部

Claims (2)

  1. 複数の画像に対応する時系列画像情報を入力する画像入力手段と、複数の画像の各々から特徴点を抽出するため前記画像情報に特徴点抽出処理を行う特徴点抽出手段と、特徴点情報を受け、画像間における少なくとも3点の特徴点の位置の変化から画像間でのアフィン変形を推定するアフィン変形推定手段と、画像間における前記アフィン変形推定手段で用いた特徴点とは異なる特徴点の位置の変化と前記アフィン変形推定手段により推定したアフィン変形を適用したことによる位置の変化とを比較する仮想視差計算手段と、前記アフィン変形推定手段により推定したアフィン変形情報と前記仮想視差計算手段で計算した仮想視差情報とから複数の画像間での画像を撮像した観測側の運動情報を推定する運動情報推定手段と、前記画像情報から物体の三次元形状モデルを抽出する構造抽出手段と、前記運動情報及び前記三次元形状モデルを用いて前記画像を変形し、新たな視点から物体を見たときの画像を合成する画像合成手段とを具備する画像処理装置。
  2. 複数の画像に対応する時系列画像情報を入力するステップと、複数の画像の各々から特徴点を抽出するため前記画像情報に特徴点抽出処理を行うステップと、特徴点情報を受け、画像間における少なくとも3点の特徴点の位置の変化から画像間でのアフィン変形を推定するステップと、画像間における前記アフィン変形推定ステップで用いた特徴点とは異なる特徴点の位置の変化と前記アフィン変形推定ステップにより推定したアフィン変形を適用したことによる位置の変化とを比較して仮想視差を計算するステップと、前記アフィン変形推定ステップにより推定したアフィン変形情報と前記仮想視差計算ステップで計算した仮想視差情報とから複数の画像間での画像を撮像した観測側の運動情報を推定するステップと、前記画像情報から物体の三次元形状モデルを抽出するステップと、前記運動情報及び前記三次元形状モデルを用いて前記画像を変形し、新たな視点から物体を見たときの画像を合成するステップとを含む画像処理方法。
JP2004324365A 2004-11-08 2004-11-08 動画像処理装置 Expired - Fee Related JP3790253B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004324365A JP3790253B2 (ja) 2004-11-08 2004-11-08 動画像処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004324365A JP3790253B2 (ja) 2004-11-08 2004-11-08 動画像処理装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2001280637A Division JP3668168B2 (ja) 2001-09-14 2001-09-14 動画像処理装置

Publications (2)

Publication Number Publication Date
JP2005050384A JP2005050384A (ja) 2005-02-24
JP3790253B2 true JP3790253B2 (ja) 2006-06-28

Family

ID=34270423

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004324365A Expired - Fee Related JP3790253B2 (ja) 2004-11-08 2004-11-08 動画像処理装置

Country Status (1)

Country Link
JP (1) JP3790253B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018185702A (ja) * 2017-04-27 2018-11-22 キヤノンマーケティングジャパン株式会社 情報処理装置、その制御方法とプログラム

Also Published As

Publication number Publication date
JP2005050384A (ja) 2005-02-24

Similar Documents

Publication Publication Date Title
JP3244798B2 (ja) 動画像処理装置
CN104937635B (zh) 基于模型的多假设目标追踪器
US11222471B2 (en) Implementing three-dimensional augmented reality in smart glasses based on two-dimensional data
JP5422735B2 (ja) 可変姿勢を含む画像シーケンスのリアルタイム利用可能なコンピュータ支援分析方法
US11948376B2 (en) Method, system, and device of generating a reduced-size volumetric dataset
JP4148281B2 (ja) モーションキャプチャ装置及びモーションキャプチャ方法、並びにモーションキャプチャプログラム
CN109840940B (zh) 动态三维重建方法、装置、设备、介质和系统
JP4202479B2 (ja) 三次元動作復元システム
Dorfmüller-Ulhaas Robust optical user motion tracking using a kalman filter
JP5526465B2 (ja) 爪位置データ検出装置及び爪位置データ検出方法、並びに爪位置データ検出プログラム
Leizea et al. Real-time deformation, registration and tracking of solids based on physical simulation
JP4938748B2 (ja) 画像認識装置及びプログラム
JP2010211732A (ja) 物体認識装置および方法
Zou et al. Automatic reconstruction of 3D human motion pose from uncalibrated monocular video sequences based on markerless human motion tracking
KR101746648B1 (ko) 3차원 객체 표현을 위한 마커리스 증강현실장치 및 방법
JP3668168B2 (ja) 動画像処理装置
JP3790253B2 (ja) 動画像処理装置
JP2005063463A (ja) 動画像処理装置
KR102239957B1 (ko) 가상 관절 구(sphere)를 이용한 모션 모델링 방법 및 그 장치
JP2019046096A (ja) 情報処理装置及びその方法
CN114546125B (zh) 键盘跟踪方法及跟踪系统
WO2023054661A1 (ja) 注視位置分析システム及び注視位置分析方法
US11508121B2 (en) Method for annotating points on a hand image to create training dataset for machine learning
Schacter Multi-camera active-vision system reconfiguration for deformable object motion capture
JP2023090485A (ja) カメラ校正装置およびそのプログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050927

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051128

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060328

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060330

LAPS Cancellation because of no payment of annual fees