本発明のある一実施形態は、動画像中の移動体の全部又は一部を構成する小領域の移動軌跡を算出する移動軌跡算出方法であって、動画像を構成する時間的に連続した複数枚の画像を受け付ける画像受付ステップと、前記画像受付ステップにおいて受け付けられた各画像について、互いに階層の異なる空間的に大きいサイズの小領域が空間的に小さいサイズの小領域を包含するように、階層的に領域分割を行うことにより、複数の階層において小領域を生成する階層小領域生成ステップと、ある画像における小領域に最も類似する小領域を前記ある画像とは異なる画像において、複数の階層をまたがって、かつ1枚以上の画像にわたって探索することにより、前記ある画像における前記小領域の前記動画像中での移動軌跡を代表移動軌跡として算出する代表移動軌跡算出ステップとを含む。
この構成によると、階層をまたがって小領域の探索が行われる。このため、形状の違いやサイズの違いを吸収しやすくなるため、より探索精度を向上させることができる。特に、形状が変化しながら移動する人物等の被写体や一様なテクスチャを含む被写体に対しても正確に移動軌跡を算出することが可能である。
好ましくは、上記移動軌跡算出方法は、さらに、前記画像を構成する1個以上の画素からなるブロックごとに、前記複数枚の画像間の動きを解析することにより、当該ブロックの前記動画像中での移動軌跡を生成する動き解析ステップを含み、前記代表移動軌跡算出ステップでは、前記ある画像における前記小領域を当該小領域に含まれるブロックの移動軌跡に従い移動させることにより、前記ある画像とは異なる画像において予測される小領域である予測小領域を生成し、当該予測小領域に最も類似する小領域を、前記ある画像とは異なる画像において、複数の階層をまたがって、かつ1枚以上の画像にわたって探索することにより、前記ある画像における前記小領域の前記動画像中での移動軌跡を前記代表移動軌跡として算出する。
この構成によると、各小領域に属する移動軌跡から次時刻における予測小領域を生成することにより、小領域の変形に対しても頑健に移動軌跡を算出することが可能である。
さらに好ましくは、前記代表移動軌跡算出ステップでは、前記階層小領域生成ステップにおいて生成された小領域ごとに、当該小領域に含まれる移動軌跡を平滑化し、当該小領域と当該小領域に含まれる平滑化後の移動軌跡に基づいて、前記代表移動軌跡を算出する。
この構成によると、小領域ごとに移動軌跡を補正することによって、領域ごとにコヒーレント(首尾一貫し)かつコンシステントな(矛盾が無い)移動軌跡を算出することが可能である。
さらに好ましくは、前記代表移動軌跡算出ステップでは、前記小領域の形状情報および画素値の少なくともいずれか一つを含む尺度を用いて、小領域同士の類似性を判断することにより、前記小領域の探索を行う。
この構成によると、形状情報および画素値の少なくともいずれか一つを含む尺度により、移動軌跡を算出することが可能になる。
また、前記代表移動軌跡算出ステップでは、前記ある画像における小領域および前記ある画像とは異なる画像における小領域をノードとし、前記ある画像における小領域を示すノードと前記ある画像とは異なる画像における小領域を示すノードとをエッジにより接続し、エッジにより接続された小領域間の類似度が大きいほど小さな値をとる値をエッジの重みとするグラフを想定し、当該グラフに対して、Dynamic Programingを適用して前記グラフの最適なパスを生成することにより、前記代表移動軌跡を算出してもよい。
この構成によると、上記したようなグラフを想定し、Dynamic Programingを用いて最適なパスを求めることにより、比較的長い時間における代表移動軌跡を全体最適の観点から的確に求めることができる。特に、3フレーム以上の代表移動軌跡を求める場合に、全フレームの情報から最適な代表移動軌跡を算出することができる。
好ましくは、前記階層小領域生成ステップでは、輪郭情報を含む特徴量に基づいて、前記複数の階層において前記小領域を生成する。
この構成によると、輪郭情報を含む特徴量を用いることで、色や明るさの変動の影響を受けにくく、影等の影響を排除した小領域生成が可能となり、結果として高精度な移動軌跡を算出することができる。
本発明の他の一実施形態は、動画像を移動する物体ごとに分割する領域分割方法であって、上述の移動軌跡算出方法に含まれるステップと、前記代表移動軌跡が類似する小領域同士を統合することにより、前記動画像を領域分割する領域分割ステップとを含む。
この構成によると、算出した移動軌跡と小領域を用いて、領域分割を行うことができる。このため、被写体が変形する場合においてもより高精度に領域分割を行うことが可能である。
好ましくは、前記領域分割ステップでは、前記代表移動軌跡間の距離を、閾値よりも小さい距離を連結することにより測地距離に変換し、得られた測地距離の不連続点を検出し、検出した不連続点における測地距離よりも小さい測地距離だけ離れた移動軌跡を一つのクラスとすることによって前記領域分割を行う。
この構成によると、不連続点における測地距離よりも小さい測地距離だけ離れた移動軌跡どうしが一つのクラスとなる。このため、直線的な距離であるユークリッド距離を用いたクラスタリングに比べ、移動軌跡間の類似性に関して、時空間的な連続性を考慮したクラスタリングが行われる。そのため、ピクチャにおける各ブロックが同一の物体(又は部位)に属するか別個の物体(又は部位)に属するかが確実に弁別される。その結果、動きの異なる複数の部位からなる人物等の多関節物体を移動体として検出する場合であっても、正確な領域分割が行われ、移動体が確実に検出される。つまり、形状が変化しながら移動する人物等の移動体に対しても正しく領域分割し、これによって画像中の移動体を確実に検出することが可能である。
また、前記領域分割ステップでは、統合対象の複数の小領域に対応する複数の代表移動軌跡と前記統合対象の複数の小領域に隣接する少なくとも1つの小領域の代表移動軌跡とに基づいて、前記統合対象の前記複数の小領域を統合するか否かを判断してもよい。
この構成によると、統合対象の複数の小領域のみならず、隣接する小領域をも考慮することによって、隣接する小領域を考慮しながら領域分割ができる。このため、より画像の構造を反映することができ、画像中の被写体の大きさの違い等の影響を受けにくい領域分割ができるといった効果がある。
好ましくは、前記領域分割ステップでは、前記代表移動軌跡をノードとし、前記代表移動軌跡同士がエッジにより接続され、前記エッジにより接続された代表移動軌跡間の距離をエッジの重みとするグラフから、Minimum Spanning Treeを計算し、前記Minimum Spannning Treeにおける接続関係に基づいて、前記領域分割を行う。
Minimum Spanning Treeを用いた限定された接続関係で代表移動軌跡を表現することによって、より少ない計算量で領域分割を行うことができる。
さらに好ましくは、前記領域分割ステップでは、前記Minimum Spannning Treeにおいて、1つのエッジにより直接接続される関係にある代表移動軌跡のペアを統合するか否かを、当該ペアと当該ペアに隣接される少なくとも1つの代表移動軌跡とを接続する複数のエッジの重みに基づいて判断することにより、前記領域分割を行う。
この構成によると、近傍を含めたペアワイズ型のクラスタリングを行うことで、手と足の関係も含めた部位間の関係を考慮することができる。そのため、人物のような多関節物体に対しても正確に領域分割できるという利点がある。又、空間的に離れた場所の関係も考慮されるため、画像中の被写体の大きさの変化や違い等の影響を受けにくい領域分割を行うことができる。
本発明のさらに他の一実施形態は、動画像中の移動体の全部又は一部を構成する小領域の移動軌跡を算出する移動軌跡算出装置であって、動画像を構成する時間的に連続した複数枚の画像を受け付ける画像受付部と、前記画像受付部において受け付けられた各画像について、互いに階層の異なる空間的に大きいサイズの小領域が空間的に小さいサイズの小領域を包含するように、階層的に領域分割を行うことにより、複数の階層において小領域を生成する階層小領域生成部と、ある画像における小領域に最も類似する小領域を前記ある画像とは異なる画像において、複数の階層をまたがって、かつ1枚以上の画像にわたって探索することにより、前記ある画像における前記小領域の前記動画像中での移動軌跡を代表移動軌跡として算出する代表移動軌跡算出部とを備える。
本発明のさらに他の一実施形態は、動画像中の移動体の全部又は一部を構成する小領域の移動軌跡を算出するためのプログラムであって、動画像を構成する時間的に連続した複数枚の画像を受け付ける画像受付ステップと、前記画像受付ステップにおいて受け付けられた各画像について、互いに階層の異なる空間的に大きいサイズの小領域が空間的に小さいサイズの小領域を包含するように、階層的に領域分割を行うことにより、複数の階層において小領域を生成する階層小領域生成ステップと、ある画像における小領域に最も類似する小領域を前記ある画像とは異なる画像において、複数の階層をまたがって、かつ1枚以上の画像にわたって探索することにより、前記ある画像における前記小領域の前記動画像中での移動軌跡を代表移動軌跡として算出する代表移動軌跡算出ステップとをコンピュータに実行させる。
本発明のさらに他の一実施形態は、動画像を移動する物体ごとに分割する領域分割装置であって、上述の代表移動軌跡算出装置と、前記代表移動軌跡が類似する小領域同士を統合することにより、前記動画像を領域分割する領域分割部1101とを備える。
本発明のさらに他の一実施形態は、動画像を移動する物体ごとに分割するためのプログラムであって、上述の移動軌跡算出方法に含まれるステップと、前記代表移動軌跡が類似する小領域同士を統合することにより、前記動画像を領域分割する領域分割ステップとをコンピュータに実行させる。
以下、本発明の実施の形態について、図面を用いて説明する。
(実施の形態1)
図1は、実施の形態1における移動軌跡算出装置の構成を示す図である。図1の移動軌跡算出装置は、形状が変化しながら移動する人物等の被写体や一様なテクスチャを含む被写体に対しても正確に移動軌跡を算出する装置であり、画像受付部101、動き解析部102、階層小領域生成部103、代表移動軌跡算出部104、出力部105を備える。なお、本発明の必須の構成要素は、画像受付部101、階層小領域生成部103および代表移動軌跡算出部104であり、動き解析部102、出力部105は、移動軌跡算出装置に備えられていなくてもよい。
画像受付部101は、動画像を構成する時間的に連続した複数枚の画像の入力を受け付ける。画像受付部101は、例えば、ビデオカメラ、あるいは、ビデオカメラと接続された通信インターフェース等である。
動き解析部102は、画像受付部101で受け付けられた画像を構成する1個以上の画素からなるブロックごとに、複数枚の画像間の動きを解析することにより、当該ブロックの動画像中での移動軌跡を生成する。つまり、動き解析部102は、画像受付部101で受け付けた画像から、時間的に異なる少なくとも2枚の画像を用いてブロックの動きを算出する。動き解析部102は、時間的に連続した複数枚の画像に対して、算出した前記ブロックの動きに基づいてブロックの移動を追跡することによって、画素の移動軌跡を算出する。
階層小領域生成部103は、画像受付部101において受け付けられた各画像について、互いに階層の異なる空間的に大きいサイズの小領域が空間的に小さいサイズの小領域を包含するように、階層的に領域分割を行うことにより、複数の階層において小領域を生成する。階層小領域生成部103は、画像受付部101で得た画像について、特には輪郭情報を含む特徴量を用いて少領域への分割を行う。階層小領域生成部103は、空間的に粗い小領域から詳細な小領域までの分割を階層的に行う。本実施の形態では、空間的に粗い(空間的に大きいサイズの)小領域が空間的に細かい(空間的に小さいサイズの)小領域を包含することを特徴とする。
代表移動軌跡算出部104は、ある画像における小領域に最も類似する小領域をある画像とは異なる画像において、複数の階層をまたがって、かつ1枚以上の画像にわたって探索することにより、ある画像における小領域の動画像中での移動軌跡を代表移動軌跡として算出する。この処理により、代表移動軌跡算出部104は、各小領域を代表する移動軌跡を算出する。より具体的には、代表移動軌跡算出部104は、ある画像における小領域を当該小領域に含まれるブロックの移動軌跡に従い移動させることにより、ある画像とは異なる画像において予測される小領域である予測小領域を生成し、当該予測小領域に最も類似する小領域を、ある画像とは異なる画像において、複数の階層をまたがって、かつ1枚以上の画像にわたって探索することにより、ある画像における小領域の動画像中での移動軌跡を代表移動軌跡として算出する。ここでは、小領域ごとに移動軌跡を用いて予測小領域(テンプレート)を生成することで、小領域の変形に対応可能であるという効果がある。さらに、階層をまたがって空間的な探索を行うことで、一様なテクスチャ等の領域においても正確に移動軌跡を算出できるという効果がある。なお、代表移動軌跡算出部104は、小領域の形状情報および画素値の少なくともいずれか一つを含む尺度を用いて、小領域同士の類似性を判断することにより、小領域の探索を行う。
出力部105は、各小領域を代表する移動軌跡をモニタ(ディスプレイ)等に出力する。本実施の形態では、各小領域とその移動軌跡とから、時空間における領域分割結果として結果を出力することも可能である。
なお、この移動軌跡算出装置を構成する各構成要素(画像受付部101、動き解析部102、階層小領域生成部103、代表移動軌跡算出部104、出力部105)は、CPU、RAM(Random Access Memory)、ROM(Read Only Memory)、通信インターフェース、I/O(Input/Output)ポート、ハードディスク、ディスプレイ等を備えるコンピュータ上で実行されるプログラム等のソフトウェアで実現されてもよいし、電子回路等のハードウェアで実現されてもよい。他の実施の形態における領域分割装置についても同様である。図2は、ソフトウェアによって実現される本実施の形態における移動軌跡算出装置のハードウェア構成を示す図である。図2において、カメラ201は画像を撮影して出力し、コンピュータ202はカメラ201で撮影された画像を取得して代表移動軌跡算出処理を行って、代表移動軌跡算出結果を表示するための画像を生成する。ディスプレイ203はコンピュータ202で生成された画像を取得して表示する。コンピュータ202は、I/F(インターフェース)204、CPU205、ROM206、RAM207、HDD(Hard Disk Drive)208、ビデオカード209で構成される。コンピュータ202を動作させるプログラムは、ROM206またはHDD208にあらかじめ保持されている。プログラムは、プロセッサであるCPU205によって、ROM206またはHDD208から読み出されて、RAM207に展開される。CPU205はRAM207に展開されたプログラム中のコード化された各命令を実行する。プログラム実行時の中間処理データは、RAM207またはHDD208に一時的に記憶される。I/F204は、プログラムの実行に応じて、カメラ201で撮影された画像を、RAM207へ取り込む。ビデオカード209は、プログラムの実行に応じて生成された画像を出力し、出力された画像は、ディスプレイ203で表示される。
なお、コンピュータプログラムは、半導体であるROM206またはHDD208に限られず、たとえば不揮発性の記録媒体である光ディスク等に格納されていてもよい。また、有線や無線のネットワーク、放送などを介して伝送され、コンピュータのRAM207に取り込まれてもよい。
以下に、本発明の実施の形態1による代表移動軌跡算出装置の動作について、図3のフローチャートを用いて説明する。ここでは形状が変化しながら移動する人物等の被写体または一様なテクスチャを含む被写体が含まれる複数の画像を入力として受け付け、代表移動軌跡を算出する例について詳細に説明する。
画像受付部101は、T枚(T≧2)の入力画像を受け付ける(ステップS301)。
動き解析部102は、入力されたT枚の画像間の動き情報を算出し、移動軌跡を生成して出力する(ステップS302)。T枚の画像間の動きを算出する手法として、ここではT枚の画像のうちのある1枚の画像上のI点の画素を基準に、他のT−1枚の画像中の対応する画素を探索する。
なお、画像間の動きを算出する手法として、I点の画素の代わりに、I個の小矩形領域(ブロック)を基準にしてもよい。例えば、図4に示すように、時刻tと時刻t+1に撮影された入力画像401を用いて、時刻tの画像上の画素iの画素座標(xt i,yt i)(i=1…I)に対応する、時刻t+1の画像上の画素座標(xt+1 i,yt+1 i)を推定する。この時、時刻tにおける小矩形領域402(ブロック)を時刻t+1の画像上でスキャンを行い(破線矢印)、時刻tにおける小矩形領域内の画素値と時刻t+1における小矩形領域内の画素値との差の総和が最も小さい時の画素座標(実線矢印)を対応する画素として推定する。画素座標は、ブロックの中心位置を示す画素座標を用いればよい。ここで、スキャンする範囲は予め決定しておいても構わない。また、差の計算については、比較するブロック内の画素値の違いを示すものであれば何を用いてもよく、時刻tにおける小矩形領域内の画素値と時刻t+1における小矩形領域内の画素値との平均2乗誤差を用いてもよいし、メディアン値等のアウトライア(外れ値)の影響を受けにくい尺度を用いてもよい。画像が3枚以上ある場合は、順次対応する座標を求めていくことで、入力したT枚の画像のI点の対応点を算出する。
上記した複数の画像間の対応点を算出する他の具体的な手法としては、非特許文献1、3、4などに開示されている方法を用いてもよい。画像間の対応点を算出する具体的な手法については、これらの非特許文献を参照により援用することにより、その詳細な説明はここでは繰り返さない。
ステップS302では、動き解析部102は、例えば、ステップS301にてT枚の画像が入力されたと仮定すると、時刻tと時刻t+1に撮影された2枚の画像を用いて、画素iの動きベクトル(ut i,vt i)を推定する。ここで、2枚の画像は必ずしも時間的に連続している必要はなく、例えば、時刻tと時刻t+nに入力された画像を用いて画素の動きを求めてもよい。ただし、nは1以上の整数である。
なお、動き解析部102は、画素の動きとして、前記動きベクトルの代わりに、アフィンパラメータを推定して、動き情報として用いてもよい。この時、動き解析部102は、すべての画素について動き情報を求めてもよい。また、より高速に処理を行いたい場合には、動き解析部102は、画像をグリッドに区切って一定間隔のグリッド上の画素についてのみ動き情報を求めてもよいし、上述したように、画像をブロックに区切ってブロックごとに動き情報を求めてもよい。さらに、非特許文献1に開示されている方法を用いて動きベクトルを算出する場合は、動き解析部102は、動き情報の信頼度を計算することができるため、信頼度の高い動き情報のみを算出して、動き情報として用いてもよい。また、非特許文献3に開示されている方法を用いて動きベクトルを算出する場合は、動き解析部102は、オクルージョンを推定することができる。そのため、動き解析部102は、オクルードされていない画素の動き情報のみを算出して、動き情報として用いてもよい。
さらに、動き解析部102は、画素の動きを算出する手法として、前記したブロックの並進移動を仮定して動きベクトルを算出する方法の代わりに、ブロックのアフィン変形を仮定して動きベクトルを算出する方法を用いてもよい。アフィン変形を仮定して動きベクトルを算出する方法は、非特許文献2に開示されている方法を用いることができる。非特許文献2の手法は、時刻tと時刻t+1に入力された画像の画素i近傍の動きに相当するアフィンパラメータAt iを推定する。画素iについて、時刻tと時刻t+1における画像上での画素位置xt iとxt+1 iには次の(式1)の関係がある。
この手法は、特に回転運動をする物体に対して、並進移動を仮定して動きベクトル算出する手法を用いる場合よりも、高精度に画素iの動きを推定することができる。
再度、図3を参照して、動き解析部102は、ステップS302で算出した動き情報を用いて、時間的に連続したT枚の画像に対して前記画素の動きから画素iの移動軌跡を算出する(ステップS303)。図5に示すように、時刻tにおける入力画像501の画素i503からステップS302で算出した動き情報502を用いて、画素iの動きを追跡する。この時、画素iが通った時刻tにおける画像上での画素位置(xt i,yt i)を用いて、以下のように画素iの移動軌跡を算出する。つまり、(式2)は、1枚目の画像からT枚目の画像までの画素位置(xt i,yt i)の軌跡を示している。
ここで、Tは移動軌跡の算出に用いた画像の枚数である。
再度、図3を参照して、階層小領域生成部103は、画像受付部101で得た各画像に対して、空間的な分割数(粒度)が異なる複数の領域分割を行うことによって、当該画像を、階層的に小領域に分割する(ステップS304)。階層は、小領域分割の粒度に対応し、粒度が粗い階層では各小領域の空間中での大きさ(サイズ)は相対的に大きくなり、粒度が細かい階層では小領域の空間中での大きさ(サイズ)は相対的に小さくなる。
図6に、ステップS304によって、1枚の入力画像601を階層的に小領域602に分割した結果の例を示す。図6に示すように、ステップS304では、階層小領域生成部103が、階層が上位(粒度が粗い)の小領域602が、階層が下位(粒度が細かい)の小領域602を包含する関係が成り立つように、入力画像601を小領域602へ分割する。なお、逆に、下位の階層の小領域が上位の階層の小領域を包含する関係としてもよい。
階層の数については、あらかじめ決定してもよいし、小領域数の上限から決定してもよい。もちろん、時刻によって階層の数が変化しても構わない。本実施の形態1においては、階層の数は予め決められているものとする。
図7は実際の入力画像の例を示し、図8〜図13は領域分割の結果を粒度が粗い順に示した図である。つまり、図8が最も粒度が粗い(最上位階層の)領域分割結果を示し、図13が最も粒度が細かい(最下位階層の)領域分割結果を示す。これらの領域分割結果からも分かるとおり、上位階層の小領域が下位階層の小領域を包含している。
上述した画像を階層的に小領域に分割する方法は、例えば非特許文献5などにより広く知られた手法であるので、ここでは詳細な説明は繰り返さない。非特許文献5の手法では、輪郭情報を含む特徴量を用いて小領域への分割が行われるため、色や明るさの変動の影響を受けにくく安定に小領域への分割が行われるという効果がある。本実施の形態でも、輪郭情報を含む特徴量を用いて小領域への分割を行ってもよい。
再度、図3を参照して、代表移動軌跡算出部104は、小領域の時間的な変形に適応するために、小領域とそれに属する移動軌跡を用いて、前記小領域の移動先の時刻における予測小領域を生成する(ステップS305)。ここで、予測小領域には、移動元の時刻における小領域に含まれる画素値が用いられる。なお、予測小領域は、後述するマッチング処理(ステップS306)において用いられるが、その際、予測小領域の形状情報を用いてマッチングを行ってもよいし、画素値の情報を用いてマッチングを行ってもよい。
ここでは、予測小領域をテンプレートとして生成する例について述べる。ここで、テンプレートは、あらかじめ決定した階層、またはあらかじめ決定した小領域数の小領域を有する階層から生成するのが望ましい。まず、階層小領域生成部103で分割した小領域と動き解析部102で算出した移動軌跡の中で、各小領域を通る移動軌跡を以下のように表す。小領域を通る移動軌跡とは、小領域に含まれる画素の移動軌跡のことである。
ここで、sc_iは、小領域scに属する移動軌跡iであることを示す。
図14を用いて、ステップS305におけるテンプレートの生成方法について説明する。図14(a)および図14(b)に示されるように、まず、代表移動軌跡算出部104は、小領域701に属する移動軌跡702の移動先の情報から、小領域701とは異なる時刻におけるテンプレート703の形状を求める。ここでは小領域701の次時刻におけるテンプレート生成方法について説明するが、必ずしも次時刻である必要はなく、移動先の情報を用いることができればどの時刻におけるテンプレートを生成してもよい。例えば、小領域701の時刻より前の時刻におけるテンプレートを生成して同様に以下の処理を行ってもよい。より具体的に図14(c)を用いて説明すると、代表移動軌跡算出部104は、時刻tにおける小領域scに属する移動軌跡iから、時刻t+1における移動軌跡705の対応点706の集まりを算出し、その集まりをテンプレート703とする。なお、テンプレート703を構成する各画素の画素値は、移動軌跡705の移動元の画素値、つまり時刻tにおける画素値を用いるものとする。このように、代表移動軌跡算出部104は、毎時刻、移動軌跡の移動先の情報を用いてテンプレート703を更新する。
これにより、テンプレートの形状が時刻によって変化していく。すなわち、予測小領域が時刻によって変化するため、被写体の変形に対応しながら追跡可能であるという効果がある。さらに、移動軌跡を空間的に密に利用すれば、非線形な変形に対しても頑健なテンプレートを生成することができる。図14では、説明のため一つの小領域について説明したが、代表移動軌跡算出部104は、複数またはすべての小領域についてテンプレートを生成する。
再度、図3を参照して、代表移動軌跡算出部104は、互いに異なる時刻における類似した小領域を、階層をまたがって空間的に探索することで、小領域の対応点を求める(ステップS306)。ここでは、説明を容易にするために、異なる時刻における2枚の画像間について、階層をまたがって探索する例について述べる。具体的には、代表移動軌跡算出部104は、ステップS305にて生成した予測小領域を用いて、階層的に生成された時刻t+1における小領域の中から、前記予測小領域との誤差が最小になるような小領域を、階層をまたがりながら探索する。以下、具体例として予測小領域をテンプレートとして用いて、時刻t+1で生成した小領域に分割された画像または小領域の形状とのマッチングを行う例について説明する。
図15を用いて説明すると、代表移動軌跡算出部104は、ステップS305にて生成したテンプレート801を用いて、時刻t+1のそれぞれの小領域802とマッチングを行う。ここでは、一つのテンプレート801に対してすべての階層の小領域802に対してマッチングを行ってもよいし、テンプレート801が属する階層の近傍階層の小領域802に対してのみマッチングを行ってもよい。マッチングは、テンプレート801の画素値と時刻t+1におけるそれぞれの小領域802の画素値との差の総和を計算することで行う。
テンプレート801は、差の総和が最も小さい小領域802と最もマッチングしたことになる。すなわち、差の総和が最も小さいことは、類似度が最も大きいことと同じである。この時、テンプレート801を作成するために用いた時刻tにおける小領域802の重心位置と時刻t+1において最もマッチングした時のテンプレート801の重心位置を対応点とする。この計算を時間方向に繰り返すことで前記対応点から代表移動軌跡を算出することができる。
ここで、空間的なマッチング対象範囲は、時刻tにおけるテンプレート801の位置の周辺等に予め限定しておいても構わないし、ステップS305にてテンプレート801を生成する際に移動軌跡の情報を用いているため、空間的にはマッチングは行わず、階層方向のみのマッチングを行ってもよい。差(類似度)の計算については、テンプレート801と小領域802内の画素値の違いを示すものであれば何を用いてもよく、テンプレート801の画素値と時刻t+1における小領域802の画素値との平均2乗誤差を用いてもよいし、メディアン値等のアウトライアの影響を受けにくい尺度を用いてもよい。また、画素値との差の総和、平均2乗誤差等の尺度に対して、テンプレート801の画素数とマッチング対象の小領域802の画素数の和を用いて正規化を行ってもよい。例えば、テンプレート801の画素数をTnumとし、マッチング対象の小領域802の画素数をRnumとし、テンプレート801とマッチング対象の小領域802との重なり合う画素の画素数をOnumとした場合、差の総和は、以下の(式4)により正規化することが可能である。
正規化した差の総和=差の総和×(Tnum+Rnum)/Onum (式4)
また、画素値の代わりとしてテンプレート801の形状とマッチング対象の小領域802の形状との類似性を尺度としてもよい。例えば、テンプレート801と小領域802とを重ねた時にオーバーラップする画素数をテンプレート801と小領域802の画素数で正規化した値を類似度として用いることができる。そして、最も類似度の高い小領域802が、テンプレート801に最もマッチングすると考えることができる。
さらには、図16に示すように、2枚の画像間で小領域の変形が大きい場合には、階層Aのテンプレート805を用いても、階層Aのマッチング結果807のように類似度が小さくなり、正しくマッチングできない場合も起こりうる。このような場合には、次のような処理を行ってもよい。正しくマッチングができない場合、類似度は小さくなる。そのため、階層Aのテンプレート805を用いてマッチングした結果の類似度が予め定めた値よりも小さい場合には、階層Aより細かい小領域に分割した階層Bにおける小領域のテンプレートを用いてマッチング処理を行う。ここでは、ステップS304で階層が上位(粒度が粗い)の小領域602が、階層が下位(粒度が細かい)の小領域602を包含する関係が成り立つように、入力画像601を小領域602へ分割しているため、階層Aのテンプレートと階層Bのテンプレートとの包含関係を用いることができる。具体的には、階層Aのテンプレート805と包含関係にあり、より細かい小領域に分割した階層Bのテンプレート806のように2つのテンプレートを用いて、それぞれマッチング処理を行う。その結果、階層Bのマッチング結果808に示すように、2枚の画像間で小領域の変形が起こる場合においても、より高精度なマッチングを行うことができる。このとき、階層Bの2つのテンプレートの代表移動軌跡の平均を階層Aのテンプレートの代表移動軌跡としても良い。
このように、小領域の変形によってマッチングが正しく行えない場合には、包含関係を有する異なる階層におけるテンプレートを用いてマッチングを行うことで、正確な移動軌跡を算出することができるという効果がある。 非特許文献5のような小領域への分割方法を用いると、時刻によって被写体が移動したり、カメラが動いたりするために、小領域への分割結果が時刻tと時刻t+1との間で異なる場合が起こる。さらに、階層における小領域802の粗さも時刻によって異なることがある。このような場合に、サイズや形状が大きく異なる小領域802とテンプレート801とをマッチングことになり、適切なマッチングが行えなくなるという問題が起こる。それに対して、階層をまたがるマッチングを行うことで、図15のマッチング結果803に示すように形状の違いやサイズの違いを吸収しやすくなるため、よりマッチングの精度を向上させることができるという効果がある。
再度、図3を参照して、代表移動軌跡算出部104は、ステップS306で行ったマッチングの結果を用いて、小領域802ごとの代表移動軌跡を算出する(ステップS307)。代表移動軌跡算出部104は、図17に示すようにステップS306で得た対応点904を時間的に繋いでいくことにより、各テンプレート801の移動軌跡を代表移動軌跡として算出する。代表移動軌跡は、次の(式5)のように表すことができる。
ここで、xi r、yi rは、時刻iの画像の対応点904の画素位置であり、代表移動軌跡は、対応点904を時間的に並べたものである。
移動軌跡算出装置は、上述したステップS301からステップS307までの処理を行うことによって、図18に示すように小領域802ごとに、対応点1001を時間的に連結した代表移動軌跡1002を得ることができる。このように、小領域802は空間的な連結性を持ち、対応点1001は、その小領域802の時間的な連結性を持つ。このため、時空間における画像情報を代表移動軌跡1002として集約することができる。そのため、画像の領域分割または認識を行う際に、より計算量を削減できるという効果がある。さらには、ここで抽出した小領域802とそれを時間的に連結した代表移動軌跡1002とを、時空間画像の領域分割結果としても利用することが可能である。
以上のように、本発明の実施の形態1では、画像を階層的な小領域に分割したうえで、階層をまたがるマッチングによって小領域間の対応付けを行った。このことによって、輪郭情報にもとづいて小領域に分割することで、各小領域は形状情報を保持することができる。形状情報に基づいたマッチングは、影や明るさの変化に起因する画素値の変動に頑健であるという効果がある。一方で、形状情報に基づいたマッチングを行うためには、マッチングを行う対象がそれぞれ形状情報を保持している必要がある。すなわち、小領域に分割されている必要がある。しかしながら、同じ粒度で時間的に異なる画像を小領域に分割することは難しい。そのため、階層的に異なる粒度で小領域への分割を行い、階層をまたがりながら探索を行うことで、それぞれ異なる画像の小領域のマッチングを行うことができる。
さらには、形状の違いまたはサイズの違いを吸収しながら、小領域間の対応付けがしやすくなるため、よりマッチングの精度を向上させることができるという効果がある。具体的には、形状が変化しながら移動する人物等の被写体や一様なテクスチャを含む被写体に対しても、正確に小領域間の対応付けをすることができるという効果がある。さらに、小領域の対応付けに基づいて移動軌跡を算出することで、正確な移動軌跡を算出することができるという効果がある。また、本発明の方法を用いて算出した代表移動軌跡を用いれば、領域分割や画像認識における計算量の削減と精度を向上させる効果がある。
なお、本実施の形態1において、時刻tと時刻t+1に入力された画像間でマッチングを行うことにより代表移動軌跡を求める例について説明したが、時刻tと時刻t+nに入力された画像を用いてマッチングを行い、代表移動軌跡を求めてもよい。ただし、nは1以上の整数である。
なお、本実施の形態1において、ステップS305では、(式3)に示されるように、動き解析部102で算出した移動軌跡から、階層小領域生成部103で分割した各小領域を通る移動軌跡を抽出したが、ステップS305で用いる移動軌跡を限定するものではなく、他の方法を用いて得た移動軌跡を用いても構わない。例えば、小領域scに属する移動軌跡iを用いて、再度移動軌跡を補正しても構わない。つまり、代表移動軌跡算出部104は、小領域ごとに、当該小領域に含まれる移動軌跡を平滑化し、当該小領域と当該小領域に含まれる平滑化後の移動軌跡とに基づいて、代表移動軌跡を算出する。具体的には以下の(式6)に示されるように、(式3)で示された小領域scに含まれる移動軌跡iに、平滑化フィルタリングの一種であるバイラテラルフィルタリングを適用することで、アウトライアの影響を低減し、空間的にスムーズな移動軌跡を算出することができる。このとき、小領域scに属さない移動軌跡は、バイラテラルフィルタリングを行う時に利用しないことによって、小領域ごとにコヒーレントかつコンシステントな移動軌跡を算出することができる。
また、バイラテラルフィルタリングの代わりに小領域scに属する移動軌跡の平均値から一定の閾値以上はずれた移動軌跡を除外する等の処理を行うことでアウトライアを排除する処理を行ってもよい。
ここで、
は、バイラテラルフィルタリングによって、補正された移動軌跡である。なお、wは重みパラメータとして以下の(式7)に従い算出される。
ここで、Nはガウス分布を示し、左から画素位置、動きベクトル、画素値のそれぞれ違いに基づいて重みwが決定され、(式6)にて移動軌跡が補正される。
このように、同一の小領域内に属する近傍の移動軌跡を用いて加重平均をとることによって、アウトライアの影響を小さくすることができ、近傍が類似したものになり小領域内でコンシステントな移動軌跡が得られるという効果がある。ここでは、(式7)のようにガウス分布を用いたが、必ずしもガウス分布である必要はない。さらに、動きベクトル、画素値、画素位置の情報の中からいずれかを用いて重みを算出してもよい。このように、移動軌跡のアウトライアの影響を小さくすることができれば手法に制限はない。
なお、本実施の形態1において、ステップS305では小領域とそれに属する移動軌跡を用いて予測小領域をテンプレートとして生成し、ステップS306では生成したテンプレートを用いて、時刻t+1で生成した小領域に分割された画像または小領域の形状とのマッチングを、階層をまたがって行う例について説明したが、上述した方法に限定するものではない。つまり、階層をまたがって異なる時刻における小領域との対応付けを行う方法であれば他の方法を用いても良い。
ここで、3枚以上の画像にわたって探索を行い、時間的に最適なパスを生成することで代表移動軌跡を算出する例について述べる。代表移動軌跡算出部104は、ある画像における小領域およびある画像とは異なる画像における小領域をノードとし、ある画像における小領域を示すノードとある画像とは異なる画像における小領域を示すノードとをエッジにより接続し、エッジにより接続された小領域間の類似度が大きいほど小さな値をとる値をエッジの重みとするグラフを想定し、当該グラフに対して、Dynamic Programingを適用してグラフの最適なパスを生成することにより、代表移動軌跡を算出する。つまり、ステップS306でテンプレートに最もマッチングする小領域の対応点を求める代わりに、時刻tにおける小領域をノード、マッチングの際の値(例えば、テンプレートと小領域の画素値の差)をエッジの重みとすることでグラフを作成することもできる。このグラフでは、時刻の異なる小領域(ノード)同士がエッジにより接続される。なお、マッチングの際に類似度を用いる場合は、エッジの重みは、その逆数など、類似度が高いほど小さな値(以降、パス値と呼ぶ)になるようにすることが望ましい。グラフを用いることにより、最もマッチングした対応点を1点に限定することなく、複数の対応点候補におけるパス値をエッジの重みとして残しながら処理を行うことができる。このグラフに対して、DP(Dynamic Programing)マッチングなどの方法を適用してグラフの最適なパスを生成することにより、代表移動軌跡を生成することもできる。このような手法を用いても(式5)と同様な代表移動軌跡を算出することができる。テンプレートのパス値と小領域に応じて、複数の対応点候補を用いたグラフを生成し、最終的に最適なパスを求めることで、比較的長い時間における代表移動軌跡を全体最適の観点から的確に求めることができるという効果がある。なお、DPマッチングについては、非特許文献6に詳しく説明されている。DPマッチングについては、非特許文献6を参照により援用することにより、その詳細な説明はここでは繰り返さない。
なお、本発明の実施の形態1において、ステップS307では、小領域ごとに1つの代表移動軌跡を算出するものとして説明したが、ステップS307で算出する代表移動軌跡はこれに限るものでは無く、他の方法で代表移動軌跡を算出してもよい。例えば、空間的に密な移動軌跡を算出する場合には、ステップS302で算出した動きベクトルおよび移動軌跡を、ステップS306で算出した対応点を用いて修正するとしてもよい。
より具体的には、ステップS302で算出した動きベクトルのうち、テンプレートの重心位置(xm,ym)に最も近い画素の動きベクトル(u1,v1)とステップS306で算出した対応点(xc,yc)から(式8)のように修正ベクトル(Δu,Δv)を算出し、テンプレートに属するすべての移動軌跡に対して、その修正ベクトルを適用することで移動軌跡xnew_iを得ることができる。
ここで、
である。以上のように、修正された移動軌跡を用いることによって、密な移動軌跡を得ることができ、被写体のより詳細な動き解析等に用いることができるという効果がある。
なお、本発明の実施の形態1において、ステップS306では、予測小領域を用いて階層をまたいだマッチングを行うこととしたが、動き解析部102での処理を行わずに実現することも可能である。この場合は、予測小領域を用いずに、マッチングを行うこととなる。予測小領域を用いない場合、つまり、代表移動軌跡算出部104は、予測小領域の代わりに小領域そのものを用いて、2つの画像間で階層をまたいだマッチングを行ってもよい。このとき、予測小領域を用いた場合には、小領域のマッチングを行う時に、動き解析結果にもとづいて探索範囲を少なくできるという効果があるが、予測小領域を用いない場合は、あらかじめ空間的な探索範囲を定めておいて、その範囲内で探索を行えばよい。
(実施の形態2)
次に、実施の形態1において算出した小領域とそれに対応する移動軌跡を用いて、さらにその移動軌跡をクラスタリングすることによって、領域分割を行う例について実施の形態2として説明する。領域分割は、K−means法などを用いて代表移動軌跡をクラスタリングすることによっても実現可能であるが、ここでは、被写体が変形する場合においてもより高精度に領域分割を行う例について述べる。
図19は、実施の形態2における領域分割装置の構成を示す図である。図19の領域分割装置は、形状が変化しながら移動する人物等の被写体または一様なテクスチャを含む被写体に対しても正確に代表移動軌跡を算出し、算出した代表移動軌跡を用いてクラスタリングを行うことで画像の領域分割を行う装置であり、画像受付部101、動き解析部102、階層小領域生成部103、代表移動軌跡算出部104、領域分割部1101、出力部105aを備える。
本実施の形態2における、画像受付部101、動き解析部102、階層小領域生成部103、代表移動軌跡算出部104は、実施の形態1のそれらと同様であるため説明を繰り返さない。
領域分割部1101は、代表移動軌跡算出部104にて算出された代表移動軌跡を用いて、その代表移動軌跡の類似性に基づいて、代表移動軌跡が類似する小領域同士を統合することにより、代表移動軌跡のクラスタリングを行い、階層小領域生成部103にて算出した小領域とクラスタリング結果を用いて、画像を領域分割する。つまり、領域分割部1101は、代表移動軌跡間の距離を、閾値よりも小さい距離を連結することにより測地距離に変換し、得られた測地距離の不連続点を検出し、検出した不連続点における測地距離よりも小さい測地距離だけ離れた移動軌跡を一つのクラスとすることによって領域分割を行う。測地距離を用いた領域分割については、後に詳細に説明する。
出力部105aは、領域分割部1101で行ったクラスタリング結果から、統合された移動軌跡をモニタ等に出力したり、時空間における領域分割の結果を画像としてモニタ等に出力したりする。
以下に、本発明の実施の形態2の領域分割装置の動作について、図20のフローチャートを用いて説明する。ここでは実施の形態1において算出した小領域とそれに対応する移動軌跡を用いて、さらにその移動軌跡をクラスタリングすることによって、領域分割を行う例について詳細に説明する。
ステップS301からS307までは、実施の形態1と同じであるため、説明を繰り返さない。
次に、領域分割部1101は、(式5)、(式6)または(式9)に示す代表移動軌跡をクラスタリングすることで、代表移動軌跡を複数のクラスに分類する(ステップS1201)。その結果として、同一のクラスとなる代表移動軌跡が属する小領域を同一のセグメントとすることによって領域分割を行うことができる。以下、(式5)に示した代表移動軌跡をクラスタリングする例について述べるが、(式6)または(式9)の場合でもそのまま適用可能である。
まず、領域分割部1101は、(式5)に示した代表移動軌跡rを用いて代表移動軌跡の類似性を示す距離マトリクスを算出する。代表移動軌跡rと代表移動軌跡sとの線形距離f(r,s)は以下の(式11)のように算出できる。
ここで、wは重み係数であり、設計者が設定するパラメータである。また、meanrs、varrsについては以下の(式12)および(式13)にそれぞれに示す。
ここで、
(式11)に示されるように、(式12)に示した代表移動軌跡間距離の時間平均値に加えて、(式13)に示した代表移動軌跡間距離の時間変動成分を前記線形距離f(r,s)の要素とする。特に(式13)に示した代表移動軌跡間距離の変動成分は、動きの類似性を示すものであり、これによって、代表移動軌跡間距離の関係が変化しない剛体だけでなく、関節物体等の形状変化を捉えることができる。
次に、領域分割部1101は、(式11)に従い算出された線形距離f(r,s)に対して以下の(式15)に示される非線形化処理を行う。
つまり、領域分割部1101は、代表移動軌跡rに着目した時に代表移動軌跡sとの線形距離が小さい順にK個の代表移動軌跡sを選択し、選択された代表移動軌跡sとの距離は変更せず、選択されなかった代表移動軌跡rとの距離を無限大に変更する。ここでは、線形距離を小さい順にK個選択したが、次の式16のように閾値Rを設定してもよい。つまり、代表移動軌跡rに着目した時に代表移動軌跡sとの線形距離が閾値R未満の場合には、距離は変更せずに、閾値R以上の場合に代表移動軌跡rとの距離を無限大に変更する。
次に、領域分割部1101は、非線形化された代表移動軌跡間距離f´(r,s)を用いて、以下の(式17)のように距離を更新することにより、測地距離g(r,s)を算出する。
なお、min(x,y)は、値xと値yのうち小さい方を返す関数である。また、kは、移動軌跡sであり、代表移動軌跡rから移動軌跡sに辿(たど)りつくための中継点である。ここで、f´(r,k)+f´(k,s)における中継点sは1点に限るものではない。この方法は、ダイクストラ法と呼ばれる最短経路探索手法であり、以下の非特許文献7に記載されている。
ここで、(式15)から(式17)に示した非線形化処理について、図21(a)〜図21(c)の概念図を用いて説明する。ここでは、(式16)を用いた非線形化処理について説明するが、他の非線形化処理を行っても同様の効果が期待できる。まず、図21(a)は2次元のデータ分布を示す。ここで、それぞれのデータ点は、(式5)に示した代表移動軌跡に相当する。(式15)から(式17)の非線形化処理を行わない場合には、図21(b)に示したように、テータ点iとデータ点jとの距離は、テータ点iとデータ点kとの距離よりも小さくなる。しかしながら、図21(c)に示すように、例えば(式16)の処理および(式17)の処理を行うことによって、テータ点iとデータ点jとの距離は、ユークリッド距離ではなく、測地距離と呼ばれるデータ点を矢印のように辿った距離となる。結果として、ユークリッド距離を用いる場合と異なり、テータ点iとデータ点jとの距離は、テータ点iとデータ点kとの距離よりも大きくなる。
次に、このような(式15)から(式17)に示した非線形化処理を行うことの有効性を図22(a)及び図22(b)の概念図を用いて説明する。ここでは、線形距離f(r,s)と非線形化した距離gnew(r,s)の違いを分かりやすく説明するため、(式14)に示すように代表移動軌跡間距離を例とする。実際には、代表移動軌跡間距離に加えて、(式11)に示したように動きの類似性として代表移動軌跡間距離の変動成分を用いることにより、関節物体等の形状だけではなく形状変化をも捉えることができる。図22(a)は、(式15)から(式17)の処理を行わない場合の例である。例えば、頭部の代表移動軌跡r1402と手先部の代表移動軌跡s1403との距離は、線形距離1401に示す距離となる。一方、(式15)から(式17)のような非線形処理を行うことによって、図22(b)に示されるように、頭部の代表移動軌跡r1402と手先部の代表移動軌跡s1403との距離は、代表移動軌跡k1404を通って代表移動軌跡s1403にたどり着くまでの矢印で示したような線形和としての距離となる。そのため、線形距離1401では人物のような関節物体の関節が繋がった形状を表現できないのに対して、関節が繋がった形状を距離として表現することが可能となる。なお、測地距離の計算方法は、(式17)に限定されるものではない。
次に、測地距離変換を行ったg(r,s)を用いて、測地距離の不連続点を検出することによってクラスタリングを行う。ここでは、g(r,s)が無限大となる代表移動軌跡rと代表移動軌跡sの間が測地距離の不連続点である。(式16)に示した閾値Rに対して得た測地距離変換の結果の例を図23を用いて説明する。ここで、図23(a)は、ステップS306で算出した代表移動軌跡a〜hを示す図である。図23(a)に示されるサブ領域1502は、代表移動軌跡が属する小領域である。図23(b)は、図23(a)に示した移動軌跡a〜hからなる高次元空間の概念図である。ここでは、代表移動軌跡の数を8本としたが、実際には、各小領域に対応する代表移動軌跡を用いてもよい。ここで、代表移動軌跡からなる高次元空間1503の1点が、それぞれ(式5)に示した一つの代表移動軌跡に対応する。さらに、高次元空間1503上で、点と点との距離は、ベクトル間のユークリッド距離ではなく、(式17)に示すような測地距離に対応する。
図23(c)は、クラスタリング結果を示す図である。ここで、図23(c)において、(式11)に示した代表移動軌跡aと代表移動軌跡bとの距離をf(a,b)とした時に、f(e,f)>f(c,d)>f(f,g)>f(b,c)である。ここでは、閾値をRとして設定した場合に、距離f(f,g)は、閾値Rよりも大きな値を持つとする。この場合、(式17)によって測地距離を求めてもg(e,f)、g(c,d)、g(f,g)はそれぞれ無限大となる。よって、領域分割部1101は、それぞれ、代表移動軌跡cと代表移動軌跡dとの間、代表移動軌跡eと代表移動軌跡fとの間、代表移動軌跡fと代表移動軌跡gとの間が測地距離の不連続点であると判定する。この結果、代表移動軌跡a,b,cは、互いに測地距離の不連続点を通らずに辿ることができるため、無限大の値はとらず、逆に、例えば、代表移動軌跡a,b,cから、他の代表移動軌跡に対しては、測地距離の不連続点g(c,d)を通るため無限大となる。このように、測地距離が無限大とならない代表移動軌跡iと代表移動軌跡jの組は同じクラスとし、無限大となる場合は別のクラスとする。そして、測地距離が無限大となる組と無限大にならない組とを整理して、θ1、θ2、θ3、θ4の合計4つのクラスに分離することができる。ここで、領域分割部1101は、各クラスθiに分類された代表移動軌跡が属する小領域を一つのセグメントとして統合する。例えば、図23の例では、クラスθ1に分類された代表移動軌跡が属する小領域は頭部2つと胸部1つに対応し、3つの小領域を時空間で一つのセグメントとして統合することで領域分割することができる。クラスθ2からクラスθ4についても同様である。
以上の処理によって、領域分割部1101は、測地距離が無限大とならない代表移動軌跡同士は連続していると判断することで同じクラスと判定することができる。また、測地距離が無限大となる代表移動軌跡同士は不連続であると判断することによって、測地距離の不連続点をもとに代表移動軌跡を分類することができる。その結果として一つのクラスに分類された代表移動軌跡が属する小領域を統合することで領域分割することができる。
出力部105bは、領域分割の結果をモニタ等に出力する。
なお、本実施の形態では、代表移動軌跡に対して測地距離を計算することによって、変形する被写体に対しても領域分割が可能になる。そのため、図23の例では、頭部の動きと腕の動きの違い、上腿と下腿との動きの違いが反映され、頭部、腕、上腿(じょうたい)、下腿(かたい)を別々のクラスとして領域分割することができる。さらに、本方法によると、一つの移動体のボディパーツの領域分割だけでなく、図24(a)のように複数人が存在するシーンにおいて背景を含む領域分割を行うこともできるし、図24(b)のようにそれぞれの移動体を詳細に領域分割することも可能である。例えば、画像に対して閾値Rを大きく設定すれば、クラスθmに対応する画像上での領域を色分け等して、分割された領域をそれぞれ区別できるようにしてモニタ等に表示することもできる。図24(a)のように移動体ごとに色分けして表示してもよいし、図24(b)のように、部位ごとに別個に表示してもよい。つまり、図24から分かるように、本実施の形態に係る領域分割装置は、上述した領域分割によって、複数の移動体を検出することもできるし(図24(a))、一つの移動体を構成する複数の部分を検出する、つまり、一つの移動体に対して領域分割することもできる(図24(b))。
以上のようにして、代表移動軌跡の類似性に基づいてクラスタリングを行うことによって、類似する代表移動軌跡がまとめられて領域分割が行われる。このため、距離が近く、かつ類似する動きをする部位が一つのクラスとして認識され、動画像中を移動する物体の領域を時間的に追跡した結果として、移動体を含む時空間画像の領域分割をすることができる。また、代表移動軌跡の測地距離における類似性に基づいてクラスタリングが行われる。このため、画像中でさまざまな大きさの移動体が存在する場合や、移動体の一部が隠れている場合であっても、頑強に被写体領域の領域分割を行うことができる。さらには、測地距離の不連続点に基づいたクラスタリングは、クラスサイズの大きさに影響を受けないクラスタリングが可能である。このため、大きな被写体と小さな被写体が混在する場合や、大きな動きの被写体と小さな動きの被写体が混在する場合においても、確実に領域分割することが可能である。
以上のように、実施の形態2によると、不連続点における測地距離よりも小さい測地距離だけ離れた移動軌跡どうしが一つのクラスとなる。このため、直線的な距離であるユークリッド距離を用いたクラスタリングに比べ、移動軌跡間の類似性に関して、時空間的な連続性を考慮したクラスタリングが行われる。そのため、ピクチャにおける各ブロックが同一の物体(又は部位)に属するか別個の物体(又は部位)に属するかが確実に弁別される。その結果、動きの異なる複数の部位からなる人物等の多関節物体を移動体として検出する場合であっても、正確な領域分割が行われ、移動体が確実に検出される。つまり、形状が変化しながら移動する人物等の移動体に対しても正しく領域分割し、これによって画像中の移動体を確実に検出することが可能である。
(実施の形態2の変形例)
次に、実施の形態2において説明した時空間の領域分割を行う例の変形例について説明する。本変形例に係る領域分割装置は、算出した代表移動軌跡を用いてクラスタリングを行う時に、近傍の代表移動軌跡を含めたペアワイズ型のクラスタリングを行うことで、クラス数を自動的に決定しながら画像の領域分割を行う。領域分割装置は、画像受付部101、動き解析部102、階層小領域生成部103、代表移動軌跡算出部104、領域分割部1101、出力部105aを備える。
本変形例における、画像受付部101、動き解析部102、階層小領域生成部103、代表移動軌跡算出部104、領域分割部1101、出力部105aは実施の形態2と同様であるため説明を繰り返さない。領域分割部1101における処理が実施の形態2とは異なる。このため、本変形例では、領域分割部1101における処理を中心に説明する。
領域分割部1101は、統合対象の複数の小領域に対応する複数の代表移動軌跡と統合対象の複数の小領域に隣接する少なくとも1つの小領域の代表移動軌跡とに基づいて、統合対象の複数の小領域を統合するか否かを判断する。より詳細には、領域分割部1101は、代表移動軌跡をノードとし、代表移動軌跡同士がエッジにより接続され、エッジにより接続された代表移動軌跡間の距離をエッジの重みとするグラフから、Minimum Spanning Treeを計算し、Minimum Spannning Treeにおける接続関係に基づいて、領域分割を行う。好ましくは、領域分割部1101は、Minimum Spannning Treeにおいて、1つのエッジにより直接接続される関係にある代表移動軌跡のペアを統合するか否かを、当該ペアと当該ペアに隣接される少なくとも1つの代表移動軌跡とを接続する複数のエッジの重みに基づいて判断することにより、領域分割を行う。
以下に、本変形例の領域分割装置の動作について、図25のフローチャートを用いて説明する。ここでは、実施の形態1において算出した小領域とそれに対応する代表移動軌跡を用いて、さらにその代表移動軌跡の近傍の代表移動軌跡を含めたペアワイズ型のクラスタリングを行うことによって、領域分割を行う例について詳細に説明する。
領域分割は、K−means法などを用いて代表移動軌跡をクラスタリングすることによっても実現可能であるが、代表移動軌跡間の距離はユークリッド距離に制限される。それに対して、デンドログラム等のペアワイズ型のクラスタリングは、2つの代表移動軌跡間の距離を自由に設定することができるという利点がある。例えば、(式11)に示すように、動きの違いを距離として含むことも可能となる。
ステップS301からS307までは、実施の形態1および実施の形態2と同じであるため、説明を繰り返さない。
まず、領域分割部1101は、(式5)、(式6)または(式9)に従い算出された代表移動軌跡から代表移動軌跡間距離を算出し、算出した代表移動軌跡間距離から代表移動軌跡間の類似関係を示す情報であるMinimum Spanning Tree(以下「MST」という)を生成する(ステップS1701)。
以下、S1701の処理を詳細に説明する。つまり、ペアワイズ型のクラスタリングを行うための代表移動軌跡間距離の算出については、実施の形態2で説明した(式11)の線形距離または(式17)の測地距離を用いることができる。代表移動軌跡間距離には、画素位置だけでなく、動きの類似性を示す成分も距離として含めることができる。このため、代表移動軌跡間距離の関係が変化しない剛体だけでなく、関節物体等の形状変化を捉えることができる。
次に、領域分割部1101は、算出した代表移動軌跡間距離を用いて、代表移動軌跡間の類似関係を接続関係としてMSTを生成する。図26(a)は、MSTを生成する前の(式11)に示した代表移動軌跡間の接続関係をグラフとして示したものであり、各代表移動軌跡1801がノードとして表され、各代表移動軌跡1801と他のすべての代表移動軌跡間距離1802との関係がエッジとして破線のように表される。なお、エッジ(破線)はそれぞれ代表移動軌跡間距離を保持しており、すべての代表移動軌跡が距離を重みとするエッジで接続された状態となる。一方、MSTは、代表移動軌跡間距離の総和が最小となるようにエッジが生成されるため、図26(b)のように限定された代表移動軌跡間距離で構成することができる。図26(b)において接続関係にない代表移動軌跡同士は、代表移動軌跡間距離が無限大で表されているものと等価である。このように、限定された接続関係で代表移動軌跡を表現することによって、メモリ量を削減したり、クラスタリングを行う時の計算量をより削減できるという効果がある。MSTについては、非特許文献8に記載の方法を用いることができる。このため、その詳細な説明はここでは繰り返さない。
次に、領域分割部1101は、図26(b)に示したような限定された代表移動軌跡間距離で構成されるMSTから、1つのエッジにより直接接続される関係にある代表移動軌跡のペアを選択し、そのペアを構成する代表移動軌跡が同一のクラスに属するか否かを判定する処理を行うことで、代表移動軌跡のクラスタリングを行う。そこで、再度、図25を参照して、領域分割部1101は、同一のクラスとなる代表移動軌跡が属する小領域を同一のセグメントとすることによって領域分割を行う(ステップS1702)。
以下に、ステップS1702の詳細について説明する。
まず、領域分割部1101は、MSTから直接接続の関係にある代表移動軌跡のペアを選択する。例えば、図27(a)に示すように着目ペア1901を選択する。なお、ここでは一例について説明するが、実際には、すべての直接接続の関係にある代表移動軌跡のペアを選択して、それぞれ以下の処理を行えばよい。
次に、領域分割部1101は、着目したペアからMSTの接続関係に従って、N個のパスまでで辿りつく代表移動軌跡(ノード)を選択する。これにより、クラスタリングを行う時に考慮すべき近傍関係が決まることになる。図27(b)は、N=2とした場合の近傍関係を示す。実線で示した部分がクラスタリングを行う時に考慮する代表移動軌跡である。図中に示した「1」、「2」の数字は、着目ペアとなる選択したノードからのパスの数に相当する。ここでは、Nをあらかじめ設定しておいてもよいし、考慮する代表移動軌跡の数を事前に決定しておいてもよい。このような着目ペア以外の周辺の代表移動軌跡を考慮することによって、デンドログラム等のペアワイズ型のクラスタリングが最近傍の2点のみを考慮してクラスタリングを行うのに対して、最近傍だけでなく、その周辺の情報を考慮しながらクラスタリングができる。このため、より画像の構造を反映することができ、画像中の被写体の大きさの違い等の影響を受けにくいクラスタリングができるといった効果がある。
次に、領域分割部1101は、着目ペアとその近傍の代表移動軌跡を用いて、クラスタリング処理を行う。
ここで、デンドログラム等のペアワイズ型のクラスタリングは、着目ペア間の情報のみからクラスへの統合・非統合を判定するために、人物のような多関節物体に対しては、手と足のように空間的に離れた部位間の関係を考慮することができない。一方で、近傍を含めたペアワイズ型のクラスタリングを行うことで、手と足の関係も含めた部位間の関係を考慮することができる。そのため、人物のような多関節物体に対しても正確に領域分割できるという利点がある。別の効果として、空間的に離れた場所の関係も考慮されるため、画像中の被写体の大きさの変化や違い等の影響を受けにくいクラスタリングができる。
ここでは、着目ペアが同一のクラスに属するか否かを判定する処理を、すべての着目ペアについて適用することによって、自動的に最終的なクラス数を決定することができる。なお、クラスタリング処理は、プレクラスタリング処理と統合処理との2段階で行うことができる。まず、プレクラスタリング処理について具体例を用いて説明する。ここでは、説明を容易にするため、図27(c)の代わりに図28(a)のように、着目ペアのノード(代表移動軌跡)をAおよびB、それ以外の近傍ノード(代表移動軌跡)をCおよびDとして説明する。なお、ここではプレクラスタリングに利用するノードの数を限定するものではない。
まず、プレクラスタリングは、代表移動軌跡AからDのプレクラス数をモデル選択の枠組みで判定し、そのプレクラス数に基づいて代表移動軌跡AからDのプレクラスタリングを行う。プレクラスタリングは、具体的には、以下の(式18)で表すことができる。
ここで、mはプレクラス数を表す。図28(b)に示すように、代表移動軌跡AからDをプレクラスタリングする場合には、プレクラス数は1(AからDがすべて同一クラス)から4(AからDがすべて別のクラス)の4通りが考えられる。このため、この場合、mは1から4の4種類の値をとる。
そして、
は、プレクラス数mの時のそれぞれのプレクラスタリングにおける尤もらしさ(Likelihood)を表す。ここで、領域分割部1101は、例えば、プレクラス数m=2の場合には、AからDの代表移動軌跡を2つのプレクラスに分類する時に考えうる候補として、以下の7個のプレクラスタリングを考える。実際には、図28(b)に示すように、領域分割部1101は、m=1から4まで、プレクラス数mを決定した時に考えうるすべてのプレクラスタリング候補を算出する。
ここで、“A−B−C”等の“−”は、同一プレクラスの関係にあり、“,”は別のプレクラスであることを示す。例えば、プレクラスタリング候補(A−B−C,D)の場合は、代表移動軌跡A、BおよびCが同一クラスに属し、Dのみが別のクラスに属している。その場合
は、以下の(式20)ように表される。
ただし、m=2である。
このように、領域分割部1101は、同一プレクラスの場合にはPを、異なるプレクラスの場合には(1−P)を用いてプレクラスタリングにおける尤もらしさを計算する。同様に、領域分割部1101は、m=2については、(式19)に示すプレクラスタリング候補すべてについて(式20)のような計算を行う。また、領域分割部1101は、m=1、3、4についても、図28(b)に示したすべてのプレクラスタリング候補について(式20)のようなプレクラスタリングにおける尤もらしさを計算する。
そして、
は、プレクラス数mの時のプレクラスタリング候補の数zmから以下のように表すことができる。例えば、代表移動軌跡A〜Dにおいて、m=2の場合はzm=7である。
そして、(式20)におけるPRSは、正規分布と(式11)の代表移動軌跡間距離fから以下のように計算できる。
もちろん、代表移動軌跡間距離fの代わりに(式17)に示した測地距離gを用いても構わない。以上のように、(式18)から(式22)の情報を用いて、(式18)の積分計算を行うことができる。
そして、領域分割部1101は、プレクラス数mごとに計算されたP(y|m)の中で最大となる場合のプレクラス数mで、(式19)に示したようなプレクラスタリング候補の中から、
が最大となるプレクラスタリング候補を選択する。ここでは、図28(b)に示したような、すべてのプレクラスタリング候補の中から
が最大となるプレクラスタリング候補を選択してもよいし、前述のように、P(y|m)が最大となるプレクラス数mを求め、そのプレクラス数mの条件下で
が最大となるプレクラスタリング候補を選択してもよい。
クラスタリングに関する一般論として、クラス数を多くすることでデータの表現能力を上げた結果、過学習(Overfitting)と呼ばれる過剰にデータにフィッティングすることで、汎化性能が失われるという問題がある。上記の方法を用いることにより、プレクラス数mを過剰に大きくすることなく自動的に決定することができるため、汎化性が高いという効果がある。
次に、統合処理について述べる。ここでは、着目ペア2001が同一のプレクラスと判定された場合に、当該の着目ペアである代表移動軌跡Aと代表移動軌跡Bとを統合する。
具体的な例としては、(式18)の計算によりm=2の時にP(y|m)が最大であったとする。次に、m=2の条件下で、(式20)の計算により(A−B−C,D)のプレクラスタリング候補の時に
が最大であったとする。この場合、着目ペアABは、同一プレクラスであるため、代表移動軌跡AとBは同一のクラスであると判定し統合する。例えば、同様にm=2の条件下で、(式20)の計算により(A,B−C−D)のプレクラスタリング候補の時に
が最大であったとする。この場合、着目ペア2001に属する代表移動軌跡AおよびBは、異なるプレクラスに属するため、代表移動軌跡AとBは統合しない。
以上のように、領域分割部1101は、着目ペア2001に属する代表移動軌跡を統合すべきか否かを判断する。領域分割部1101は、このような判断をMSTにより直接接続されたすべてのペアについて行うことにより、代表移動軌跡の統合を行う。これにより、最終的に図28(c)のような出力を得ることができる。図28(c)では、人物と背景とを結ぶ着目ペアが別のプレクラスであると判定され、人物内の着目ペアおよび背景内の着目ペアがそれぞれ同一のプレクラスであると判定された結果が得られている。そして、同一のプレクラスと判定した代表移動軌跡と代表移動軌跡が属する小領域とを統合することにより、実施の形態2と同様に時空間での領域分割を行うことができる。
さらには、式22における代表移動軌跡間距離fに対して、階層小領域生成部で生成した小領域の包含関係にもとづいて重み付けをしても良い。より具体的には、階層小領域生成部で生成したある2つの小領域が、上位階層において同一の小領域に包含される(同一の小領域に属している)場合には、2つの小領域の代表移動軌跡間距離fに1より小さい係数を掛けることによって、相対的に距離を小さくすることができる。一方、ある2つの小領域が、上位階層において同一の小領域に包含されていない(異なる小領域に属している)場合には、2つの小領域の代表移動軌跡間の距離fに1以上の係数を掛けることで距離を相対的に大きくすることができる。その結果、代表移動軌跡に誤りが含まれる場合においても、画像の輪郭にもとづく空間的な構造を反映することで、より頑健な領域分割を行うことができる。
なお、本変形例の方法を用いれば、クラス数を予め設定する必要がなく、適用可能なシーンを限定することなく領域分割をすることができるという効果がある。また、最近傍のみならず、周辺の代表移動軌跡も考慮したプレクラスタリングを行うため、クラスサイズの大きさに影響を受けないクラスタリングが可能である。その結果、大きな被写体と小さな被写体が混在する場合や、大きな動きの被写体と小さな動きの被写体が混在する場合においても、確実に領域分割することが可能である。以上のように、高精度に領域分割を行うことが可能である。
以上、本発明に係る移動軌跡算出方法およびその装置、ならびに領域分割方法について、実施の形態及びその変形例に基づいて説明したが、本発明は、これらの実施の形態及び変形例に限定されるものではない。当業者が思いつく各種変形を、本発明の趣旨を逸脱しない範囲で各実施の形態に施して実現される形態も本発明に含まれる。
また、各実施の形態における特徴的な構成要素を任意に組み合わせて実現される形態も本発明に含まれる。