JP2016081252A - 画像処理装置および画像処理方法 - Google Patents
画像処理装置および画像処理方法 Download PDFInfo
- Publication number
- JP2016081252A JP2016081252A JP2014211105A JP2014211105A JP2016081252A JP 2016081252 A JP2016081252 A JP 2016081252A JP 2014211105 A JP2014211105 A JP 2014211105A JP 2014211105 A JP2014211105 A JP 2014211105A JP 2016081252 A JP2016081252 A JP 2016081252A
- Authority
- JP
- Japan
- Prior art keywords
- image
- tracking
- image frame
- contour
- tracking target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Image Analysis (AREA)
Abstract
【課題】撮影画像中の対象物の追跡を精度よく行う。【解決手段】まず一つ前の画像フレームの追跡結果に対応するように、パラメータ空間にパーティクルを生成/消滅させる(S60)。一方、当該追跡結果に基づき、画像フレームに処理領域を設定したうえ(S62)、画像フレーム間のマッチングにより頭部の像の移動ベクトルを導出する(S64)。得られた移動ベクトルを用い、パーティクルの並進量の成分を算出する(S66)。また複数の時刻の奥行き画像から、頭部の奥行き方向の変化量を求め(S68)、パーティクルの倍率成分を算出する(S70)。並進量成分、倍率成分が決定した値となるように各パーティクルを遷移させる(S72)。これらの処理を、追跡対象ごとに繰り返す(S74のN)。【選択図】図11
Description
本発明は情報処理技術に関し、特に動画像を解析して対象物を追跡する画像処理装置およびそこで実行される画像処理方法に関する。
視覚追跡はコンピュータビジョン、特にセキュリティ分野における視覚監視やAV分野における記録映像の解析・分類、編集、またはマンマシンインターフェース、さらには人間同士のインターフェース、すなわちテレビ会議やテレビ電話など、多岐にわたる応用が見込まれる。そのため、追跡精度および処理効率の向上等を目的に、多くの研究がなされている。中でも、カルマンフィルタで扱うことのできない非ガウス性雑音が加算された信号の時系列解析手法として注目されているパーティクルフィルタを視覚追跡に応用する研究が多くなされており、特にCondensation(Conditional Density Propagation)アルゴリズムが有名である(例えば非特許文献1および2参照)。
パーティクルフィルタはベイズフィルタの近似計算法であり、有限個のパーティクルを追跡候補として導入することにより対象の確率分布を表現し、それを用いて時系列推定や予測を行う。視覚追跡で用いる際には、パラメータ化した対象の動きを1個のパーティクルとして扱い、運動モデルによるパラメータ遷移と観測による遷移結果の尤度計算によって、対象のパラメータ空間上での存在分布確率を逐次推定する。
Contour tracking by stochastic propagation of conditional density, Michael Isard and Andrew Blake, Proc. European Conf. on Computer Vision, vol. 1, pp.343-356, Cambridge UK (1996)
ICondensation: Unifying low-level and high-level tracking in a stochastic framework, Michael Isard and Andrew Blake, Proc. 5th European Conf. Computer Vision, 1998
パーティクルフィルタを用いた従来の追跡処理では、運動モデルをいかに構築するかが大きな問題になる。例えば画像のカテゴリに合わせて対象の動きをある程度想定したうえで運動モデルを設定することが考えられるが、実際の動きがその想定から外れてしまうと追跡精度の悪化につながる。精度を維持するためパーティクルを増やしたり運動モデルを多様化させたりすることも考えられるが、処理の負荷が増大しリアルタイムでの追跡処理が困難になりやすい。
また、遷移結果の尤度計算時には、各パーティクルが表す追跡候補と実際の撮影画像との比較を行う。このとき、カメラの視野内に存在する物の数やそれらの色、照明など、撮影環境によって撮影画像の特性が変化すると、尤度の計算に影響を与え、ひいては追跡精度が変化してしまうことが考えられる。
本発明はこのような課題に鑑みてなされたものであり、その目的は、追跡対象の運動特性や撮影環境の変化の影響を受けにくい高精度かつ効率的な視覚追跡技術を提供することにある。
本発明のある態様は画像処理装置に関する。この画像処理装置は、動画像における対象物の像を追跡する画像処理装置であって、動画像を構成する画像フレームのうち第1の画像フレームに対し推定された追跡対象の輪郭線に基づき生成した候補輪郭を、後続の第2の画像フレームに対応するように操作するサンプリング部と、第2の画像フレームを用いて、操作後の各候補輪郭の尤度を求めることにより、第2の画像フレームにおける追跡対象の輪郭線を推定し追跡結果として出力する追跡結果取得部と、を備え、サンプリング部は、第2の画像フレームに至るまでの追跡対象の動きの情報を、複数の画像フレームから得られる情報の比較結果に基づき取得し、それに応じて候補輪郭を操作することを特徴とする。
本発明の別の態様は画像処理方法に関する。この画像処理方法は、動画像における対象物の像を追跡する画像処理装置が、動画像を構成する画像フレームをメモリより読み出し、そのうち第1の画像フレームに対し推定された追跡対象の輪郭線に基づき生成した候補輪郭を、後続の第2の画像フレームに対応するように操作するステップと、第2の画像フレームを用いて、操作後の各候補輪郭の尤度を求めることにより、第2の画像フレームにおける追跡対象の輪郭線を推定し追跡結果としてメモリに格納するステップと、を含み、操作するステップは、第2の画像フレームに至るまでの追跡対象の動きの情報を、複数の画像フレームから得られる情報の比較結果に基づき取得し、それに応じて候補輪郭を操作することを特徴とする。
なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。
本発明によれば、実際の状況に関わらず安定した視覚追跡を実現することができる。
初めに、本実施の形態の特徴および効果を明らかにするために、パーティクルフィルタによる視覚追跡について概説する。図1は人物を追跡対象とした場合の視覚追跡手法を説明するための図である。人物画像150は実写した動画像やコンピュータグラフィックスなどにより生成された動画像の画像ストリームを構成する画像フレームのひとつであり、追跡対象である人物152が写っている。
この人物152の動きを追跡するために、人物152の頭部輪郭の形状を近似するΩ形の曲線154を既知の表現で記述する。一方、人物152を含む人物画像150にはエッジ抽出処理を施し、エッジ画像を取得しておく。そして曲線154を規定するパラメータを変化させながらその形状および位置を変化させて、近傍にあるエッジを探索することにより、人物152の頭部輪郭と最もマッチすると推定されるパラメータの値を特定する。以上の処理をフレームごとに繰り返すことにより人物152の追跡が進捗する。ここでエッジとは、画像の輝度や色に急な変化を有する箇所のことである。
様々な曲線154と人物152の頭部輪郭とのマッチングを行うために、パーティクルフィルタによる確率分布予測技術を導入する。すなわち、ひとつ前のフレームにおけるパラメータ空間上の対象物の確率分布に応じて曲線154のサンプリング数を増減させ、追跡候補の絞り込みを行う。これにより存在確率の高い部分に対しては重点的に探索を行うことができ、精度のよいマッチングを効率的に行える。
対象物の輪郭に着目した追跡に対するパーティクルフィルタの適用手法は、例えば非特許文献2(ICondensation: Unifying low-level and high-level tracking in a stochastic framework, Michael Isard and Andrew Blake, Proc. 5th European Conf. Computer Vision, 1998)に詳述されている。ここでは本実施の形態に係る点に着目して説明する。
まずΩ形の曲線154を、Bスプライン曲線で記述する。Bスプライン曲線はn個の制御点列(Q0,・・・,Qn)とノット列(s0,・・・,sn)とから定義される。そして基本となる曲線形状、この場合はΩ形の曲線となるように、それらのパラメータをあらかじめ設定しておく。このときの設定によって得られる曲線を以後、テンプレートQ0と呼ぶ。なお、図1で示した人物画像150における人物152の追跡を行う場合は、テンプレートQ0はΩ形であるが、その形状は追跡対象によって変化させる。すなわち追跡対象がボールであれば円形、手のひらであれば手の形状などとなる。
次にテンプレートの形状を変化させるための変換パラメータとして、形状空間ベクトルxを準備する。形状空間ベクトルxは以下のような6つのパラメータで構成される。
ここで(shiftx,shifty)は(x,y)方向への並進量、(extendx,extendy)は倍率、θは回転角である。そして形状空間ベクトルxをテンプレートQ0に作用させるための作用行列Wを用いると、変形後の曲線、すなわち候補曲線Qは以下のように記述できる。
式2を用いれば、形状空間ベクトルxを構成する6つのパラメータを適宜変化させることにより、テンプレートを並進、伸縮、回転させることができ、組み合わせによって候補曲線Qの形状や位置を種々変化させることができる。
そして、制御点列、およびノット列の間隔といったテンプレートQ0のパラメータや、形状空間ベクトルxを構成する6つのパラメータを変化させることによって表現される複数の候補曲線について、各ノットの近傍にある人物152のエッジを探索する。その後、エッジとの距離などから各候補曲線の尤度を求めることにより、形状空間ベクトルxを構成する6つのパラメータにより形成される6次元空間における確率密度分布を推定する。
図2はパーティクルフィルタを用いた確率密度分布推定の手法を説明するための図である。同図では理解を簡単にするために、形状空間ベクトルxを構成する6つのパラメータのうち、あるパラメータx1の変化を横軸に表しているが、実際には6次元空間において同様の処理が行われる。ここで確率密度分布を推定したい画像フレームが時刻tの画像フレームであるとする。
まず、時刻tの画像フレームのひとつ前のフレームである時刻t−1の画像フレームにおいて推定された、パラメータx1軸上の確率密度分布を用いて(S10)、時刻tにおけるパーティクルを生成する(S12)。それまでにフィルタリングを行い、すでにパーティクルが存在する場合は、その分裂、および消滅を決定する。S10において表した確率密度分布は、パラメータ空間上の座標に対応して離散的に求められたものであり、円が大きいほど確率密度が高いことを表している。
パーティクルはサンプリングするパラメータx1の値とサンプリング密度とを実体化したものであり、例えば時刻t−1において確率密度が高かったパラメータx1の領域は、パーティクル密度を高くすることで重点的にサンプリングを行い、確率密度の低かった範囲はパーティクルを少なくすることでサンプリングをあまり行わない。これにより、例えば人物152のエッジ近傍において候補曲線を多く発生させて、効率よくマッチングを行う。
次に何らかの運動モデルを適用し、パーティクルをパラメータ空間上で遷移させる(S14)。従来技術において採用される運動モデルとしては例えば、ガウシアン型運動モデル、自己回帰予測型運動モデルなどがある。前者は、時刻tにおける確率密度は時刻t−1における各確率密度の周囲にガウス分布している、とするモデルである。後者は、サンプルデータから取得した2次以上の自己回帰予測モデルを仮定する手法で、例えば人物152がある速度で等速運動をしているといったことを過去のパラメータの変化から推定する。
一方、後述するように本実施の形態では、時刻t−1と時刻tの画像フレームを比較し、追跡対象の像の位置の変化に係る情報を別途、取得することにより、パーティクルの遷移の方針を決定する。なお図2の例では一例として、パラメータx1の正方向への動くように各パーティクルを遷移させている。
次に、各パーティクルで決定される候補曲線の近傍にある人物152のエッジを、時刻tのエッジ画像を用いて探索することにより、各候補曲線の尤度を求め、時刻tにおける確率密度分布を推定する(S16)。前述のとおり、このときの確率密度分布はS16に示すように、真の確率密度分布400を離散的に表したものになる。以降、これを繰り返すことにより、各時刻における確率密度分布がパラメータ空間において表される。
例えば確率密度分布が単峰性であった場合、すなわち追跡対象が唯一であった場合は、得られた確率密度を用いて各パラメータの値に対し重み付けした和を最終的なパラメータとすることにより、追跡対象に最も近い輪郭の曲線が得られることになる。S16において推定される時刻tにおける確率密度分布p(xt i)は以下のように計算される。
ここでiはパーティクルに一意に与えられた番号、p(xt i|xt i, ut-1)は適用する運動モデル、p(yt|xt i)は尤度である。
図3は本実施の形態における視覚追跡システムの構成例を示している。視覚追跡システム2は、追跡対象1を撮像する撮像装置12、追跡処理を行う追跡装置10、撮像装置12が撮像した画像のデータや追跡結果のデータを出力する表示装置16を含む。追跡対象1は人、物、それらの一部など、視覚追跡システム2の使用目的によって異なっていてよいが、以後の説明では上記の例同様、人であるとする。
追跡装置10と、撮像装置12あるいは表示装置16との接続は、有線、無線を問わず、また種々のネットワークを介していてもよい。あるいは追跡装置10、撮像装置12、表示装置16のうちいずれか2つ、または全てが組み合わされて一体的に装備されていてもよい。また使用環境によっては、撮像装置12と表示装置16は同時に追跡装置10に接続されていなくてもよい。
撮像装置12は、追跡対象1を含む画像、または追跡対象1の有無に関わらずある場所の画像のデータを、所定のフレームレートで取得する。撮像装置12は既知の間隔を有する左右の位置から同一の空間を撮影する2つのカメラからなるステレオカメラであり、それぞれがCCD(Charge Coupled Device)またはCMOS(Complementary Metal Oxide Semiconductor)等の撮像素子を備えている。取得された画像データが順次、追跡装置10に入力されることにより、追跡対象1の追跡処理がなされる。このとき左右の視点から撮影されたステレオ画像を用いて、追跡対象1の撮像装置12からの距離に係る情報を取得し、それを利用する。
なお撮像装置12をステレオカメラで構成するのに代え、単眼のビデオカメラと、追跡対象1の撮像装置12からの距離を取得できるセンサとで構成してもよい。追跡対象1の距離を取得できるセンサとして、赤外線などの参照光を対象物に照射しその反射光を検出する装置を利用してもよい。さらに撮像装置12は、取得した画像フレームを所定の解像度に縮小することにより、複数解像度の画像データを出力するようにしてもよい。
追跡処理の結果は追跡装置10の制御のもと、出力データとして表示装置16へ出力される。追跡装置10は、別の機能を実行するコンピュータを兼ねていてもよく、追跡処理の結果得られたデータ、すなわち追跡対象1の位置情報や形状情報などを利用して、ゲームなど様々な機能を実現してよい。
図4は、本実施の形態における追跡装置10の構成を詳細に示している。追跡装置10は、撮像装置12から入力される撮影画像のデータを取得する画像取得部20、撮影画像のデータや奥行き画像のデータ、輪郭画像のデータを記憶する画像記憶部24、撮影画像から輪郭画像を生成する輪郭画像生成部22、追跡の開始および終了を判定する追跡開始終了判定部28、パーティクルフィルタを用いて追跡処理を行う追跡処理部26、最終的な追跡結果のデータを記憶する結果記憶部36、追跡結果の表示装置16への出力を制御する出力制御部40を含む。
図4において、様々な処理を行う機能ブロックとして記載される各要素は、ハードウェア的には、CPU、メモリ、その他のLSIで構成することができ、ソフトウェア的には、画像処理を行うプログラムなどによって実現される。したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組合せによっていろいろな形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。
画像取得部20は、一般的な技術により撮像装置12と通信を確立し、撮影された画像フレームに基づくデータを即時取得していく。ここで取得するデータは、ステレオ画像のデータのほか、その少なくとも一方を複数の解像度で表したデータを含んでよい。また、1つの視点からの撮影画像のデータと奥行き画像のデータなどでもよい。取得したデータは順次、画像記憶部24に格納していく。
輪郭画像生成部22は、撮影された各画像フレームから追跡対象の輪郭線を抽出し、輪郭画像を生成する。当該輪郭画像は画像記憶部24に格納され、後に追跡処理部26の観測部30において候補曲線の尤度観測に用いられる。「輪郭線」はエッジ画像における「エッジ」の一部であるため、従来の技術では「エッジ画像」をそのまま用いて尤度観測が行われていた。しかし一般的なエッジ抽出処理では、追跡対象の輪郭線以外にも多くのエッジが抽出されるため、輪郭線以外のエッジとのマッチングにより尤度観測が正確に行われないことが考えられた。また、エッジ抽出のしきい値を高く設定してエッジの数を減らすと、輪郭線がとぎれてしまい、やはり尤度観測が正確に行われない可能性がある。
そこで本実施の形態の輪郭画像生成部22は、そのように抽出されるエッジのうち追跡対象の輪郭線として確度の高いエッジのみを抽出することにより、尤度観測を精度よく行えるようにする。以後、このように抽出したエッジのみからなる画像を「輪郭画像」として一般的な「エッジ画像」と区別する。具体的な構成として輪郭画像生成部22は、奥行き画像取得部42とエッジ抽出部44を備える。奥行き画像取得部42は、各画像フレームの奥行き画像を取得し、エッジ抽出部44に供給する。ここで奥行き画像は、視野内にある物の撮像装置12からの奥行き方向の距離を、画像平面の2次元座標にマッピングし画素値として表した画像である。
撮像装置12からステレオ画像のデータを取得する態様においては、奥行き画像取得部42は、画像記憶部24に格納されたステレオ画像を用いてステレオ画像法など一般的な手法により奥行き画像を生成する。ステレオ画像法は、ステレオ画像における同一の被写体の像の位置から視差を求め、三角測量の原理によって奥行き方向の距離を導出する手法である。この場合、奥行き画像取得部42は、生成した奥行き画像のデータを、後段の追跡処理に備え画像記憶部24にも格納する。一方、撮像装置12において被写体の距離を検出する態様においては、TOF(Time of Flight)などの技術により撮像装置12で生成され送信された奥行き画像のデータを、奥行き画像取得部42が画像記憶部24から読み出す。
エッジ抽出部44は、奥行き画像取得部42が取得した奥行き画像と、追跡処理部26が導出した、前の画像フレームに対する追跡結果とに基づき、追跡対象の像の領域を特定する。そして画像フレームから生成したエッジ画像に含まれるエッジのうち、追跡対象の像の領域に対応するエッジを抽出する。その結果、当該追跡対象に起因して発生していると推定できるエッジからなる輪郭画像が生成される。追跡対象が複数、存在する場合は、輪郭画像は追跡対象ごとに生成される。
追跡開始終了判定部28は、輪郭画像生成部22によって得られた輪郭線などの形状を評価し、所定の条件によって、追跡を開始するか終了するかを判定する。なおここでの「終了」はオクルージョンなどによる追跡の一時停止を含んでもよい。追跡は、追跡対象が撮像装置12の視野内に現れた場合や、物陰などから現れた場合などに開始し、追跡対象が撮像装置12の視野内から去った場合や物陰などに入った場合などに終了する。追跡の開始や終了を判定した際、追跡開始終了判定部28は追跡処理部26にその旨を通知する。
追跡処理部26は、サンプリング部29、観測部30、および結果取得部34を含む。サンプリング部29は、一つ前の時刻t−1における画像フレームに対して推定された確率密度分布に基づき、パーティクルの生成および消滅の処理を行い、パラメータ空間上で遷移させる。これにより、時刻tの画像フレームにおける複数の候補曲線が決定する。より詳細にはサンプリング部29は、変位取得部46とパーティクル操作部48を備える。
変位取得部46は、画像記憶部24から画像フレームと奥行き画像のデータを取得し、追跡対象の像の画像平面上での動きの情報および、追跡対象の奥行き方向の動きの情報を取得する。パーティクル操作部48は、パーティクルの生成および消滅の処理を行った後、変位取得部46が取得した動きの情報に基づき、各パーティクルのパラメータ空間上での遷移先を決定する。
具体的には、画像平面上での動きの情報に基づき、形状空間ベクトルのうち並進量の成分を決定し、奥行き方向の動きの情報に基づき、倍率の成分を決定する。それ以外の成分については、ガウス分布など一般的な手法により決定してよい。サンプリング部29は、追跡開始終了判定部28から追跡開始を要求されたら処理を開始し、追跡終了を要求されたら処理を終了する。
観測部30は、サンプリング部29が遷移させた各パーティクルが定める候補曲線の尤度を観測する。例えば各パーティクルが定める候補曲線をそれぞれBスプライン曲線で表現した場合、当該Bスプライン曲線のノットごとに、輪郭画像生成部22が生成した輪郭画像において最近傍にある輪郭線を探索し距離を求めることにより、所定のルールでノットをスコアリングする。そして候補曲線を構成する全ノットのスコアに基づき当該候補曲線の尤度を求める。
結果取得部34は、観測部30が観測した尤度に基づき式3で示すような確率密度分布p(xt i)を算出し、それにより重み付け平均したパラメータによって得られる曲線のデータなどの追跡結果を算出し、結果記憶部36に格納する。また次の時刻t+1における追跡処理に使用するため、サンプリング部29にそのデータを返す。結果記憶部36に格納するデータは、重み付け平均した各パラメータの値でもよいし、それにより定まる曲線のみで構成される画像や、曲線と入力画像とを合成してできた画像のデータなどのいずれでもよい。
追跡対象が複数存在する場合、結果取得部34はさらに、それぞれに用意したテンプレートを用いて追跡対象ごとに結果を生成し、それらを合成することによりひとつの追跡結果としてもよい。また複数の追跡対象が重なるような場合を追跡結果によって検出し、後ろに隠れる追跡対象については所定のタイミングで追跡処理対象からはずすなどの措置を講じる。これにより追跡対象が別の追跡対象の背後に回ったことによって観測尤度が一時的に低下しても、不適当な追跡結果を出力するのを避けることができる。
輪郭画像生成部22および追跡処理部26による上述の処理を、各画像フレームに対して行うことにより、結果記憶部36には、例えば追跡結果を含む動画像のデータが記憶される。この場合、出力制御部40の制御のもと、当該動画像のデータが表示装置16に出力されることにより、テンプレートの曲線が追跡対象の動きと同様に動く様を表示することができる。なお上述のとおり出力制御部40は、追跡結果を動画として表示する以外に、追跡の目的に応じて別の演算モジュールに出力するなどの処理を適宜行ってよい。
次にこれまで述べた構成による追跡装置10の動作について説明する。以下、例としてある場所にいる人物を追跡する場合について説明する。このとき撮像装置12は、撮影対象の空間を所定のフレームレートで撮影する。その結果、取得された画像のデータは追跡装置10の画像取得部20へ入力され、画像記憶部24に順次、格納される。このような状態において以下に述べる追跡処理が行われる。
図5は本実施の形態における追跡処理の手順を示すフローチャートである。この例では追跡対象が人物であるため、追跡装置10には前述のとおりΩ型のテンプレートを用意する。なおテンプレートの表現手法はBスプライン曲線に限らず、所望の曲線を表現できる記述形式であればよい。またテンプレート形状の変形手法も、その記述形式に適合し、数種類のパラメータを変化させることによって上述のような柔軟な変形を行うことのできる手法を適宜選択してよい。
まず追跡開始終了判定部28は、画像記憶部24に格納された撮影画像のデータをフレームごとに読み出し、追跡対象の出現を監視することにより追跡を開始するかどうかの判定を行う(S20、S22)。例えば、画像フレームから抽出した前景として、人物と推定できる所定のサイズ、形を有する対象が出現した場合には、追跡を開始する判定を行う。判定基準となる前景のサイズや形はあらかじめ論理的にまたは実験的に定めておく。前景の抽出処理は、輪郭画像生成部22に実装された図示しない前景抽出器を利用してもよい。この場合は、追跡開始終了判定部28が、輪郭画像生成部22に対し前景抽出処理の要求を行う。あるいは追跡開始終了判定部28が前景抽出器を実装していてもよい。
追跡開始と判定されるまでS20の監視を継続し(S22のN)、追跡開始と判定されたら(S22のY)、追跡処理部26が追跡処理を開始する。ここで、追跡開始を判定された画像フレームに対応する時刻をt=0とし、以後の画像フレームは時刻t=1,2,3,・・・にそれぞれ対応するとする。まず、サンプリング部29が輪郭画像生成部22に対し、輪郭画像生成処理の開始を要求することにより、輪郭画像生成部22はt=0の画像フレームの輪郭画像を生成する(S26)。この段階での輪郭画像は一般的なエッジ画像でよい。
サンプリング部29は、例えばパラメータ空間の所定領域に均等にパーティクルを配置してサンプリングを行い、観測部30が各パーティクルが定める候補曲線と輪郭画像とをマッチングすることにより尤度を観測し、結果取得部34が式3により確率密度分布の初期値p(x0 i)を算出する(S28、S30、S32)。
一方、輪郭画像生成部22は、画像記憶部24より時刻t=1の画像フレームを読み出し輪郭画像を生成する(S34のN、S26)。このとき上述のとおり、時刻t=0に対し算出した確率密度分布の初期値p(x0 i)から得られる追跡対象の輪郭線に基づき、奥行き画像を用いて領域を限定したうえでエッジを抽出する。サンプリング部29は、確率密度分布の初期値p(x0 i)に対応した数のパーティクルをパラメータ空間上に発生させ、遷移させることによりサンプリングを行う(S28)。発生させるパーティクルの数は、追跡装置10が有する演算リソースの量や、求められる結果出力速度などに基づき、処理の負荷を考慮して制御する。
また上述のとおり、追跡対象の動きを別の観点からおよそ見積り、その結果をパーティクルの遷移方向に反映させることにより、追跡対象の個々の動きに対応したサンプリングを効率的に行う。観測部30は、遷移後のパーティクルが定める各候補曲線の尤度p(yt|xt i)を観測する(S30)。尤度の観測は、輪郭画像生成部22が生成した時刻t=1の輪郭画像を用いて追跡対象ごとに行う。
次いで結果取得部34は、観測された尤度に基づき時刻t=1の確率密度分布p(x1 i)を求める。複数の追跡対象が存在する場合は、上記の処理を全ての追跡対象について行う。そして結果取得部34は、時刻t=1における確率密度分布p(x1 i)を用いて各パラメータを重み付し平均して得られるΩ型の曲線などを決定し、元の画像フレームに重ねて描画するなど、所望の追跡結果のデータを生成して結果記憶部に保存する(S32)。
これらの処理と並行し追跡開始終了判定部28は、追跡処理をこれ以上続行するか終了するかの判定を行っている(S34)。追跡処理を終了しないと判定した場合は(S34のN)、時刻t=2の画像フレームから輪郭画像を生成するとともに、S32で得られた時刻t=1のときの確率密度分布p(x1 i)を用いて、パーティクルの生成や遷移を行い、時刻t=2のフレームに対する尤度観測、確率密度分布算出を行う(S26〜S32)。
以降、S34で追跡開始終了判定部28が追跡終了の判定を行うまで(S34のY)、S26からS32までの処理を、各画像フレームに対して繰り返す。これにより、Ω型の曲線が追跡対象の頭部と同じ動きおよび形状で、時間に対して変化していくような動画のデータが結果記憶部36に格納される。出力制御部40が当該データを、表示装置16や別の機能を提供するモジュールなどに出力することにより、任意の形態で追跡結果を利用することができる。
次に輪郭画像生成部22による輪郭画像の生成処理について説明する。上述のとおり輪郭画像は各候補曲線の尤度を求めるのに用いられ、追跡結果に大きな影響を与える。一方、撮影画像には撮像装置12の視野に入る様々な物の像が含まれるため、単にエッジ画像と候補曲線を比較した場合、追跡対象以外の物を表すエッジ線とのマッチングにより正確な観測結果が得られないことが考えられる。少なくとも背景の情報を除去するため、あらかじめ準備した背景画像との差分画像を処理対象とすることが考えられるが、カーテンなど背景自体が動いてしまったり撮像装置12を動かしたりすると、前景のみの抽出が困難になる。前景抽出の精度を追求するほど、背景画像を厳密に取得する必要があり手間が増える。
そこで本実施の形態では、奥行き画像を用いて、追跡対象に起因する可能性が高いエッジを抽出する。図6は奥行き画像を用いて追跡対象に対応するエッジを抽出する原理を説明するための図である。図示するように、ある時刻の画像フレーム160において、二人の人物164、166が写っているとする。人物166は人物164より撮像装置12から離れた場所にいるため、その像は人物164より小さくなっている。
このような画像フレーム160に対応する奥行き画像162は、人物164、166の像168、170を、それぞれの撮像装置12からの距離を画素値として表す。同図の奥行き画像162は、撮像装置12に近い物ほど高い輝度で表しているが、奥行き画像の形式をこれに限定する趣旨ではない。また実際には各人物の表面の凹凸に応じて画素値も変化する場合があるが、本実施の形態で用いる奥行き画像はそれほどの分解能がなくてもよい。また撮像装置12の視野内に人物164、166以外の物があれば、奥行き画像には当然、その像も含まれる。
輪郭画像生成部22のエッジ抽出部44は、前の時刻の画像フレームに対する追跡結果に基づき、奥行き画像162中の対応する像の領域を抽出する。例えば前の画像フレームで推定された人物164の頭部輪郭に基づき現時刻の奥行き画像162を参照し、当該人物164の撮像装置12からの距離Ztを特定する。このとき、頭部輪郭に代わって顔認識処理を行った結果を利用してもよい。そして当該距離Ztに基づき、表面の凹凸、体の厚み、距離の算出誤差等を考慮し決定した距離の範囲Zt−ΔZ<z≦Zt+ΔZ内の画素値を有する画素を抽出する。このとき、前の画像フレームにおける追跡結果に基づき決定した処理領域172に限定して抽出を行うことで、同程度の距離にある他の物の像の抽出の可能性を減らす。
その結果、人物164の像168の領域、すなわち同図における白抜きの領域を特定できる。人物166も追跡対象であれば同様の処理により、像170の領域を特定できる。このような像の情報と、別途取得したエッジ画像から得られる情報とを利用することにより、背景などその他の物の動きや撮像装置12自体の動きの影響を少なく、追跡対象に限定したエッジ線を取得することができる。
図7は、図5のS26において輪郭画像生成部22が輪郭画像を生成する処理手順を示すフローチャートである。まず奥行き画像取得部42は、上述のいずれかの処理により時刻tの画像フレームの奥行き画像を取得する(S40)。続いてエッジ抽出部44は、前の時刻t−1の追跡結果を追跡処理部26から取得することにより、画像平面における処理領域を決定する(S42)。
例えば、推定された頭部の輪郭線の内側の領域、または輪郭線に外接する頭部領域の矩形を画像平面に生成し、当該矩形の各辺から上下左右にそれぞれ所定距離だけ離れた辺を有する矩形を処理領域とする。これにより、抽出処理の効率を上げるとともに、他の物の影響を極力、排除する。処理領域のサイズは、前の時刻からの頭部の可動範囲を基準に決定する。撮像装置からの距離に応じて見かけ上の可動範囲が変化するため、奥行き画像から得られる追跡対象の距離に応じて処理領域のサイズも変化させる。
次にエッジ抽出部44は、時刻tの奥行き画像における当該処理領域内に表れている追跡対象の像の領域を、画素値に基づき抽出する(S44)。例えば当該奥行き画像に、前の時刻t−1の画像フレームで推定された頭部輪郭を当てはめ、その輪郭内の画素値の平均、または中央値を当該追跡対象の頭部の距離Ztとする。そして上述のようにZt−ΔZ<z≦Zt+ΔZの範囲内の画素値を有する画素を、処理領域から抽出する。人の体を対象としたときΔZは典型的には30cm程度とするが、撮像装置12から離れるほど距離の算出誤差が大きくなるため、好適には当該距離に応じてΔZを調整する。
次にエッジ抽出部44は、時刻tの画像フレームからエッジ画像を生成したうえ、S44で抽出した領域を利用して、追跡対象に起因すると推定されるエッジをエッジ画像から抽出する(S46)。最も単純には、S44で抽出した領域のエッジ線を抽出する。ただしこの場合、S44で抽出した領域を所定の倍率で微少量、膨張させた領域を生成したうえ、その内部のエッジを抽出する。これにより、抽出した領域の境界線に輪郭線が重なったり境界線からはみ出したりして、肝心の輪郭線を表すエッジが抽出対象から外れないようにする。
あるいは、他の観点からも追跡対象の領域を求め、上述のように奥行き画像から抽出した領域と統合してもよい。例えば背景差分法により撮影画像の前景領域を抽出し、そのうちS42で決定した処理領域内の前景領域を追跡対象の領域として別途特定する。そしてこの前景領域を上述と同様の理由で微少量、膨張させた領域と、S44で抽出した領域の、少なくともいずれかに属する領域内のエッジを抽出する。このようにすると、奥行き画像から抽出した追跡対象の像の領域に、距離の算出不能などに起因した抜けがあっても、それによる抽出エッジの欠落を抑えることができる。また処理領域を限定していることから、背景等に動きがあっても過大な範囲の前景領域を抽出してしまうことがない。
さらにエッジ抽出部44は、そのような抽出の元となるエッジ画像の生成手法を工夫することにより、服のしわなどを表す余分なエッジを排除しつつ、追跡対象の輪郭線を表すエッジが安定的に得られるようにしてもよい。例えば特開2009−224924号公報に記載されるように、撮影された画像フレームを低階調化してからエッジ抽出処理を行ってもよい。
上述のとおりエッジとは、輝度や色の変化が大きい部分を表す線である。したがって基本的には、輝度値の画像平面に対する変化の大きさに対してあるしきい値を設定し、そのしきい値を超えるような変化がある箇所をエッジとして抽出する。結果としてエッジの抽出結果は、しきい値の設定に大きく影響を受ける。しかし輝度値の分布は、存在する物の色、影の出来具合、照度などによって変化するため、当該しきい値の設定がそれらの環境の変化に対し適切に設定されていないと、本来の輪郭線がエッジとして抽出されなかったり、細かい服のしわ等まで抽出されてしまったりすることが考えられる。
そこで元の画像フレームの階調を下げ、物の表面の詳細な情報より、表面全体を大まかに捉えることを優先させて、物の輪郭がエッジとして抽出されやすくする。つまり物の表面を表す領域を、影やしわによらずなるべく同じ階調値に収めることにより、物の輪郭のみで階調が大きく変化するようにする。これにより輝度の微分値などフィルタリング時のパラメータが突出した箇所が限定的となるため、しきい値を詳細に最適化しなくとも、輪郭線を表すエッジを安定的に得ることができる。
このとき、まず画像フレームをガウシアンフィルタ、メディアンフィルタ、単純平均化フィルタ、ローパスフィルタなど一般的な平滑化フィルタで平滑化することにより、余分な高周波成分を除去して、物の面を領域として捉えやすくする。そしてあらかじめ定めた境界で輝度値を区分けし、各区分内の輝度値を一の輝度値に変換することにより低階調化する。このとき、輝度値を下から均等に区分けしてもよいし、画像フレームのカラーヒストグラムを作成し、区分けした際、画素の数が均等になるような輝度値を境界としてもよい。一般的なポスタリゼーションの手法を用いてもよい。低階調画像の階調数は例えば8〜32階調程度とすることができる。
そして低階調化した画像に対し、ラプラシアンフィルタ、ソーベルフィルタ、キャニーエッジフィルタなど一般的なエッジ抽出フィルタを用いフィルタリングすることによりエッジ画像を生成する。このようにして取得されるエッジのうち、上述のように奥行き画像を用いて抽出した領域、あるいは当該領域と前景領域の和となる領域のエッジのみをさらに抽出することにより、追跡対象の輪郭線として、より信頼度が高いエッジからなる輪郭画像が得られる。
追跡対象が他にある場合は(S48のN)、S42、S44、S46の処理を繰り返す。全ての追跡対象について輪郭画像を生成したら処理を終了する(S48のY)。その結果、追跡対象ごとに輪郭画像が生成される。追跡処理部26の観測部30は、各追跡対象に対し生成した候補曲線を、画像記憶部24から読み出した、当該追跡対象に対応づけられた輪郭画像と比較することにより尤度を観測する。
図8は、実際の画像を用いて輪郭画像を生成する様子を例示している。まず画像フレーム180の画像平面において、前の画像フレームに対する追跡結果から得られる頭部の領域182に対し、所定の規則により処理領域184aを設定する。一方、画像フレーム180に対応する奥行き画像186に対し、前の画像フレームで推定された頭部の輪郭線188を当てはめ、その内部領域の画素値に基づき、当該追跡対象の像の領域として抽出する画素の画素値の範囲を決定する。
決定した範囲の画素値を有する画素を、奥行き画像186の処理領域184bから抽出することにより、追跡対象の像の領域を表す画像189が生成される(矢印A)。画像フレーム180から生成されるエッジ画像中のエッジのうち、画像189が表す領域、あるいはそれに前景領域を足した領域に対応するエッジを抽出することにより、追跡対象の輪郭画像190が得られる(矢印B、C)。上述のとおり、抽出元となるエッジ画像は、画像フレーム180を低階調化したうえでエッジ抽出処理を施したものなどとする。
次に、追跡処理部26のサンプリング部29が、パーティクルをパラメータ空間上で遷移させる処理について説明する。図2を参照して説明したようにサンプリング部29は、前の画像フレームにおいて推定された確率密度分布に対応させて生成、消滅させたパーティクルを、現時刻の画像フレームに対応するように遷移させる。一般的には上述のように、パラメータ空間中でガウス分布させたり、自己回帰予測により運動モデルを推定したりすることがなされる。
しかし追跡対象である人の意志や、ゲームなど、追跡結果を利用する情報処理の種類により、動きの特性は様々であり、それらの全てに対応できる運動モデルを設定するのは困難である。設定された運動モデルと実際の動きとの解離が大きいほど、候補輪郭の配置精度が低下し、ひいては追跡精度の低下につながる。追跡精度を維持するためにパーティクルの数を増やすと処理の負荷が増大し、リアルタイム性が損なわれやすくなる。そこで本実施の形態では、変位取得部46が、追跡対象の像の動きや奥行き方向の動きを別途、取得することにより、実際の動きに応じて効率的かつ精度よくパーティクルを遷移させる。
図9は、形状空間ベクトルのうち横方向(x方向)、縦方向(y方向)の並進量の成分を決定する原理を説明するための図である。図6と同様、画像フレーム200には複数の人の像が含まれる。図示するように画像フレーム200は、時間軸に対し所定のレートで取得される。このうち時刻t−1と、その次の時刻tの画像フレーム200における、ある人物の頭部の像を拡大し、重ねて表したものが頭部領域202である。ここで、細線で囲まれた網掛けされた領域が時刻t−1における頭部の像204、太線で囲まれた白抜きされた領域が時刻tにおける頭部の像206であるとする。この例では時刻t−1から時刻tに至る時間経過により、頭部の像が、画像上で右下に動いていることを表している。
この動きを、画像フレーム間のマッチングによって取得することにより、時刻t−1の確率密度分布に基づき発生させたパーティクルを、時刻tに対し画像平面のどの方向にどれだけ移動させれば効率よくサンプリングできるかが判明する。ただし頭部自体の回転などによって頭部の輪郭形状が維持されたまま平行移動するとは限らないため、頭部領域202の画像を複数に分割してなる画像ブロックごとに像の移動先を求め、それらの移動ベクトルから頭部全体の移動ベクトルを求める。頭部全体の移動ベクトルは、画像ブロックごとの移動ベクトルを平均したり、中央値を求めたりすることによって得られる。
同図の例では、頭部領域202を縦方向、横方向にそれぞれ3分割してなる9個の画像ブロックの移動ベクトルを各矢印で表している。ただし頭部領域202内には背景など、頭部以外の像が含まれていることが考えられる。そのような像を計算に含めるほど、本来の頭部の移動ベクトルの誤差が大きくなるため、画像ブロック内の像の構成によっては、移動ベクトルの算出処理から除外することが望ましい。画像ブロックに頭部以外の像がどの程度、含まれているかは、奥行き画像のうち各画像ブロックに対応する領域の画素値から検出できる。
例えば、前の時刻の奥行き画像のうち画像ブロック内の画素値の平均値、あるいは中央の画素の画素値と、その時刻に対し推定された頭部輪郭内部の画素値の平均値とを比較する。両者の差が所定値以上であれば、当該画像ブロックには頭部以外の像が多く含まれていると判定し、マッチング対象から除外する。図9の例では、頭部領域202の3×3個の画像ブロックのうち、右上および左下の画像ブロックについてはマッチング対象から除外したとして移動ベクトルを表す矢印を示していない。
このようにして変位取得部46が頭部全体の移動ベクトル(Mx, My)を算出したら、パーティクル操作部48は、時刻t−1の追跡結果から生成したパーティクルを、当該移動ベクトル(Mx, My)に対応するように画像平面上で遷移させる。すなわち(式1)で表した形状空間ベクトルxのうち、時刻tにおける並進量成分(shiftx(t),shifty(t))を次のように設定する。
shiftx(t)=shiftx(t-1)+αMx
shifty(t)=shifty(t-1)+αMy
shiftx(t)=shiftx(t-1)+αMx
shifty(t)=shifty(t-1)+αMy
ここで(shiftx(t-1),shifty(t-1))は遷移前の各パーティクルの並進量成分、αは調整項であり所定の分布曲線に従う乱数でもよい。このようにすることで、マッチングにより推定される頭部のおよその動きを加味して効率よくパーティクルを配置することができる。なお各画像ブロックの「マッチング」は、画像ブロックの輝度分布などに基づき領域単位で探索するブロックマッチングのみならず、特徴点の移動先を探索することによって行ってもよい。
例えば、オプティカルフローの一種であるKLT(Kanade-Lucas-Tomasi)トラッカーの技術を用いてもよい。KLTトラッカーでは、曖昧さの小さい微少領域を特徴点として選択し、一つ後の画像フレームにおいて当該微少領域と最も類似している微少領域を検出する。この技術を用いることにより、追跡対象が移動していない状況であっても精度のよい追跡が可能となる。
結果として、頭部の前で腕など他の物体が動くことにより頭部が動いているように認識される、といった誤認識の可能性が低くなる。ただしマッチング手法をこれに限る趣旨ではなく、カラーヒストグラムを用いるなど、一般的な手法のいずれを採用してもよい。なおKLTなど特徴点に着目して移動先を探索する場合は特に、複数解像度の画像を用いて処理を効率化することが望ましい。すなわち原画像である撮影画像を縮小してなる複数解像度の画像を画像フレームごとに生成し、一つ前の画像フレームの特徴点に対応する特徴点を、低解像度側の画像から探索していく。
ここで、ある解像度の画像を探索する際は、それより一段階、低い解像度の画像で検出した特徴点の位置に基づき探索領域を限定する。そのようにして探索対象の解像度を上げていき、検出される特徴点の位置が複数の解像度で一致しているとみなせたとき、探索結果が収束したとしてそれ以上高い解像度の画像については探索しない。これにより、初めから高解像度の画像における広い領域を探索するより探索範囲が格段に狭まり処理効率が上がる。複数解像度の画像のデータは、上述のように撮像装置12が生成したものを順次、取得するようにしてもよいし、変位取得部46が各画像フレームから生成してもよい。
また、上述のように奥行き画像を用いて頭部以外の像を多く含む画像ブロックを同定しマッチング対象から除外するのに加え、マッチング結果として得られた、各画像ブロックの移動ベクトルのうち、異常値と考えられるものを頭部全体の移動ベクトルの決定処理から除外してもよい。画像フレームを取得する周期は1/30秒程度かそれより小さく、そのような微少時間に頭部が移動できる距離は限られている。したがって、頭部など追跡対象の可動距離に応じて移動ベクトルの長さに上限Vuを設け、それを越える長さを有する移動ベクトルを頭部全体の移動ベクトルの決定処理から除外する。
ここで移動ベクトルは撮影画像における見かけ上のものであるため、実際に同じ距離だけ移動しても、撮像装置から近いほど移動ベクトルが長くなる。そのため奥行き画像を参照して追跡対象の撮像装置からの距離zを取得し、それに応じて長さの上限Vuを、例えば次のように設定する。
Vu=C×Z0/z
ここでZ0は基準とする距離であり、Cはその距離に追跡対象が存在するときの、見かけ上の可動距離の上限であり、撮像装置12の画角などから論理的に導出してもよいし、実験により決定してもよい。
Vu=C×Z0/z
ここでZ0は基準とする距離であり、Cはその距離に追跡対象が存在するときの、見かけ上の可動距離の上限であり、撮像装置12の画角などから論理的に導出してもよいし、実験により決定してもよい。
サンプリング部29はさらに、撮像装置12からの距離の情報を用いて、形状空間ベクトルのうち倍率の成分を決定する。図10は、形状空間ベクトルのうち横方向(x方向)、縦方向(y方向)の倍率成分を決定する原理を説明するための図である。同図では、前の時刻t−1の画像フレーム300における人の像を実線で表している。これに対し現時刻tにおいて、手前の人物の頭部の輪郭が、一点鎖線で示したように小さくなった場合、当該頭部は撮像装置12から離れていることになる。一方、点線で示したように大きくなった場合、当該頭部は撮像装置12に近づいていることになる。
図10の下段には、そのような頭部の像に対応する、撮像装置12からの頭部の位置関係を、距離zを横軸に模式的に示している。つまり時刻tにおける距離z(t)が、時刻t−1における距離z(t−1)より大きければその像は縮小方向にあり、小さければその像は拡大方向にある。変位取得部46は、距離z(t−1)およびz(t)を、時刻t−1および時刻tの奥行き画像における追跡対象の像の画素値から取得する。ここで時刻tにおける追跡対象の像は、図9で示した手法によっておよそ推定できる。
そしてパーティクル操作部48は、取得した距離の情報を用いて形状空間ベクトルの倍率成分を決定する。例えば(式1)で表した平常空間ベクトルxのうち、時刻tにおける倍率成分(extendx(t),extendy(t))を次のように設定する。
extendx(t)=extendx(t-1)×βf(Δz)
extendy(t)=extendy(t-1)×βf(Δz)
extendx(t)=extendx(t-1)×βf(Δz)
extendy(t)=extendy(t-1)×βf(Δz)
ここで(extendx(t-1),extendy(t-1))は遷移前の各パーティクルの倍率成分である。f(Δz)は、撮像装置12からの距離の変位量Δz=z(t)−z(t−1)によって定まる頭部のサイズの変化の割合を、距離の算出誤差等を考慮して有限範囲として導出する関数である。定性的には関数f(Δz)は、追跡対象が撮像装置12に近づいたら1より大きい数値範囲を、遠ざかったら1より小さい数値範囲を出力する。例えば撮像装置12に0.5m近づいたらf(−0.5)=1.5〜2.0、0.2m遠ざかったらf(0.2)=0.7〜0.8などとする。関数f(Δz)は撮像装置の画角や追跡対象の距離に基づく論理計算式としてもよいし、変換テーブルとして表してもよい。βは調整項であり、所定の分布曲線に従う乱数でもよい。
上記は直近の移動量、つまり距離z(t−1)と距離z(t)の差のみを考慮したが、さらに別の時刻からの移動量を考慮することで、倍率成分をより厳密に決定してもよい。例えば追跡処理を開始した時点における追跡対象の距離z(0)を用いる。そしてその間の変位量Δz0=z(t)−z(0)から決定できる倍率成分の範囲、すなわち、
extendx(t)’=extendx(0)×βf(Δz0)
extendy(t)’=extendy(0)×βf(Δz0)
と、上記の直近の変位量Δzから決定できる倍率成分extendx(t)、extendy(t)との積集合となる範囲を、x方向、y方向でそれぞれ導出し、最終的な倍率成分の範囲とする。
extendx(t)’=extendx(0)×βf(Δz0)
extendy(t)’=extendy(0)×βf(Δz0)
と、上記の直近の変位量Δzから決定できる倍率成分extendx(t)、extendy(t)との積集合となる範囲を、x方向、y方向でそれぞれ導出し、最終的な倍率成分の範囲とする。
このようにすることで、撮像装置からの距離が取得できない領域の存在などに起因して倍率成分が過剰に変動するのを防ぐことができる。また頭部の前に腕など頭部以外の物が入り、一見、サイズが急激に変化したように見えても、そのようなサイズに対するサンプリングが抑えられるため、移動に起因した現実的な頭部サイズの変化のみを正しく追跡することができる。
図11は、図5のS28において追跡処理部26のサンプリング部29がパーティクルを配置することにより輪郭のサンプリングを行う処理手順を示すフローチャートである。まずパーティクル操作部48は、一つ前の時刻t−1に対する追跡結果として取得された確率密度分布p(xt-1 i)に対応するように、パラメータ空間にパーティクルを生成/消滅させる(S60)。これと並行して変位取得部46は、当該確率密度分布で表される頭部の輪郭線に基づき、画像フレームに処理領域を設定する(S62)。ここで処理領域とは図9の頭部領域202のように、次の時刻tにおける画像フレームとのマッチング対象となる領域であり、例えば輪郭線に外接する矩形や、それを所定倍率で拡大した矩形の領域とする。
続いて変位取得部46は、時刻t−1の画像フレームと時刻tの画像フレームにおける頭部の像の移動ベクトルを導出する(S64)。移動ベクトルは上述のように、処理領域を分割してなる画像ブロックごとにフレーム間でマッチングを行うなどして取得した移動ベクトルを領域全体で平均したり中央値を計算したりすることにより求められる。このとき上述のように、頭部以外の像を多く含む画像ブロックをマッチング処理から除外したり、上限より大きい長さを有する移動ベクトルを計算から除外したりすることで、頭部の像の移動を正確に見積もる。
パーティクル操作部48は、そのようにして得られた移動ベクトル(Mx, My)を用い、各パーティクルの並進量の成分を上述のように算出する(S66)。一方、変位取得部46は、複数の時刻の奥行き画像を参照し、頭部の奥行き方向の位置の直近の変化量Δz、および処理開始時など基準となる時刻からの変化量Δz0を求める(S68)。パーティクル操作部48は、それらの異なるスパンでの変化に対しパーティクルがとるべき倍率成分の数値範囲をそれぞれ求め、その積集合を取得することにより、各パーティクルの倍率成分を算出する(S70)。
そしてパーティクル操作部48は、形状空間ベクトルxのうち、並進量成分、倍率成分がS66、S70で決定した値、あるいは分布となるように各パーティクルを遷移させる(S72)。追跡対象が他にある場合は(S74のN)、S60〜S72の処理を繰り返す。全ての追跡対象についてパーティクルを遷移させたら処理を終了する(S74のY)。その結果、時刻tにおける追跡対象の候補輪郭を、より確度の高い位置および大きさで効率的に生成することができる。
以上述べた本実施の形態によれば、撮影中の動画における人の頭部など対象物を追跡する、パーティクルフィルタを用いた視覚追跡において、尤度を観測する際に用いるエッジ画像の生成に、撮像装置からの距離を画像平面に表した奥行き画像の情報を利用する。具体的には前の画像フレームの追跡結果に基づき決定した処理対象の領域中、撮像装置からの距離が所定範囲にある画素を、追跡対象の像の領域として奥行き画像から抽出する。そして当該領域を所定量、膨張させた領域内、あるいは、別途抽出した前景領域を所定量膨張させた領域との和の領域内のエッジのみを抽出する。
奥行き画像を利用することにより、追跡対象の像の領域を大まかに特定できるため、尤度観測時に、背景や他の物に起因するエッジ線の影響を除外することができる。結果として各候補曲線の尤度、ひいては追跡結果の確率密度分布を高精度に求めることができる。ここで前景領域との和をとることにより、奥行き画像中の追跡対象の領域に、距離の算出に失敗した部分が生じていても、それをカバーすることができる。また、前の時刻の追跡結果に基づき処理対象の領域を限定することにより、前景抽出に用いる背景画像が厳密に得られていなくてもエッジの抽出結果への影響が小さい。結果として背景が動いたり照明の関係で前景が高精度に抽出できなくても、上述の効果を得ることができる。
また、パーティクルを遷移させる過程において、前の時刻の画像フレームからの動きを大まかに見積もる。すなわち前の画像フレームの追跡結果に基づき決定した追跡対象の領域に対しフレーム間でマッチングをとることにより画像平面上での像の移動ベクトルを取得する。さらに奥行き画像に基づき撮像装置からの追跡対象の距離の変化量を取得する。決定した移動ベクトルに基づき、各パーティクルを定義する形状空間ベクトルのうち並進量の成分を決定し、撮像装置からの距離の変化量に基づき倍率成分を決定する。
これにより、正確な予測が困難だった追跡対象の運動モデルを、実際の動きに即して決定することができ、効率的な候補曲線のサンプリングが可能になる。結果として、パーティクルの数を限定的にしても高精度な追跡が可能になる。また、最終的にはパーティクルを用いて厳密に追跡するため、マッチング等による動きの見積もりは小さい処理負荷で大まかに行えばよい。そのような見積もりが失敗したとしても、その間は、従来通りにパーティクルを分布させれば追跡自体は破綻しないため、全体としての処理の負荷を増大させることなく高精度な追跡が可能となる。
さらに、追跡対象の像であるかないか、現実的な可動範囲やサイズの変化量、といった情報を、奥行き画像を利用して取得するため、異常値をいずれかの処理過程で除外することができる。結果として、人が踊っていたり複雑な動きをしていたりしても、追跡対象以外の物の動きの影響を低く抑えることができる。
以上、本発明を実施例をもとに説明した。この実施例は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
2 視覚追跡システム、 10 追跡装置、 12 撮像装置、 16 表示装置、 20 画像取得部、 22 輪郭画像生成部、 24 画像記憶部、 26 追跡処理部、 28 追跡開始終了判定部、 29 サンプリング部、 30 観測部、 34 結果取得部、 36 結果記憶部、 40 出力制御部、 42 奥行き画像取得部、 44 エッジ抽出部、 46 変位取得部、 48 パーティクル操作部。
Claims (12)
- 動画像における対象物の像を追跡する画像処理装置であって、
前記動画像を構成する画像フレームのうち第1の画像フレームに対し推定された追跡対象の輪郭線に基づき生成した候補輪郭を、後続の第2の画像フレームに対応するように操作するサンプリング部と、
前記第2の画像フレームを用いて、操作後の各候補輪郭の尤度を求めることにより、前記第2の画像フレームにおける追跡対象の輪郭線を推定し追跡結果として出力する追跡結果取得部と、
を備え、
前記サンプリング部は、前記第2の画像フレームに至るまでの前記追跡対象の動きの情報を、複数の画像フレームから得られる情報の比較結果に基づき取得し、それに応じて前記候補輪郭を操作することを特徴とする画像処理装置。 - 前記サンプリング部は、前記第1の画像フレームで推定された追跡対象の輪郭線に基づき決定した追跡対象の像の、画像平面における移動ベクトルを、前記複数の画像フレーム間のマッチング処理により取得し、当該移動ベクトルに基づき前記候補輪郭を画像平面上で移動させることを特徴とする請求項1に記載の画像処理装置。
- 前記画像フレームに対応し、被写体の撮像装置からの距離を画像平面に画素値として表した奥行き画像を取得する奥行き画像取得部をさらに含み、
前記サンプリング部は、前記奥行き画像の画素値の範囲に基づき、前記第1の画像フレームにおける前記追跡対象の像の領域を特定し、それに応じてマッチング対象の領域を決定することを特徴とする請求項2に記載の画像処理装置。 - 前記サンプリング部は、推定された追跡対象の輪郭線に基づき、当該追跡対象の像を含むマッチング対象の領域を前記第1の画像フレームに設定し、当該マッチング対象の領域を分割してなる画像ブロックごとに、内部の像の移動ベクトルを求め、それらに基づき前記追跡対象の像の移動ベクトルを求めることを特徴とする請求項2または3に記載の画像処理装置。
- 前記サンプリング部は、推定された追跡対象の輪郭線に基づき、当該追跡対象の像を含むマッチング対象の領域を前記第1の画像フレームに設定し、当該マッチング対象の領域を分割してなる画像ブロックごとに、内部の像の移動ベクトルを求め、そのうち、前記奥行き画像から得られる前記追跡対象の距離に応じて定まる上限を超える長さを有する移動ベクトルを除外した移動ベクトルに基づき前記追跡対象の像の移動ベクトルを求めることを特徴とする請求項3に記載の画像処理装置。
- 前記サンプリング部は、各画像フレームを複数の解像度で表した画像を取得し、前記マッチング処理として、前記複数の画像フレーム間で対応する特徴点を、最も低い解像度の画像から検出していき、異なる解像度間で検出結果が収束したとき、当該検出結果をマッチング結果として、前記移動ベクトルの取得に用いることを特徴とする請求項2から5のいずれかに記載の画像処理装置。
- 前記画像フレームに対応し、被写体の撮像装置からの距離を画像平面に画素値として表した奥行き画像を取得する奥行き画像取得部をさらに含み、
前記サンプリング部は、前記第1の画像フレームで推定された追跡対象の輪郭線に基づき、前記第1の画像フレームおよび第2の画像フレームに対応する前記奥行き画像から、当該追跡対象の撮像装置からの距離の変化量および変化の方向を取得し、当該変化量に基づき前記候補輪郭の大きさを変化させることを特徴とする請求項1または2に記載の画像処理装置。 - 前記サンプリング部はさらに、前記第1の画像フレームより前の基準時刻における画像フレームおよび前記第2の画像フレームにそれぞれ対応する前記奥行き画像から、当該追跡対象の撮像装置からの距離の変化量および変化の方向を取得し、それに応じて前記候補輪郭の大きさの変化量を調整することを特徴とする請求項7に記載の画像処理装置。
- 前記サンプリング部は、輪郭線を規定する形状空間ベクトルを表すパーティクルをパラメータ空間に分布させることにより前記候補輪郭を生成させたうえ、前記追跡対象の動きの情報に応じて、前記形状空間ベクトルの少なくともいずれかの成分を変化させ各パーティクルを前記パラメータ空間で遷移させることにより、前記候補輪郭を操作することを特徴とする請求項1から8のいずれかに記載の画像処理装置。
- 動画像における対象物の像を追跡する画像処理装置が、
前記動画像を構成する画像フレームをメモリより読み出し、そのうち第1の画像フレームに対し推定された追跡対象の輪郭線に基づき生成した候補輪郭を、後続の第2の画像フレームに対応するように操作するステップと、
前記第2の画像フレームを用いて、操作後の各候補輪郭の尤度を求めることにより、前記第2の画像フレームにおける追跡対象の輪郭線を推定し追跡結果としてメモリに格納するステップと、
を含み、
前記操作するステップは、前記第2の画像フレームに至るまでの前記追跡対象の動きの情報を、複数の画像フレームから得られる情報の比較結果に基づき取得し、それに応じて前記候補輪郭を操作することを特徴とする画像処理方法。 - 動画像における対象物の像を追跡するコンピュータに、
前記動画像を構成する画像フレームのうち第1の画像フレームに対し推定された追跡対象の輪郭線に基づき生成した候補輪郭を、後続の第2の画像フレームに対応するように操作する機能と、
前記第2の画像フレームを用いて、操作後の各候補輪郭の尤度を求めることにより、前記第2の画像フレームにおける追跡対象の輪郭線を推定し追跡結果として出力する機能と、
を実現させ、
前記操作する機能は、前記第2の画像フレームに至るまでの前記追跡対象の動きの情報を、複数の画像フレームから得られる情報の比較結果に基づき取得し、それに応じて前記候補輪郭を操作することを特徴とするコンピュータプログラム。 - 動画像における対象物の像を追跡するコンピュータに、
前記動画像を構成する画像フレームのうち第1の画像フレームに対し推定された追跡対象の輪郭線に基づき生成した候補輪郭を、後続の第2の画像フレームに対応するように操作する機能と、
前記第2の画像フレームを用いて、操作後の各候補輪郭の尤度を求めることにより、前記第2の画像フレームにおける追跡対象の輪郭線を推定し追跡結果として出力する機能と、
を実現させ、
前記操作する機能は、前記第2の画像フレームに至るまでの前記追跡対象の動きの情報を、複数の画像フレームから得られる情報の比較結果に基づき取得し、それに応じて前記候補輪郭を操作するコンピュータプログラムを記録したことを特徴とするコンピュータにて読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014211105A JP2016081252A (ja) | 2014-10-15 | 2014-10-15 | 画像処理装置および画像処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014211105A JP2016081252A (ja) | 2014-10-15 | 2014-10-15 | 画像処理装置および画像処理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2016081252A true JP2016081252A (ja) | 2016-05-16 |
Family
ID=55956320
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014211105A Pending JP2016081252A (ja) | 2014-10-15 | 2014-10-15 | 画像処理装置および画像処理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2016081252A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019042404A1 (zh) * | 2017-09-04 | 2019-03-07 | 腾讯科技(深圳)有限公司 | 一种图像处理方法、终端和存储介质 |
CN110163076A (zh) * | 2019-03-05 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种图像数据处理方法和相关装置 |
CN118015501A (zh) * | 2024-04-08 | 2024-05-10 | 中国人民解放军陆军步兵学院 | 一种基于计算机视觉的中低空低速目标识别方法 |
CN118015501B (zh) * | 2024-04-08 | 2024-06-11 | 中国人民解放军陆军步兵学院 | 一种基于计算机视觉的中低空低速目标识别方法 |
-
2014
- 2014-10-15 JP JP2014211105A patent/JP2016081252A/ja active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019042404A1 (zh) * | 2017-09-04 | 2019-03-07 | 腾讯科技(深圳)有限公司 | 一种图像处理方法、终端和存储介质 |
US11145070B2 (en) | 2017-09-04 | 2021-10-12 | Tencent Technology (Shenzhen) Company Limited | Image processing method, terminal, and storage medium |
CN110163076A (zh) * | 2019-03-05 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种图像数据处理方法和相关装置 |
CN110163076B (zh) * | 2019-03-05 | 2024-05-24 | 腾讯科技(深圳)有限公司 | 一种图像数据处理方法和相关装置 |
CN118015501A (zh) * | 2024-04-08 | 2024-05-10 | 中国人民解放军陆军步兵学院 | 一种基于计算机视觉的中低空低速目标识别方法 |
CN118015501B (zh) * | 2024-04-08 | 2024-06-11 | 中国人民解放军陆军步兵学院 | 一种基于计算机视觉的中低空低速目标识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6030617B2 (ja) | 画像処理装置および画像処理方法 | |
US10599228B2 (en) | Information processing device and method, program and recording medium for identifying a gesture of a person from captured image data | |
JP5213486B2 (ja) | 対象物追跡装置および対象物追跡方法 | |
JP4766495B2 (ja) | 対象物追跡装置および対象物追跡方法 | |
JP5520463B2 (ja) | 画像処理装置、対象物追跡装置および画像処理方法 | |
US9626766B2 (en) | Depth sensing using an RGB camera | |
JP6204659B2 (ja) | 映像処理装置及び映像処理方法 | |
JP4756660B2 (ja) | 画像処理装置および画像処理方法 | |
JP4915655B2 (ja) | 自動追尾装置 | |
EP1952355B1 (en) | Robust online face tracking | |
KR100931311B1 (ko) | 프레임 간 깊이 연속성 유지를 위한 깊이 추정 장치 및 그방법 | |
KR100799990B1 (ko) | 2차원 영상의 3차원 영상 변환 장치 및 방법 | |
JP2016085742A (ja) | 前景画像分割方法及び前景画像分割装置 | |
JP6054771B2 (ja) | 背景モデル構築装置、背景モデル構築方法、およびプログラム | |
KR20210129043A (ko) | 이벤트 기반 센서로부터의 정보를 처리하는 방법 | |
KR20160044316A (ko) | 깊이 정보 기반 사람 추적 장치 및 그 방법 | |
JP2016152027A (ja) | 画像処理装置、画像処理方法およびプログラム | |
US9947106B2 (en) | Method and electronic device for object tracking in a light-field capture | |
JP2004301607A (ja) | 移動物体検出装置、移動物体検出方法及び移動物体検出プログラム | |
JP2009211122A (ja) | 画像処理装置およびオブジェクト推定プログラム。 | |
Zhang et al. | An optical flow based moving objects detection algorithm for the UAV | |
JP2016081252A (ja) | 画像処理装置および画像処理方法 | |
CN116051736A (zh) | 一种三维重建方法、装置、边缘设备和存储介质 | |
CN115063880A (zh) | 一种基于YOLOv5和GME的采样方法 | |
Bien et al. | Detection and recognition of indoor smoking events |