JP2016081252A

JP2016081252A - 画像処理装置および画像処理方法

Info

Publication number: JP2016081252A
Application number: JP2014211105A
Authority: JP
Inventors: 渉一池上; Shoichi Ikegami
Original assignee: Sony Computer Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2014-10-15
Filing date: 2014-10-15
Publication date: 2016-05-16

Abstract

【課題】撮影画像中の対象物の追跡を精度よく行う。【解決手段】まず一つ前の画像フレームの追跡結果に対応するように、パラメータ空間にパーティクルを生成／消滅させる（Ｓ６０）。一方、当該追跡結果に基づき、画像フレームに処理領域を設定したうえ（Ｓ６２）、画像フレーム間のマッチングにより頭部の像の移動ベクトルを導出する（Ｓ６４）。得られた移動ベクトルを用い、パーティクルの並進量の成分を算出する（Ｓ６６）。また複数の時刻の奥行き画像から、頭部の奥行き方向の変化量を求め（Ｓ６８）、パーティクルの倍率成分を算出する（Ｓ７０）。並進量成分、倍率成分が決定した値となるように各パーティクルを遷移させる（Ｓ７２）。これらの処理を、追跡対象ごとに繰り返す（Ｓ７４のＮ）。【選択図】図１１

Description

本発明は情報処理技術に関し、特に動画像を解析して対象物を追跡する画像処理装置およびそこで実行される画像処理方法に関する。

視覚追跡はコンピュータビジョン、特にセキュリティ分野における視覚監視やＡＶ分野における記録映像の解析・分類、編集、またはマンマシンインターフェース、さらには人間同士のインターフェース、すなわちテレビ会議やテレビ電話など、多岐にわたる応用が見込まれる。そのため、追跡精度および処理効率の向上等を目的に、多くの研究がなされている。中でも、カルマンフィルタで扱うことのできない非ガウス性雑音が加算された信号の時系列解析手法として注目されているパーティクルフィルタを視覚追跡に応用する研究が多くなされており、特にCondensation(Conditional Density Propagation)アルゴリズムが有名である（例えば非特許文献１および２参照）。

パーティクルフィルタはベイズフィルタの近似計算法であり、有限個のパーティクルを追跡候補として導入することにより対象の確率分布を表現し、それを用いて時系列推定や予測を行う。視覚追跡で用いる際には、パラメータ化した対象の動きを１個のパーティクルとして扱い、運動モデルによるパラメータ遷移と観測による遷移結果の尤度計算によって、対象のパラメータ空間上での存在分布確率を逐次推定する。

Contour tracking by stochastic propagation of conditional density, Michael Isard and Andrew Blake, Proc. European Conf. on Computer Vision, vol. 1, pp.343-356, Cambridge UK (1996) ICondensation: Unifying low-level and high-level tracking in a stochastic framework, Michael Isard and Andrew Blake, Proc. 5th European Conf. Computer Vision, 1998

パーティクルフィルタを用いた従来の追跡処理では、運動モデルをいかに構築するかが大きな問題になる。例えば画像のカテゴリに合わせて対象の動きをある程度想定したうえで運動モデルを設定することが考えられるが、実際の動きがその想定から外れてしまうと追跡精度の悪化につながる。精度を維持するためパーティクルを増やしたり運動モデルを多様化させたりすることも考えられるが、処理の負荷が増大しリアルタイムでの追跡処理が困難になりやすい。

また、遷移結果の尤度計算時には、各パーティクルが表す追跡候補と実際の撮影画像との比較を行う。このとき、カメラの視野内に存在する物の数やそれらの色、照明など、撮影環境によって撮影画像の特性が変化すると、尤度の計算に影響を与え、ひいては追跡精度が変化してしまうことが考えられる。

本発明はこのような課題に鑑みてなされたものであり、その目的は、追跡対象の運動特性や撮影環境の変化の影響を受けにくい高精度かつ効率的な視覚追跡技術を提供することにある。

本発明のある態様は画像処理装置に関する。この画像処理装置は、動画像における対象物の像を追跡する画像処理装置であって、動画像を構成する画像フレームのうち第１の画像フレームに対し推定された追跡対象の輪郭線に基づき生成した候補輪郭を、後続の第２の画像フレームに対応するように操作するサンプリング部と、第２の画像フレームを用いて、操作後の各候補輪郭の尤度を求めることにより、第２の画像フレームにおける追跡対象の輪郭線を推定し追跡結果として出力する追跡結果取得部と、を備え、サンプリング部は、第２の画像フレームに至るまでの追跡対象の動きの情報を、複数の画像フレームから得られる情報の比較結果に基づき取得し、それに応じて候補輪郭を操作することを特徴とする。

本発明の別の態様は画像処理方法に関する。この画像処理方法は、動画像における対象物の像を追跡する画像処理装置が、動画像を構成する画像フレームをメモリより読み出し、そのうち第１の画像フレームに対し推定された追跡対象の輪郭線に基づき生成した候補輪郭を、後続の第２の画像フレームに対応するように操作するステップと、第２の画像フレームを用いて、操作後の各候補輪郭の尤度を求めることにより、第２の画像フレームにおける追跡対象の輪郭線を推定し追跡結果としてメモリに格納するステップと、を含み、操作するステップは、第２の画像フレームに至るまでの追跡対象の動きの情報を、複数の画像フレームから得られる情報の比較結果に基づき取得し、それに応じて候補輪郭を操作することを特徴とする。

なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。

本発明によれば、実際の状況に関わらず安定した視覚追跡を実現することができる。

人物を追跡対象とした場合の視覚追跡手法を説明するための図である。パーティクルフィルタを用いた確率密度推定の手法を説明するための図である。本実施の形態における視覚追跡システムの構成例を示す図である。本実施の形態における追跡装置の構成を詳細に示す図である。本実施の形態における追跡処理の手順を示すフローチャートである。本実施の形態において、奥行き画像を用いて追跡対象に対応するエッジを抽出する原理を説明するための図である。図５のＳ２６において輪郭画像生成部が輪郭画像を生成する処理手順を示すフローチャートである。本実施の形態において、実際の画像を用いて輪郭画像を生成する様子を例示する図である。本実施の形態において、形状空間ベクトルのうち横方向（ｘ方向）、縦方向（ｙ方向）の並進量の成分を決定する原理を説明するための図である。本実施の形態において、形状空間ベクトルのうち横方向（ｘ方向）、縦方向（ｙ方向）の倍率成分を決定する原理を説明するための図である。図５のＳ２８においてサンプリング部がパーティクルを配置することにより輪郭のサンプリングを行う処理手順を示すフローチャートである。

初めに、本実施の形態の特徴および効果を明らかにするために、パーティクルフィルタによる視覚追跡について概説する。図１は人物を追跡対象とした場合の視覚追跡手法を説明するための図である。人物画像１５０は実写した動画像やコンピュータグラフィックスなどにより生成された動画像の画像ストリームを構成する画像フレームのひとつであり、追跡対象である人物１５２が写っている。

この人物１５２の動きを追跡するために、人物１５２の頭部輪郭の形状を近似するΩ形の曲線１５４を既知の表現で記述する。一方、人物１５２を含む人物画像１５０にはエッジ抽出処理を施し、エッジ画像を取得しておく。そして曲線１５４を規定するパラメータを変化させながらその形状および位置を変化させて、近傍にあるエッジを探索することにより、人物１５２の頭部輪郭と最もマッチすると推定されるパラメータの値を特定する。以上の処理をフレームごとに繰り返すことにより人物１５２の追跡が進捗する。ここでエッジとは、画像の輝度や色に急な変化を有する箇所のことである。

様々な曲線１５４と人物１５２の頭部輪郭とのマッチングを行うために、パーティクルフィルタによる確率分布予測技術を導入する。すなわち、ひとつ前のフレームにおけるパラメータ空間上の対象物の確率分布に応じて曲線１５４のサンプリング数を増減させ、追跡候補の絞り込みを行う。これにより存在確率の高い部分に対しては重点的に探索を行うことができ、精度のよいマッチングを効率的に行える。

対象物の輪郭に着目した追跡に対するパーティクルフィルタの適用手法は、例えば非特許文献２（ICondensation: Unifying low-level and high-level tracking in a stochastic framework, Michael Isard and Andrew Blake, Proc. 5th European Conf. Computer Vision, 1998）に詳述されている。ここでは本実施の形態に係る点に着目して説明する。

まずΩ形の曲線１５４を、Ｂスプライン曲線で記述する。Ｂスプライン曲線はｎ個の制御点列（Ｑ０，・・・，Ｑｎ）とノット列（ｓ０，・・・，ｓｎ）とから定義される。そして基本となる曲線形状、この場合はΩ形の曲線となるように、それらのパラメータをあらかじめ設定しておく。このときの設定によって得られる曲線を以後、テンプレートＱ_０と呼ぶ。なお、図１で示した人物画像１５０における人物１５２の追跡を行う場合は、テンプレートＱ_０はΩ形であるが、その形状は追跡対象によって変化させる。すなわち追跡対象がボールであれば円形、手のひらであれば手の形状などとなる。

次にテンプレートの形状を変化させるための変換パラメータとして、形状空間ベクトルｘを準備する。形状空間ベクトルｘは以下のような６つのパラメータで構成される。

ここで（shift_ｘ，shift_ｙ）は（ｘ，ｙ）方向への並進量、（extend_ｘ，extend_ｙ）は倍率、θは回転角である。そして形状空間ベクトルｘをテンプレートＱ_０に作用させるための作用行列Ｗを用いると、変形後の曲線、すなわち候補曲線Ｑは以下のように記述できる。

式２を用いれば、形状空間ベクトルｘを構成する６つのパラメータを適宜変化させることにより、テンプレートを並進、伸縮、回転させることができ、組み合わせによって候補曲線Ｑの形状や位置を種々変化させることができる。

そして、制御点列、およびノット列の間隔といったテンプレートＱ_０のパラメータや、形状空間ベクトルｘを構成する６つのパラメータを変化させることによって表現される複数の候補曲線について、各ノットの近傍にある人物１５２のエッジを探索する。その後、エッジとの距離などから各候補曲線の尤度を求めることにより、形状空間ベクトルｘを構成する６つのパラメータにより形成される６次元空間における確率密度分布を推定する。

図２はパーティクルフィルタを用いた確率密度分布推定の手法を説明するための図である。同図では理解を簡単にするために、形状空間ベクトルｘを構成する６つのパラメータのうち、あるパラメータｘ１の変化を横軸に表しているが、実際には６次元空間において同様の処理が行われる。ここで確率密度分布を推定したい画像フレームが時刻ｔの画像フレームであるとする。

まず、時刻ｔの画像フレームのひとつ前のフレームである時刻ｔ−１の画像フレームにおいて推定された、パラメータｘ１軸上の確率密度分布を用いて（Ｓ１０）、時刻ｔにおけるパーティクルを生成する（Ｓ１２）。それまでにフィルタリングを行い、すでにパーティクルが存在する場合は、その分裂、および消滅を決定する。Ｓ１０において表した確率密度分布は、パラメータ空間上の座標に対応して離散的に求められたものであり、円が大きいほど確率密度が高いことを表している。

パーティクルはサンプリングするパラメータｘ１の値とサンプリング密度とを実体化したものであり、例えば時刻ｔ−１において確率密度が高かったパラメータｘ１の領域は、パーティクル密度を高くすることで重点的にサンプリングを行い、確率密度の低かった範囲はパーティクルを少なくすることでサンプリングをあまり行わない。これにより、例えば人物１５２のエッジ近傍において候補曲線を多く発生させて、効率よくマッチングを行う。

次に何らかの運動モデルを適用し、パーティクルをパラメータ空間上で遷移させる（Ｓ１４）。従来技術において採用される運動モデルとしては例えば、ガウシアン型運動モデル、自己回帰予測型運動モデルなどがある。前者は、時刻ｔにおける確率密度は時刻ｔ−１における各確率密度の周囲にガウス分布している、とするモデルである。後者は、サンプルデータから取得した２次以上の自己回帰予測モデルを仮定する手法で、例えば人物１５２がある速度で等速運動をしているといったことを過去のパラメータの変化から推定する。

一方、後述するように本実施の形態では、時刻ｔ−１と時刻ｔの画像フレームを比較し、追跡対象の像の位置の変化に係る情報を別途、取得することにより、パーティクルの遷移の方針を決定する。なお図２の例では一例として、パラメータｘ１の正方向への動くように各パーティクルを遷移させている。

次に、各パーティクルで決定される候補曲線の近傍にある人物１５２のエッジを、時刻ｔのエッジ画像を用いて探索することにより、各候補曲線の尤度を求め、時刻ｔにおける確率密度分布を推定する（Ｓ１６）。前述のとおり、このときの確率密度分布はＳ１６に示すように、真の確率密度分布４００を離散的に表したものになる。以降、これを繰り返すことにより、各時刻における確率密度分布がパラメータ空間において表される。

例えば確率密度分布が単峰性であった場合、すなわち追跡対象が唯一であった場合は、得られた確率密度を用いて各パラメータの値に対し重み付けした和を最終的なパラメータとすることにより、追跡対象に最も近い輪郭の曲線が得られることになる。Ｓ１６において推定される時刻ｔにおける確率密度分布p(x_t ⁱ)は以下のように計算される。

ここでｉはパーティクルに一意に与えられた番号、p(x_t ⁱ|x_t ⁱ, u_t-1)は適用する運動モデル、p(y_t|x_t ⁱ)は尤度である。

図３は本実施の形態における視覚追跡システムの構成例を示している。視覚追跡システム２は、追跡対象１を撮像する撮像装置１２、追跡処理を行う追跡装置１０、撮像装置１２が撮像した画像のデータや追跡結果のデータを出力する表示装置１６を含む。追跡対象１は人、物、それらの一部など、視覚追跡システム２の使用目的によって異なっていてよいが、以後の説明では上記の例同様、人であるとする。

追跡装置１０と、撮像装置１２あるいは表示装置１６との接続は、有線、無線を問わず、また種々のネットワークを介していてもよい。あるいは追跡装置１０、撮像装置１２、表示装置１６のうちいずれか２つ、または全てが組み合わされて一体的に装備されていてもよい。また使用環境によっては、撮像装置１２と表示装置１６は同時に追跡装置１０に接続されていなくてもよい。

撮像装置１２は、追跡対象１を含む画像、または追跡対象１の有無に関わらずある場所の画像のデータを、所定のフレームレートで取得する。撮像装置１２は既知の間隔を有する左右の位置から同一の空間を撮影する２つのカメラからなるステレオカメラであり、それぞれがＣＣＤ（Charge Coupled Device）またはＣＭＯＳ（Complementary Metal Oxide Semiconductor）等の撮像素子を備えている。取得された画像データが順次、追跡装置１０に入力されることにより、追跡対象１の追跡処理がなされる。このとき左右の視点から撮影されたステレオ画像を用いて、追跡対象１の撮像装置１２からの距離に係る情報を取得し、それを利用する。

なお撮像装置１２をステレオカメラで構成するのに代え、単眼のビデオカメラと、追跡対象１の撮像装置１２からの距離を取得できるセンサとで構成してもよい。追跡対象１の距離を取得できるセンサとして、赤外線などの参照光を対象物に照射しその反射光を検出する装置を利用してもよい。さらに撮像装置１２は、取得した画像フレームを所定の解像度に縮小することにより、複数解像度の画像データを出力するようにしてもよい。

追跡処理の結果は追跡装置１０の制御のもと、出力データとして表示装置１６へ出力される。追跡装置１０は、別の機能を実行するコンピュータを兼ねていてもよく、追跡処理の結果得られたデータ、すなわち追跡対象１の位置情報や形状情報などを利用して、ゲームなど様々な機能を実現してよい。

図４は、本実施の形態における追跡装置１０の構成を詳細に示している。追跡装置１０は、撮像装置１２から入力される撮影画像のデータを取得する画像取得部２０、撮影画像のデータや奥行き画像のデータ、輪郭画像のデータを記憶する画像記憶部２４、撮影画像から輪郭画像を生成する輪郭画像生成部２２、追跡の開始および終了を判定する追跡開始終了判定部２８、パーティクルフィルタを用いて追跡処理を行う追跡処理部２６、最終的な追跡結果のデータを記憶する結果記憶部３６、追跡結果の表示装置１６への出力を制御する出力制御部４０を含む。

図４において、様々な処理を行う機能ブロックとして記載される各要素は、ハードウェア的には、ＣＰＵ、メモリ、その他のＬＳＩで構成することができ、ソフトウェア的には、画像処理を行うプログラムなどによって実現される。したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組合せによっていろいろな形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。

画像取得部２０は、一般的な技術により撮像装置１２と通信を確立し、撮影された画像フレームに基づくデータを即時取得していく。ここで取得するデータは、ステレオ画像のデータのほか、その少なくとも一方を複数の解像度で表したデータを含んでよい。また、１つの視点からの撮影画像のデータと奥行き画像のデータなどでもよい。取得したデータは順次、画像記憶部２４に格納していく。

輪郭画像生成部２２は、撮影された各画像フレームから追跡対象の輪郭線を抽出し、輪郭画像を生成する。当該輪郭画像は画像記憶部２４に格納され、後に追跡処理部２６の観測部３０において候補曲線の尤度観測に用いられる。「輪郭線」はエッジ画像における「エッジ」の一部であるため、従来の技術では「エッジ画像」をそのまま用いて尤度観測が行われていた。しかし一般的なエッジ抽出処理では、追跡対象の輪郭線以外にも多くのエッジが抽出されるため、輪郭線以外のエッジとのマッチングにより尤度観測が正確に行われないことが考えられた。また、エッジ抽出のしきい値を高く設定してエッジの数を減らすと、輪郭線がとぎれてしまい、やはり尤度観測が正確に行われない可能性がある。

そこで本実施の形態の輪郭画像生成部２２は、そのように抽出されるエッジのうち追跡対象の輪郭線として確度の高いエッジのみを抽出することにより、尤度観測を精度よく行えるようにする。以後、このように抽出したエッジのみからなる画像を「輪郭画像」として一般的な「エッジ画像」と区別する。具体的な構成として輪郭画像生成部２２は、奥行き画像取得部４２とエッジ抽出部４４を備える。奥行き画像取得部４２は、各画像フレームの奥行き画像を取得し、エッジ抽出部４４に供給する。ここで奥行き画像は、視野内にある物の撮像装置１２からの奥行き方向の距離を、画像平面の２次元座標にマッピングし画素値として表した画像である。

撮像装置１２からステレオ画像のデータを取得する態様においては、奥行き画像取得部４２は、画像記憶部２４に格納されたステレオ画像を用いてステレオ画像法など一般的な手法により奥行き画像を生成する。ステレオ画像法は、ステレオ画像における同一の被写体の像の位置から視差を求め、三角測量の原理によって奥行き方向の距離を導出する手法である。この場合、奥行き画像取得部４２は、生成した奥行き画像のデータを、後段の追跡処理に備え画像記憶部２４にも格納する。一方、撮像装置１２において被写体の距離を検出する態様においては、ＴＯＦ（Time of Flight）などの技術により撮像装置１２で生成され送信された奥行き画像のデータを、奥行き画像取得部４２が画像記憶部２４から読み出す。

エッジ抽出部４４は、奥行き画像取得部４２が取得した奥行き画像と、追跡処理部２６が導出した、前の画像フレームに対する追跡結果とに基づき、追跡対象の像の領域を特定する。そして画像フレームから生成したエッジ画像に含まれるエッジのうち、追跡対象の像の領域に対応するエッジを抽出する。その結果、当該追跡対象に起因して発生していると推定できるエッジからなる輪郭画像が生成される。追跡対象が複数、存在する場合は、輪郭画像は追跡対象ごとに生成される。

追跡開始終了判定部２８は、輪郭画像生成部２２によって得られた輪郭線などの形状を評価し、所定の条件によって、追跡を開始するか終了するかを判定する。なおここでの「終了」はオクルージョンなどによる追跡の一時停止を含んでもよい。追跡は、追跡対象が撮像装置１２の視野内に現れた場合や、物陰などから現れた場合などに開始し、追跡対象が撮像装置１２の視野内から去った場合や物陰などに入った場合などに終了する。追跡の開始や終了を判定した際、追跡開始終了判定部２８は追跡処理部２６にその旨を通知する。

追跡処理部２６は、サンプリング部２９、観測部３０、および結果取得部３４を含む。サンプリング部２９は、一つ前の時刻ｔ−１における画像フレームに対して推定された確率密度分布に基づき、パーティクルの生成および消滅の処理を行い、パラメータ空間上で遷移させる。これにより、時刻ｔの画像フレームにおける複数の候補曲線が決定する。より詳細にはサンプリング部２９は、変位取得部４６とパーティクル操作部４８を備える。

変位取得部４６は、画像記憶部２４から画像フレームと奥行き画像のデータを取得し、追跡対象の像の画像平面上での動きの情報および、追跡対象の奥行き方向の動きの情報を取得する。パーティクル操作部４８は、パーティクルの生成および消滅の処理を行った後、変位取得部４６が取得した動きの情報に基づき、各パーティクルのパラメータ空間上での遷移先を決定する。

具体的には、画像平面上での動きの情報に基づき、形状空間ベクトルのうち並進量の成分を決定し、奥行き方向の動きの情報に基づき、倍率の成分を決定する。それ以外の成分については、ガウス分布など一般的な手法により決定してよい。サンプリング部２９は、追跡開始終了判定部２８から追跡開始を要求されたら処理を開始し、追跡終了を要求されたら処理を終了する。

観測部３０は、サンプリング部２９が遷移させた各パーティクルが定める候補曲線の尤度を観測する。例えば各パーティクルが定める候補曲線をそれぞれＢスプライン曲線で表現した場合、当該Ｂスプライン曲線のノットごとに、輪郭画像生成部２２が生成した輪郭画像において最近傍にある輪郭線を探索し距離を求めることにより、所定のルールでノットをスコアリングする。そして候補曲線を構成する全ノットのスコアに基づき当該候補曲線の尤度を求める。

結果取得部３４は、観測部３０が観測した尤度に基づき式３で示すような確率密度分布p(x_t ⁱ)を算出し、それにより重み付け平均したパラメータによって得られる曲線のデータなどの追跡結果を算出し、結果記憶部３６に格納する。また次の時刻ｔ＋１における追跡処理に使用するため、サンプリング部２９にそのデータを返す。結果記憶部３６に格納するデータは、重み付け平均した各パラメータの値でもよいし、それにより定まる曲線のみで構成される画像や、曲線と入力画像とを合成してできた画像のデータなどのいずれでもよい。

追跡対象が複数存在する場合、結果取得部３４はさらに、それぞれに用意したテンプレートを用いて追跡対象ごとに結果を生成し、それらを合成することによりひとつの追跡結果としてもよい。また複数の追跡対象が重なるような場合を追跡結果によって検出し、後ろに隠れる追跡対象については所定のタイミングで追跡処理対象からはずすなどの措置を講じる。これにより追跡対象が別の追跡対象の背後に回ったことによって観測尤度が一時的に低下しても、不適当な追跡結果を出力するのを避けることができる。

輪郭画像生成部２２および追跡処理部２６による上述の処理を、各画像フレームに対して行うことにより、結果記憶部３６には、例えば追跡結果を含む動画像のデータが記憶される。この場合、出力制御部４０の制御のもと、当該動画像のデータが表示装置１６に出力されることにより、テンプレートの曲線が追跡対象の動きと同様に動く様を表示することができる。なお上述のとおり出力制御部４０は、追跡結果を動画として表示する以外に、追跡の目的に応じて別の演算モジュールに出力するなどの処理を適宜行ってよい。

次にこれまで述べた構成による追跡装置１０の動作について説明する。以下、例としてある場所にいる人物を追跡する場合について説明する。このとき撮像装置１２は、撮影対象の空間を所定のフレームレートで撮影する。その結果、取得された画像のデータは追跡装置１０の画像取得部２０へ入力され、画像記憶部２４に順次、格納される。このような状態において以下に述べる追跡処理が行われる。

図５は本実施の形態における追跡処理の手順を示すフローチャートである。この例では追跡対象が人物であるため、追跡装置１０には前述のとおりΩ型のテンプレートを用意する。なおテンプレートの表現手法はＢスプライン曲線に限らず、所望の曲線を表現できる記述形式であればよい。またテンプレート形状の変形手法も、その記述形式に適合し、数種類のパラメータを変化させることによって上述のような柔軟な変形を行うことのできる手法を適宜選択してよい。

まず追跡開始終了判定部２８は、画像記憶部２４に格納された撮影画像のデータをフレームごとに読み出し、追跡対象の出現を監視することにより追跡を開始するかどうかの判定を行う（Ｓ２０、Ｓ２２）。例えば、画像フレームから抽出した前景として、人物と推定できる所定のサイズ、形を有する対象が出現した場合には、追跡を開始する判定を行う。判定基準となる前景のサイズや形はあらかじめ論理的にまたは実験的に定めておく。前景の抽出処理は、輪郭画像生成部２２に実装された図示しない前景抽出器を利用してもよい。この場合は、追跡開始終了判定部２８が、輪郭画像生成部２２に対し前景抽出処理の要求を行う。あるいは追跡開始終了判定部２８が前景抽出器を実装していてもよい。

追跡開始と判定されるまでＳ２０の監視を継続し（Ｓ２２のＮ）、追跡開始と判定されたら（Ｓ２２のＹ）、追跡処理部２６が追跡処理を開始する。ここで、追跡開始を判定された画像フレームに対応する時刻をｔ＝０とし、以後の画像フレームは時刻ｔ＝１，２，３，・・・にそれぞれ対応するとする。まず、サンプリング部２９が輪郭画像生成部２２に対し、輪郭画像生成処理の開始を要求することにより、輪郭画像生成部２２はｔ＝０の画像フレームの輪郭画像を生成する（Ｓ２６）。この段階での輪郭画像は一般的なエッジ画像でよい。

サンプリング部２９は、例えばパラメータ空間の所定領域に均等にパーティクルを配置してサンプリングを行い、観測部３０が各パーティクルが定める候補曲線と輪郭画像とをマッチングすることにより尤度を観測し、結果取得部３４が式３により確率密度分布の初期値p(x₀ ⁱ)を算出する（Ｓ２８、Ｓ３０、Ｓ３２）。

一方、輪郭画像生成部２２は、画像記憶部２４より時刻ｔ＝１の画像フレームを読み出し輪郭画像を生成する（Ｓ３４のＮ、Ｓ２６）。このとき上述のとおり、時刻ｔ＝０に対し算出した確率密度分布の初期値p(x₀ ⁱ)から得られる追跡対象の輪郭線に基づき、奥行き画像を用いて領域を限定したうえでエッジを抽出する。サンプリング部２９は、確率密度分布の初期値p(x₀ ⁱ)に対応した数のパーティクルをパラメータ空間上に発生させ、遷移させることによりサンプリングを行う（Ｓ２８）。発生させるパーティクルの数は、追跡装置１０が有する演算リソースの量や、求められる結果出力速度などに基づき、処理の負荷を考慮して制御する。

また上述のとおり、追跡対象の動きを別の観点からおよそ見積り、その結果をパーティクルの遷移方向に反映させることにより、追跡対象の個々の動きに対応したサンプリングを効率的に行う。観測部３０は、遷移後のパーティクルが定める各候補曲線の尤度p(y_t|x_t ⁱ)を観測する（Ｓ３０）。尤度の観測は、輪郭画像生成部２２が生成した時刻ｔ＝１の輪郭画像を用いて追跡対象ごとに行う。

次いで結果取得部３４は、観測された尤度に基づき時刻ｔ＝１の確率密度分布p(x₁ ⁱ)を求める。複数の追跡対象が存在する場合は、上記の処理を全ての追跡対象について行う。そして結果取得部３４は、時刻ｔ＝１における確率密度分布p(x₁ ⁱ)を用いて各パラメータを重み付し平均して得られるΩ型の曲線などを決定し、元の画像フレームに重ねて描画するなど、所望の追跡結果のデータを生成して結果記憶部に保存する（Ｓ３２）。

これらの処理と並行し追跡開始終了判定部２８は、追跡処理をこれ以上続行するか終了するかの判定を行っている（Ｓ３４）。追跡処理を終了しないと判定した場合は（Ｓ３４のＮ）、時刻ｔ＝２の画像フレームから輪郭画像を生成するとともに、Ｓ３２で得られた時刻ｔ＝１のときの確率密度分布p(x₁ ⁱ)を用いて、パーティクルの生成や遷移を行い、時刻ｔ＝２のフレームに対する尤度観測、確率密度分布算出を行う（Ｓ２６〜Ｓ３２）。

以降、Ｓ３４で追跡開始終了判定部２８が追跡終了の判定を行うまで（Ｓ３４のＹ）、Ｓ２６からＳ３２までの処理を、各画像フレームに対して繰り返す。これにより、Ω型の曲線が追跡対象の頭部と同じ動きおよび形状で、時間に対して変化していくような動画のデータが結果記憶部３６に格納される。出力制御部４０が当該データを、表示装置１６や別の機能を提供するモジュールなどに出力することにより、任意の形態で追跡結果を利用することができる。

次に輪郭画像生成部２２による輪郭画像の生成処理について説明する。上述のとおり輪郭画像は各候補曲線の尤度を求めるのに用いられ、追跡結果に大きな影響を与える。一方、撮影画像には撮像装置１２の視野に入る様々な物の像が含まれるため、単にエッジ画像と候補曲線を比較した場合、追跡対象以外の物を表すエッジ線とのマッチングにより正確な観測結果が得られないことが考えられる。少なくとも背景の情報を除去するため、あらかじめ準備した背景画像との差分画像を処理対象とすることが考えられるが、カーテンなど背景自体が動いてしまったり撮像装置１２を動かしたりすると、前景のみの抽出が困難になる。前景抽出の精度を追求するほど、背景画像を厳密に取得する必要があり手間が増える。

そこで本実施の形態では、奥行き画像を用いて、追跡対象に起因する可能性が高いエッジを抽出する。図６は奥行き画像を用いて追跡対象に対応するエッジを抽出する原理を説明するための図である。図示するように、ある時刻の画像フレーム１６０において、二人の人物１６４、１６６が写っているとする。人物１６６は人物１６４より撮像装置１２から離れた場所にいるため、その像は人物１６４より小さくなっている。

このような画像フレーム１６０に対応する奥行き画像１６２は、人物１６４、１６６の像１６８、１７０を、それぞれの撮像装置１２からの距離を画素値として表す。同図の奥行き画像１６２は、撮像装置１２に近い物ほど高い輝度で表しているが、奥行き画像の形式をこれに限定する趣旨ではない。また実際には各人物の表面の凹凸に応じて画素値も変化する場合があるが、本実施の形態で用いる奥行き画像はそれほどの分解能がなくてもよい。また撮像装置１２の視野内に人物１６４、１６６以外の物があれば、奥行き画像には当然、その像も含まれる。

輪郭画像生成部２２のエッジ抽出部４４は、前の時刻の画像フレームに対する追跡結果に基づき、奥行き画像１６２中の対応する像の領域を抽出する。例えば前の画像フレームで推定された人物１６４の頭部輪郭に基づき現時刻の奥行き画像１６２を参照し、当該人物１６４の撮像装置１２からの距離Ｚｔを特定する。このとき、頭部輪郭に代わって顔認識処理を行った結果を利用してもよい。そして当該距離Ｚｔに基づき、表面の凹凸、体の厚み、距離の算出誤差等を考慮し決定した距離の範囲Ｚｔ−ΔＺ＜ｚ≦Ｚｔ＋ΔＺ内の画素値を有する画素を抽出する。このとき、前の画像フレームにおける追跡結果に基づき決定した処理領域１７２に限定して抽出を行うことで、同程度の距離にある他の物の像の抽出の可能性を減らす。

その結果、人物１６４の像１６８の領域、すなわち同図における白抜きの領域を特定できる。人物１６６も追跡対象であれば同様の処理により、像１７０の領域を特定できる。このような像の情報と、別途取得したエッジ画像から得られる情報とを利用することにより、背景などその他の物の動きや撮像装置１２自体の動きの影響を少なく、追跡対象に限定したエッジ線を取得することができる。

図７は、図５のＳ２６において輪郭画像生成部２２が輪郭画像を生成する処理手順を示すフローチャートである。まず奥行き画像取得部４２は、上述のいずれかの処理により時刻ｔの画像フレームの奥行き画像を取得する（Ｓ４０）。続いてエッジ抽出部４４は、前の時刻ｔ−１の追跡結果を追跡処理部２６から取得することにより、画像平面における処理領域を決定する（Ｓ４２）。

例えば、推定された頭部の輪郭線の内側の領域、または輪郭線に外接する頭部領域の矩形を画像平面に生成し、当該矩形の各辺から上下左右にそれぞれ所定距離だけ離れた辺を有する矩形を処理領域とする。これにより、抽出処理の効率を上げるとともに、他の物の影響を極力、排除する。処理領域のサイズは、前の時刻からの頭部の可動範囲を基準に決定する。撮像装置からの距離に応じて見かけ上の可動範囲が変化するため、奥行き画像から得られる追跡対象の距離に応じて処理領域のサイズも変化させる。

次にエッジ抽出部４４は、時刻ｔの奥行き画像における当該処理領域内に表れている追跡対象の像の領域を、画素値に基づき抽出する（Ｓ４４）。例えば当該奥行き画像に、前の時刻ｔ−１の画像フレームで推定された頭部輪郭を当てはめ、その輪郭内の画素値の平均、または中央値を当該追跡対象の頭部の距離Ｚｔとする。そして上述のようにＺｔ−ΔＺ＜ｚ≦Ｚｔ＋ΔＺの範囲内の画素値を有する画素を、処理領域から抽出する。人の体を対象としたときΔＺは典型的には３０ｃｍ程度とするが、撮像装置１２から離れるほど距離の算出誤差が大きくなるため、好適には当該距離に応じてΔＺを調整する。

次にエッジ抽出部４４は、時刻ｔの画像フレームからエッジ画像を生成したうえ、Ｓ４４で抽出した領域を利用して、追跡対象に起因すると推定されるエッジをエッジ画像から抽出する（Ｓ４６）。最も単純には、Ｓ４４で抽出した領域のエッジ線を抽出する。ただしこの場合、Ｓ４４で抽出した領域を所定の倍率で微少量、膨張させた領域を生成したうえ、その内部のエッジを抽出する。これにより、抽出した領域の境界線に輪郭線が重なったり境界線からはみ出したりして、肝心の輪郭線を表すエッジが抽出対象から外れないようにする。

あるいは、他の観点からも追跡対象の領域を求め、上述のように奥行き画像から抽出した領域と統合してもよい。例えば背景差分法により撮影画像の前景領域を抽出し、そのうちＳ４２で決定した処理領域内の前景領域を追跡対象の領域として別途特定する。そしてこの前景領域を上述と同様の理由で微少量、膨張させた領域と、Ｓ４４で抽出した領域の、少なくともいずれかに属する領域内のエッジを抽出する。このようにすると、奥行き画像から抽出した追跡対象の像の領域に、距離の算出不能などに起因した抜けがあっても、それによる抽出エッジの欠落を抑えることができる。また処理領域を限定していることから、背景等に動きがあっても過大な範囲の前景領域を抽出してしまうことがない。

さらにエッジ抽出部４４は、そのような抽出の元となるエッジ画像の生成手法を工夫することにより、服のしわなどを表す余分なエッジを排除しつつ、追跡対象の輪郭線を表すエッジが安定的に得られるようにしてもよい。例えば特開２００９−２２４９２４号公報に記載されるように、撮影された画像フレームを低階調化してからエッジ抽出処理を行ってもよい。

上述のとおりエッジとは、輝度や色の変化が大きい部分を表す線である。したがって基本的には、輝度値の画像平面に対する変化の大きさに対してあるしきい値を設定し、そのしきい値を超えるような変化がある箇所をエッジとして抽出する。結果としてエッジの抽出結果は、しきい値の設定に大きく影響を受ける。しかし輝度値の分布は、存在する物の色、影の出来具合、照度などによって変化するため、当該しきい値の設定がそれらの環境の変化に対し適切に設定されていないと、本来の輪郭線がエッジとして抽出されなかったり、細かい服のしわ等まで抽出されてしまったりすることが考えられる。

そこで元の画像フレームの階調を下げ、物の表面の詳細な情報より、表面全体を大まかに捉えることを優先させて、物の輪郭がエッジとして抽出されやすくする。つまり物の表面を表す領域を、影やしわによらずなるべく同じ階調値に収めることにより、物の輪郭のみで階調が大きく変化するようにする。これにより輝度の微分値などフィルタリング時のパラメータが突出した箇所が限定的となるため、しきい値を詳細に最適化しなくとも、輪郭線を表すエッジを安定的に得ることができる。

このとき、まず画像フレームをガウシアンフィルタ、メディアンフィルタ、単純平均化フィルタ、ローパスフィルタなど一般的な平滑化フィルタで平滑化することにより、余分な高周波成分を除去して、物の面を領域として捉えやすくする。そしてあらかじめ定めた境界で輝度値を区分けし、各区分内の輝度値を一の輝度値に変換することにより低階調化する。このとき、輝度値を下から均等に区分けしてもよいし、画像フレームのカラーヒストグラムを作成し、区分けした際、画素の数が均等になるような輝度値を境界としてもよい。一般的なポスタリゼーションの手法を用いてもよい。低階調画像の階調数は例えば８〜３２階調程度とすることができる。

そして低階調化した画像に対し、ラプラシアンフィルタ、ソーベルフィルタ、キャニーエッジフィルタなど一般的なエッジ抽出フィルタを用いフィルタリングすることによりエッジ画像を生成する。このようにして取得されるエッジのうち、上述のように奥行き画像を用いて抽出した領域、あるいは当該領域と前景領域の和となる領域のエッジのみをさらに抽出することにより、追跡対象の輪郭線として、より信頼度が高いエッジからなる輪郭画像が得られる。

追跡対象が他にある場合は（Ｓ４８のＮ）、Ｓ４２、Ｓ４４、Ｓ４６の処理を繰り返す。全ての追跡対象について輪郭画像を生成したら処理を終了する（Ｓ４８のＹ）。その結果、追跡対象ごとに輪郭画像が生成される。追跡処理部２６の観測部３０は、各追跡対象に対し生成した候補曲線を、画像記憶部２４から読み出した、当該追跡対象に対応づけられた輪郭画像と比較することにより尤度を観測する。

図８は、実際の画像を用いて輪郭画像を生成する様子を例示している。まず画像フレーム１８０の画像平面において、前の画像フレームに対する追跡結果から得られる頭部の領域１８２に対し、所定の規則により処理領域１８４ａを設定する。一方、画像フレーム１８０に対応する奥行き画像１８６に対し、前の画像フレームで推定された頭部の輪郭線１８８を当てはめ、その内部領域の画素値に基づき、当該追跡対象の像の領域として抽出する画素の画素値の範囲を決定する。

決定した範囲の画素値を有する画素を、奥行き画像１８６の処理領域１８４ｂから抽出することにより、追跡対象の像の領域を表す画像１８９が生成される（矢印Ａ）。画像フレーム１８０から生成されるエッジ画像中のエッジのうち、画像１８９が表す領域、あるいはそれに前景領域を足した領域に対応するエッジを抽出することにより、追跡対象の輪郭画像１９０が得られる（矢印Ｂ、Ｃ）。上述のとおり、抽出元となるエッジ画像は、画像フレーム１８０を低階調化したうえでエッジ抽出処理を施したものなどとする。

次に、追跡処理部２６のサンプリング部２９が、パーティクルをパラメータ空間上で遷移させる処理について説明する。図２を参照して説明したようにサンプリング部２９は、前の画像フレームにおいて推定された確率密度分布に対応させて生成、消滅させたパーティクルを、現時刻の画像フレームに対応するように遷移させる。一般的には上述のように、パラメータ空間中でガウス分布させたり、自己回帰予測により運動モデルを推定したりすることがなされる。

しかし追跡対象である人の意志や、ゲームなど、追跡結果を利用する情報処理の種類により、動きの特性は様々であり、それらの全てに対応できる運動モデルを設定するのは困難である。設定された運動モデルと実際の動きとの解離が大きいほど、候補輪郭の配置精度が低下し、ひいては追跡精度の低下につながる。追跡精度を維持するためにパーティクルの数を増やすと処理の負荷が増大し、リアルタイム性が損なわれやすくなる。そこで本実施の形態では、変位取得部４６が、追跡対象の像の動きや奥行き方向の動きを別途、取得することにより、実際の動きに応じて効率的かつ精度よくパーティクルを遷移させる。

図９は、形状空間ベクトルのうち横方向（ｘ方向）、縦方向（ｙ方向）の並進量の成分を決定する原理を説明するための図である。図６と同様、画像フレーム２００には複数の人の像が含まれる。図示するように画像フレーム２００は、時間軸に対し所定のレートで取得される。このうち時刻ｔ−１と、その次の時刻ｔの画像フレーム２００における、ある人物の頭部の像を拡大し、重ねて表したものが頭部領域２０２である。ここで、細線で囲まれた網掛けされた領域が時刻ｔ−１における頭部の像２０４、太線で囲まれた白抜きされた領域が時刻ｔにおける頭部の像２０６であるとする。この例では時刻ｔ−１から時刻ｔに至る時間経過により、頭部の像が、画像上で右下に動いていることを表している。

この動きを、画像フレーム間のマッチングによって取得することにより、時刻ｔ−１の確率密度分布に基づき発生させたパーティクルを、時刻ｔに対し画像平面のどの方向にどれだけ移動させれば効率よくサンプリングできるかが判明する。ただし頭部自体の回転などによって頭部の輪郭形状が維持されたまま平行移動するとは限らないため、頭部領域２０２の画像を複数に分割してなる画像ブロックごとに像の移動先を求め、それらの移動ベクトルから頭部全体の移動ベクトルを求める。頭部全体の移動ベクトルは、画像ブロックごとの移動ベクトルを平均したり、中央値を求めたりすることによって得られる。

同図の例では、頭部領域２０２を縦方向、横方向にそれぞれ３分割してなる９個の画像ブロックの移動ベクトルを各矢印で表している。ただし頭部領域２０２内には背景など、頭部以外の像が含まれていることが考えられる。そのような像を計算に含めるほど、本来の頭部の移動ベクトルの誤差が大きくなるため、画像ブロック内の像の構成によっては、移動ベクトルの算出処理から除外することが望ましい。画像ブロックに頭部以外の像がどの程度、含まれているかは、奥行き画像のうち各画像ブロックに対応する領域の画素値から検出できる。

例えば、前の時刻の奥行き画像のうち画像ブロック内の画素値の平均値、あるいは中央の画素の画素値と、その時刻に対し推定された頭部輪郭内部の画素値の平均値とを比較する。両者の差が所定値以上であれば、当該画像ブロックには頭部以外の像が多く含まれていると判定し、マッチング対象から除外する。図９の例では、頭部領域２０２の３×３個の画像ブロックのうち、右上および左下の画像ブロックについてはマッチング対象から除外したとして移動ベクトルを表す矢印を示していない。

このようにして変位取得部４６が頭部全体の移動ベクトル（Mx, My）を算出したら、パーティクル操作部４８は、時刻ｔ−１の追跡結果から生成したパーティクルを、当該移動ベクトル（Mx, My）に対応するように画像平面上で遷移させる。すなわち（式１）で表した形状空間ベクトルｘのうち、時刻ｔにおける並進量成分（shift_ｘ(t)，shift_ｙ(t)）を次のように設定する。
shift_x(t)=shift_x(t-1)+αMx
shift_y(t)=shift_y(t-1)+αMy

ここで（shift_ｘ(t-1)，shift_ｙ(t-1)）は遷移前の各パーティクルの並進量成分、αは調整項であり所定の分布曲線に従う乱数でもよい。このようにすることで、マッチングにより推定される頭部のおよその動きを加味して効率よくパーティクルを配置することができる。なお各画像ブロックの「マッチング」は、画像ブロックの輝度分布などに基づき領域単位で探索するブロックマッチングのみならず、特徴点の移動先を探索することによって行ってもよい。

例えば、オプティカルフローの一種であるＫＬＴ（Kanade-Lucas-Tomasi）トラッカーの技術を用いてもよい。ＫＬＴトラッカーでは、曖昧さの小さい微少領域を特徴点として選択し、一つ後の画像フレームにおいて当該微少領域と最も類似している微少領域を検出する。この技術を用いることにより、追跡対象が移動していない状況であっても精度のよい追跡が可能となる。

結果として、頭部の前で腕など他の物体が動くことにより頭部が動いているように認識される、といった誤認識の可能性が低くなる。ただしマッチング手法をこれに限る趣旨ではなく、カラーヒストグラムを用いるなど、一般的な手法のいずれを採用してもよい。なおＫＬＴなど特徴点に着目して移動先を探索する場合は特に、複数解像度の画像を用いて処理を効率化することが望ましい。すなわち原画像である撮影画像を縮小してなる複数解像度の画像を画像フレームごとに生成し、一つ前の画像フレームの特徴点に対応する特徴点を、低解像度側の画像から探索していく。

ここで、ある解像度の画像を探索する際は、それより一段階、低い解像度の画像で検出した特徴点の位置に基づき探索領域を限定する。そのようにして探索対象の解像度を上げていき、検出される特徴点の位置が複数の解像度で一致しているとみなせたとき、探索結果が収束したとしてそれ以上高い解像度の画像については探索しない。これにより、初めから高解像度の画像における広い領域を探索するより探索範囲が格段に狭まり処理効率が上がる。複数解像度の画像のデータは、上述のように撮像装置１２が生成したものを順次、取得するようにしてもよいし、変位取得部４６が各画像フレームから生成してもよい。

また、上述のように奥行き画像を用いて頭部以外の像を多く含む画像ブロックを同定しマッチング対象から除外するのに加え、マッチング結果として得られた、各画像ブロックの移動ベクトルのうち、異常値と考えられるものを頭部全体の移動ベクトルの決定処理から除外してもよい。画像フレームを取得する周期は１／３０秒程度かそれより小さく、そのような微少時間に頭部が移動できる距離は限られている。したがって、頭部など追跡対象の可動距離に応じて移動ベクトルの長さに上限Ｖｕを設け、それを越える長さを有する移動ベクトルを頭部全体の移動ベクトルの決定処理から除外する。

ここで移動ベクトルは撮影画像における見かけ上のものであるため、実際に同じ距離だけ移動しても、撮像装置から近いほど移動ベクトルが長くなる。そのため奥行き画像を参照して追跡対象の撮像装置からの距離ｚを取得し、それに応じて長さの上限Ｖｕを、例えば次のように設定する。
Ｖｕ＝Ｃ×Ｚ_０／ｚ
ここでＺ_０は基準とする距離であり、Ｃはその距離に追跡対象が存在するときの、見かけ上の可動距離の上限であり、撮像装置１２の画角などから論理的に導出してもよいし、実験により決定してもよい。

サンプリング部２９はさらに、撮像装置１２からの距離の情報を用いて、形状空間ベクトルのうち倍率の成分を決定する。図１０は、形状空間ベクトルのうち横方向（ｘ方向）、縦方向（ｙ方向）の倍率成分を決定する原理を説明するための図である。同図では、前の時刻ｔ−１の画像フレーム３００における人の像を実線で表している。これに対し現時刻ｔにおいて、手前の人物の頭部の輪郭が、一点鎖線で示したように小さくなった場合、当該頭部は撮像装置１２から離れていることになる。一方、点線で示したように大きくなった場合、当該頭部は撮像装置１２に近づいていることになる。

図１０の下段には、そのような頭部の像に対応する、撮像装置１２からの頭部の位置関係を、距離ｚを横軸に模式的に示している。つまり時刻ｔにおける距離ｚ（ｔ）が、時刻ｔ−１における距離ｚ（ｔ−１）より大きければその像は縮小方向にあり、小さければその像は拡大方向にある。変位取得部４６は、距離ｚ（ｔ−１）およびｚ（ｔ）を、時刻ｔ−１および時刻ｔの奥行き画像における追跡対象の像の画素値から取得する。ここで時刻ｔにおける追跡対象の像は、図９で示した手法によっておよそ推定できる。

そしてパーティクル操作部４８は、取得した距離の情報を用いて形状空間ベクトルの倍率成分を決定する。例えば（式１）で表した平常空間ベクトルｘのうち、時刻ｔにおける倍率成分（extend_ｘ(t)，extend_ｙ(t)）を次のように設定する。
extend_x(t)=extend_x(t-1)×βf(Δｚ)
extend_y(t)=extend_y(t-1)×βf(Δｚ)

ここで（extend_ｘ(t-1)，extend_ｙ(t-1)）は遷移前の各パーティクルの倍率成分である。ｆ（Δｚ）は、撮像装置１２からの距離の変位量Δｚ＝ｚ（ｔ）−ｚ（ｔ−１）によって定まる頭部のサイズの変化の割合を、距離の算出誤差等を考慮して有限範囲として導出する関数である。定性的には関数ｆ（Δｚ）は、追跡対象が撮像装置１２に近づいたら１より大きい数値範囲を、遠ざかったら１より小さい数値範囲を出力する。例えば撮像装置１２に０．５ｍ近づいたらｆ（−０．５）＝１．５〜２．０、０．２ｍ遠ざかったらｆ（０．２）＝０．７〜０．８などとする。関数ｆ（Δｚ）は撮像装置の画角や追跡対象の距離に基づく論理計算式としてもよいし、変換テーブルとして表してもよい。βは調整項であり、所定の分布曲線に従う乱数でもよい。

上記は直近の移動量、つまり距離ｚ（ｔ−１）と距離ｚ（ｔ）の差のみを考慮したが、さらに別の時刻からの移動量を考慮することで、倍率成分をより厳密に決定してもよい。例えば追跡処理を開始した時点における追跡対象の距離ｚ（０）を用いる。そしてその間の変位量Δｚ_０＝ｚ（ｔ）−ｚ（０）から決定できる倍率成分の範囲、すなわち、
extend_x(t)’=extend_x(0)×βf(Δｚ_０)
extend_y(t)’=extend_y(0)×βf(Δｚ_０)
と、上記の直近の変位量Δｚから決定できる倍率成分extend_x(t)、extend_y(t)との積集合となる範囲を、ｘ方向、ｙ方向でそれぞれ導出し、最終的な倍率成分の範囲とする。

このようにすることで、撮像装置からの距離が取得できない領域の存在などに起因して倍率成分が過剰に変動するのを防ぐことができる。また頭部の前に腕など頭部以外の物が入り、一見、サイズが急激に変化したように見えても、そのようなサイズに対するサンプリングが抑えられるため、移動に起因した現実的な頭部サイズの変化のみを正しく追跡することができる。

図１１は、図５のＳ２８において追跡処理部２６のサンプリング部２９がパーティクルを配置することにより輪郭のサンプリングを行う処理手順を示すフローチャートである。まずパーティクル操作部４８は、一つ前の時刻ｔ−１に対する追跡結果として取得された確率密度分布p(x_t-1 ⁱ)に対応するように、パラメータ空間にパーティクルを生成／消滅させる（Ｓ６０）。これと並行して変位取得部４６は、当該確率密度分布で表される頭部の輪郭線に基づき、画像フレームに処理領域を設定する（Ｓ６２）。ここで処理領域とは図９の頭部領域２０２のように、次の時刻ｔにおける画像フレームとのマッチング対象となる領域であり、例えば輪郭線に外接する矩形や、それを所定倍率で拡大した矩形の領域とする。

続いて変位取得部４６は、時刻ｔ−１の画像フレームと時刻ｔの画像フレームにおける頭部の像の移動ベクトルを導出する（Ｓ６４）。移動ベクトルは上述のように、処理領域を分割してなる画像ブロックごとにフレーム間でマッチングを行うなどして取得した移動ベクトルを領域全体で平均したり中央値を計算したりすることにより求められる。このとき上述のように、頭部以外の像を多く含む画像ブロックをマッチング処理から除外したり、上限より大きい長さを有する移動ベクトルを計算から除外したりすることで、頭部の像の移動を正確に見積もる。

パーティクル操作部４８は、そのようにして得られた移動ベクトル（Mx, My）を用い、各パーティクルの並進量の成分を上述のように算出する（Ｓ６６）。一方、変位取得部４６は、複数の時刻の奥行き画像を参照し、頭部の奥行き方向の位置の直近の変化量Δｚ、および処理開始時など基準となる時刻からの変化量Δｚ_０を求める（Ｓ６８）。パーティクル操作部４８は、それらの異なるスパンでの変化に対しパーティクルがとるべき倍率成分の数値範囲をそれぞれ求め、その積集合を取得することにより、各パーティクルの倍率成分を算出する（Ｓ７０）。

そしてパーティクル操作部４８は、形状空間ベクトルｘのうち、並進量成分、倍率成分がＳ６６、Ｓ７０で決定した値、あるいは分布となるように各パーティクルを遷移させる（Ｓ７２）。追跡対象が他にある場合は（Ｓ７４のＮ）、Ｓ６０〜Ｓ７２の処理を繰り返す。全ての追跡対象についてパーティクルを遷移させたら処理を終了する（Ｓ７４のＹ）。その結果、時刻ｔにおける追跡対象の候補輪郭を、より確度の高い位置および大きさで効率的に生成することができる。

以上述べた本実施の形態によれば、撮影中の動画における人の頭部など対象物を追跡する、パーティクルフィルタを用いた視覚追跡において、尤度を観測する際に用いるエッジ画像の生成に、撮像装置からの距離を画像平面に表した奥行き画像の情報を利用する。具体的には前の画像フレームの追跡結果に基づき決定した処理対象の領域中、撮像装置からの距離が所定範囲にある画素を、追跡対象の像の領域として奥行き画像から抽出する。そして当該領域を所定量、膨張させた領域内、あるいは、別途抽出した前景領域を所定量膨張させた領域との和の領域内のエッジのみを抽出する。

奥行き画像を利用することにより、追跡対象の像の領域を大まかに特定できるため、尤度観測時に、背景や他の物に起因するエッジ線の影響を除外することができる。結果として各候補曲線の尤度、ひいては追跡結果の確率密度分布を高精度に求めることができる。ここで前景領域との和をとることにより、奥行き画像中の追跡対象の領域に、距離の算出に失敗した部分が生じていても、それをカバーすることができる。また、前の時刻の追跡結果に基づき処理対象の領域を限定することにより、前景抽出に用いる背景画像が厳密に得られていなくてもエッジの抽出結果への影響が小さい。結果として背景が動いたり照明の関係で前景が高精度に抽出できなくても、上述の効果を得ることができる。

また、パーティクルを遷移させる過程において、前の時刻の画像フレームからの動きを大まかに見積もる。すなわち前の画像フレームの追跡結果に基づき決定した追跡対象の領域に対しフレーム間でマッチングをとることにより画像平面上での像の移動ベクトルを取得する。さらに奥行き画像に基づき撮像装置からの追跡対象の距離の変化量を取得する。決定した移動ベクトルに基づき、各パーティクルを定義する形状空間ベクトルのうち並進量の成分を決定し、撮像装置からの距離の変化量に基づき倍率成分を決定する。

これにより、正確な予測が困難だった追跡対象の運動モデルを、実際の動きに即して決定することができ、効率的な候補曲線のサンプリングが可能になる。結果として、パーティクルの数を限定的にしても高精度な追跡が可能になる。また、最終的にはパーティクルを用いて厳密に追跡するため、マッチング等による動きの見積もりは小さい処理負荷で大まかに行えばよい。そのような見積もりが失敗したとしても、その間は、従来通りにパーティクルを分布させれば追跡自体は破綻しないため、全体としての処理の負荷を増大させることなく高精度な追跡が可能となる。

さらに、追跡対象の像であるかないか、現実的な可動範囲やサイズの変化量、といった情報を、奥行き画像を利用して取得するため、異常値をいずれかの処理過程で除外することができる。結果として、人が踊っていたり複雑な動きをしていたりしても、追跡対象以外の物の動きの影響を低く抑えることができる。

以上、本発明を実施例をもとに説明した。この実施例は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

２視覚追跡システム、１０追跡装置、１２撮像装置、１６表示装置、２０画像取得部、２２輪郭画像生成部、２４画像記憶部、２６追跡処理部、２８追跡開始終了判定部、２９サンプリング部、３０観測部、３４結果取得部、３６結果記憶部、４０出力制御部、４２奥行き画像取得部、４４エッジ抽出部、４６変位取得部、４８パーティクル操作部。

Claims

動画像における対象物の像を追跡する画像処理装置であって、
前記動画像を構成する画像フレームのうち第１の画像フレームに対し推定された追跡対象の輪郭線に基づき生成した候補輪郭を、後続の第２の画像フレームに対応するように操作するサンプリング部と、
前記第２の画像フレームを用いて、操作後の各候補輪郭の尤度を求めることにより、前記第２の画像フレームにおける追跡対象の輪郭線を推定し追跡結果として出力する追跡結果取得部と、
を備え、
前記サンプリング部は、前記第２の画像フレームに至るまでの前記追跡対象の動きの情報を、複数の画像フレームから得られる情報の比較結果に基づき取得し、それに応じて前記候補輪郭を操作することを特徴とする画像処理装置。
前記サンプリング部は、前記第１の画像フレームで推定された追跡対象の輪郭線に基づき決定した追跡対象の像の、画像平面における移動ベクトルを、前記複数の画像フレーム間のマッチング処理により取得し、当該移動ベクトルに基づき前記候補輪郭を画像平面上で移動させることを特徴とする請求項１に記載の画像処理装置。
前記画像フレームに対応し、被写体の撮像装置からの距離を画像平面に画素値として表した奥行き画像を取得する奥行き画像取得部をさらに含み、
前記サンプリング部は、前記奥行き画像の画素値の範囲に基づき、前記第１の画像フレームにおける前記追跡対象の像の領域を特定し、それに応じてマッチング対象の領域を決定することを特徴とする請求項２に記載の画像処理装置。
前記サンプリング部は、推定された追跡対象の輪郭線に基づき、当該追跡対象の像を含むマッチング対象の領域を前記第１の画像フレームに設定し、当該マッチング対象の領域を分割してなる画像ブロックごとに、内部の像の移動ベクトルを求め、それらに基づき前記追跡対象の像の移動ベクトルを求めることを特徴とする請求項２または３に記載の画像処理装置。
前記サンプリング部は、推定された追跡対象の輪郭線に基づき、当該追跡対象の像を含むマッチング対象の領域を前記第１の画像フレームに設定し、当該マッチング対象の領域を分割してなる画像ブロックごとに、内部の像の移動ベクトルを求め、そのうち、前記奥行き画像から得られる前記追跡対象の距離に応じて定まる上限を超える長さを有する移動ベクトルを除外した移動ベクトルに基づき前記追跡対象の像の移動ベクトルを求めることを特徴とする請求項３に記載の画像処理装置。
前記サンプリング部は、各画像フレームを複数の解像度で表した画像を取得し、前記マッチング処理として、前記複数の画像フレーム間で対応する特徴点を、最も低い解像度の画像から検出していき、異なる解像度間で検出結果が収束したとき、当該検出結果をマッチング結果として、前記移動ベクトルの取得に用いることを特徴とする請求項２から５のいずれかに記載の画像処理装置。
前記画像フレームに対応し、被写体の撮像装置からの距離を画像平面に画素値として表した奥行き画像を取得する奥行き画像取得部をさらに含み、
前記サンプリング部は、前記第１の画像フレームで推定された追跡対象の輪郭線に基づき、前記第１の画像フレームおよび第２の画像フレームに対応する前記奥行き画像から、当該追跡対象の撮像装置からの距離の変化量および変化の方向を取得し、当該変化量に基づき前記候補輪郭の大きさを変化させることを特徴とする請求項１または２に記載の画像処理装置。
前記サンプリング部はさらに、前記第１の画像フレームより前の基準時刻における画像フレームおよび前記第２の画像フレームにそれぞれ対応する前記奥行き画像から、当該追跡対象の撮像装置からの距離の変化量および変化の方向を取得し、それに応じて前記候補輪郭の大きさの変化量を調整することを特徴とする請求項７に記載の画像処理装置。
前記サンプリング部は、輪郭線を規定する形状空間ベクトルを表すパーティクルをパラメータ空間に分布させることにより前記候補輪郭を生成させたうえ、前記追跡対象の動きの情報に応じて、前記形状空間ベクトルの少なくともいずれかの成分を変化させ各パーティクルを前記パラメータ空間で遷移させることにより、前記候補輪郭を操作することを特徴とする請求項１から８のいずれかに記載の画像処理装置。
動画像における対象物の像を追跡する画像処理装置が、
前記動画像を構成する画像フレームをメモリより読み出し、そのうち第１の画像フレームに対し推定された追跡対象の輪郭線に基づき生成した候補輪郭を、後続の第２の画像フレームに対応するように操作するステップと、
前記第２の画像フレームを用いて、操作後の各候補輪郭の尤度を求めることにより、前記第２の画像フレームにおける追跡対象の輪郭線を推定し追跡結果としてメモリに格納するステップと、
を含み、
前記操作するステップは、前記第２の画像フレームに至るまでの前記追跡対象の動きの情報を、複数の画像フレームから得られる情報の比較結果に基づき取得し、それに応じて前記候補輪郭を操作することを特徴とする画像処理方法。
動画像における対象物の像を追跡するコンピュータに、
前記動画像を構成する画像フレームのうち第１の画像フレームに対し推定された追跡対象の輪郭線に基づき生成した候補輪郭を、後続の第２の画像フレームに対応するように操作する機能と、
前記第２の画像フレームを用いて、操作後の各候補輪郭の尤度を求めることにより、前記第２の画像フレームにおける追跡対象の輪郭線を推定し追跡結果として出力する機能と、
を実現させ、
前記操作する機能は、前記第２の画像フレームに至るまでの前記追跡対象の動きの情報を、複数の画像フレームから得られる情報の比較結果に基づき取得し、それに応じて前記候補輪郭を操作することを特徴とするコンピュータプログラム。
動画像における対象物の像を追跡するコンピュータに、
前記動画像を構成する画像フレームのうち第１の画像フレームに対し推定された追跡対象の輪郭線に基づき生成した候補輪郭を、後続の第２の画像フレームに対応するように操作する機能と、
前記第２の画像フレームを用いて、操作後の各候補輪郭の尤度を求めることにより、前記第２の画像フレームにおける追跡対象の輪郭線を推定し追跡結果として出力する機能と、
を実現させ、
前記操作する機能は、前記第２の画像フレームに至るまでの前記追跡対象の動きの情報を、複数の画像フレームから得られる情報の比較結果に基づき取得し、それに応じて前記候補輪郭を操作するコンピュータプログラムを記録したことを特徴とするコンピュータにて読み取り可能な記録媒体。