JP6618395B2

JP6618395B2 - 行動価値によって調査対象の位置を予測する装置、プログラム及び方法

Info

Publication number: JP6618395B2
Application number: JP2016055005A
Authority: JP
Inventors: 有希永井; 小林　達也; 達也小林
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2016-03-18
Filing date: 2016-03-18
Publication date: 2019-12-11
Anticipated expiration: 2036-03-18
Also published as: JP2017168029A

Description

本発明は、調査対象である物体を撮影して得られる時系列画像データといった、調査対象における刻々の実際の位置に関係するデータである位置情報実データを解析して、当該調査対象の位置情報を予測する位置情報予測技術に関する。

監視やマーケティング等の目的をもって、カメラで撮影され生成された時系列の画像データを解析し、移動する物体の実空間での位置を追跡する技術が開発されている。追跡する物体としては、人物や乗り物等、撮影可能な様々なものが対象となる。

ここで、解析対象の画像において、追跡対象物体を含め複数の物体が映っている場合を考える。この場合、画像上で、追跡対象物体同士が交差したり、追跡対象物体が静止物体等の他の物体と重なったり、さらには他の物体の背後に隠れたりする現象が生じ、結果として追跡を失敗してしまう事態も起こり得る。このように、追跡対象物体の画像領域が他の物体の領域と重畳してしまう現象は、オクルージョンと呼ばれる。

このオクルージョンが発生すると、本来継続して追跡すべき物体とは別の物体を追跡対象物体として認識してしまうＩＤ（識別子）スイッチングが起きたり、追跡対象物体を見失って追跡が継続できなったり(ロストしたり)することがある。また、オクルージョンの終了後に、本来継続して追跡すべき物体を、新たな追跡対象であるとみなして新規のＩＤを割り当てるといったＩＤ間違いが生じることもある。

そこで、オクルージョンが発生しても正確な物体追跡を行えるようにするため、数多くの技術が考案されてきた。例えば、特許文献1には、対象物体をリアルタイムで追跡することができ、画像フレーム内に新たな被追跡物体が出現しても、動画像による追跡をリアルタイムで続行可能にする技術が開示されている。この技術では、フレーム間で対応のつく被追跡物体の次フレームでの位置は、被追跡物体移動位置推定手段で推定され、一方、対応の付かない被追跡物体の位置は、現フレームの被追跡物体の明るさの分布と、先フレームの被追跡物体の明るさの分布とから推定される。

また、特許文献２には、追跡対象物体を複数のパーツとして捉え、ＭＨＴ（Multiple Hypotheses Tracking，多重仮説追跡）アルゴリズムを利用して、複数のパーツ仮説をキープし、曖昧さを保ったままで追跡を行うべく、各パーツについて、複数のパーツ仮説の各々をノードとする軌跡木（部分仮説木）を時間的に成長させる技術が開示されている。

さらに、特許文献３には、時系列の画像データにおいて複数のフレームに含まれる複数の移動物体を検出し、同一の移動物体同士をフレーム間で対応付けることによって、移動物体の追跡を行う技術が開示されている。この技術では、現在の時刻の検出結果と次の時刻の検出結果とをつなげるパスを推定していくことで物体を追跡する。具体的には、両検出結果の対応がつく確率、対応がつかない確率、消滅する確率、検出できなかった物体が再び出現する確率を算出し、全時刻における組み合わせのパスとその確率とから、最適となるパスを決定している。

上述した特許文献２及び特許文献３に記載されたような技術は、基本的に、全時刻分のデータを全て使用するオフライン処理によって最適なパス、すなわち追跡結果を算出している。これに対し、全シーケンスを複数のサブシーケンスに分割し、サブシーケンスの組み合わせのみから最適パスを算出し、これらのサブシーケンスの結果をつなぐことによって全体の追跡結果を生成するミニバッチ処理を実施することによって、逐次的な追跡結果を生成することも可能となる。

また、非特許文献１では、強化学習を用いて複数の人物を追跡する技術が開示されている。この技術では、各人物の状態（Tracked，Active，Inactive，Lost）の切り替えを、強化学習（reinforcement learning）アルゴリズムを用いて学習し、この学習によって得られた方策に基づいて複数人物の追跡を実施している。ここで、強化学習とは、「環境」中に置かれた「エージェント」が、「環境」との相互作用を通して最適な方策（行動を決定する決まり）を得るための機械学習の一手法である。

この非特許文献1に記載された技術では、強化学習の中でもＱ学習（Q-Learning）と呼ばれる手法を用いてステータスの学習のみを行っており、ＬＫ法をベースとしたＴＬＤ（Tracking-Learning-Detection）と呼ばれるアルゴリズムを追跡処理のために利用し、１人ずつ個別に人物を追跡している。なお、ＴＬＤの参考文献としては、例えば、Z. Kalal，J. Matas，and K. Mikolajczyk，"P-N Learning: Bootstrapping Binary Classifiers by Structural Constraints"，Conference on Computer Vision and Pattern Recognition，２０１０年が挙げられる。

特開平０２−１９６３８２号公報特開２０１４−１９１３９３号公報特開２０１１−１７０７１１号公報

Yu Xiang，Alexandre Alahi，and Silvio Savarese，"Learning to Track: Online Multi-Object Tracking by Decision Making"，International Conference on Computer Vision (ICCV)，２０１５年，４７０５〜４７１３頁

しかしながら、以上に述べたような従来の複数物体の追跡技術では、解決できない問題が依然として存在する。

例えば、特許文献1に記載されたような従来技術では、オプティカルフローと呼ばれる画像上の特徴点の移動ベクトルを求める手法を用い、物体が次時刻で画像上に占める領域を推定している。このような技術では、複数の物体が互いに近い領域で同様の動きをした場合、それに対応して適切に処理を行うことが難しく、物体を見失いやすいという問題が生じる。

また、特許文献２に記載された技術では、新規に物体が追加される尤度や、物体を消滅させる(すなわち追跡を終了させる)尤度は、状況に応じた値ではなく、所定の固定値に設定される。その結果、物体がオクルージョン中であるか否か、また、他の物体が周囲に存在するか否かといった状況が反映されないので、新規の追加や追跡終了の判断を誤る可能性が生じてしまう。

さらに、特許文献３に記載された技術では、基本的に、複数時刻での物体の検出結果をつなげていくので、検出されなくなった際には一旦追跡を中断し、後に検出された際に追跡を復活させるという方法しかとることができない。また、フレーム毎に物体検出を行うので、誤った検出結果を導くこともあり、存在する物体を検出できなかったり、物体の大きさや位置がずれた状態で検出したりすることも少なくない。

このように、ノイズの乗った検出結果をつなげていくことで物体追跡を行う方法では、物体を追跡できない時刻帯が存在するだけでなく、物体の位置や物体領域の大きさを誤って判断する可能性が生じる。特に、画像の人物領域の足元位置を実空間へ射影することによって実空間での物体位置を推定する場合、画像内で推定誤差が生じた際に、画像内での移動が僅かであっても、対応する実空間での移動量が、実際にはほとんどあり得ない程度に急激に変化してしまうといった問題が生じ得る。

また、非特許文献１に記載された従来技術では、学習されるのは、各被追跡対象人物の状態（Tracked，Active，Inactive，Lost）と、追跡を継続するかロストさせるかといったような状態間での切り替えの有無についての関係のみである。実際、物体追跡そのものは、他の人物の位置を考慮せず、従来のシングルトラッキング（１つの物体を追跡する手法の総称）を用いて行われているにすぎない。

すなわち、非特許文献１に記載の技術は、特許文献２に記載の技術と同様、追跡を継続（Tracked）するか中断（Lost）するかといった判断を行う基準として、シングルトラッキングを実行した際の信頼度のみを用いており、周囲に他の物体が存在するか否かを考慮していない。その結果、被追跡対象人物を識別するＩＤのスイッチングが起こりやすいという問題が生じてしまう。これは、他の物体との間でオクルージョンが発生した際、特に人物同士のように見かけの近い物体同士が交差した場合に、本来追跡すべき対象ではない物体を追跡対象として信頼する誤りをおかしてしまうことによる。

そこで、本発明は、対象の見え方が変化したりオクルージョンが発生したりする場合でも、対象をより確実に識別しながらその位置を追うことができる装置、プログラム及び方法を提供することを目的とする。

本発明によれば、調査対象における刻々の実際の位置に関係するデータである位置情報実データに基づいて、当該調査対象の位置情報を予測する位置情報予測装置であって、
１つの時点における当該調査対象の複数の候補位置の各々に係る情報を含む「状態」と、当該１つの時点において当該調査対象がいずれの当該候補位置に移動するかの情報を含む「行動」とを変数とする価値関数を用いて、予測時点での「状態」から、当該予測時点での当該調査対象の「行動」を、当該予測時点での当該調査対象の位置情報として決定するテスト手段
を有する位置情報予測装置が提供される。

さらに、本発明による位置情報予測装置は、
決定された「行動」が、当該位置情報実データから導出される当該調査対象の正解の位置情報に該当するか否かに基づいて、「報酬」を生成する報酬生成手段と、
生成された「報酬」に基づいて、当該価値関数を更新する学習手段と
を更に有することも好ましい。

また、本発明による位置情報予測装置の一実施形態として、当該位置情報実データは、当該調査対象である物体を撮影可能な１つ以上のカメラから取得される時系列の画像群であり、
報酬生成手段は、決定された「行動」が、当該予測時点での当該画像から導出される当該調査対象の正解の位置情報に該当するか否かに基づいて「報酬」を生成することも好ましい。
さらに、この実施形態において、当該画像から調査対象の物体を含む物体を検出する物体検出手段を更に有し、テスト手段は、検出された当該調査対象の物体に係る情報から、予測時点での「状態」を決定することも好ましい。

本発明によれば、また、調査対象における刻々の実際の位置に関係するデータである位置情報実データに基づいて、当該調査対象の位置情報を予測する位置情報予測装置であって、
１つの時点における当該調査対象の複数の候補位置に係る情報を含む「状態」と、当該１つの時点において当該調査対象がいずれの当該候補位置に移動するかの情報を含む「行動」とを変数とする価値関数を用いて、予測時点での「状態」から、当該予測時点での当該調査対象の「行動」を、当該予測時点での当該調査対象の位置情報として決定するテスト手段を有し、
当該「状態」において、当該１つの時点における当該調査対象の複数の候補位置に係る情報は、当該１つの時点の前の時点において決定された位置情報に基づいて決定された当該複数の候補位置の各々について当該位置情報実データから算出される特徴量における、予め設定された当該調査対象のモデルに対する類似の度合いに係る情報である
ことを特徴とする位置情報予測装置が提供される。
また、本発明によれば、さらに、調査対象を撮影可能な１つ以上のカメラから取得される時系列の画像群であって当該調査対象における刻々の実際の位置に関係するデータである画像群に基づいて、当該調査対象の位置情報を予測する位置情報予測装置であって、
１つの時点における当該調査対象の複数の候補位置に係る情報を含む「状態」と、当該１つの時点において当該調査対象がいずれの当該候補位置に移動するかの情報を含む「行動」とを変数とする価値関数を用いて、予測時点での「状態」から、当該予測時点での当該調査対象の「行動」を、当該予測時点での当該調査対象の位置情報として決定するテスト手段と、
決定された「行動」が、当該予測時点での当該画像から導出される当該調査対象の正解の位置情報に該当するか否かに基づいて「報酬」を生成する報酬生成手段と、
生成された「報酬」に基づいて、当該価値関数を更新する学習手段と
を有し、
当該価値関数の変数である「行動」のとり得る値は、当該物体を追跡対象から外すことを示す値と、当該物体を移動させないことを示す値と、当該物体を移動先としてのＮ個の候補位置にそれぞれ移動させることを示すＮ個の値とを含み、
報酬生成手段は、当該予測時点での当該画像から導出される当該物体の正解の位置情報に基づき、
当該物体が所定の追跡範囲外へ移動したと判断した場合、又は当該物体の画像領域が他の物体の画像領域によって所定以上の割合で遮蔽されていると判断した場合、決定された「行動」が当該物体を追跡対象から外すことであるならば、当該価値関数の値を大きくする方向の「報酬」を生成し、
当該物体が当該所定の追跡範囲外へ移動したとも、当該物体の画像領域が他の物体の画像領域によって所定以上の割合で遮蔽されているとも判断しなかった場合、決定された「行動」が当該物体を移動させない又は１つの候補位置に移動させることであって、当該正解の位置情報に係る位置と、当該物体の移動していない位置又は移動先である当該１つの候補位置との距離が所定未満であれば、当該価値関数の値を大きくする方向の「報酬」を生成する
ことを特徴とする位置情報予測装置が提供される。

さらに、本発明によれば、また、調査対象を撮影可能な１つ以上のカメラから取得される時系列の画像群であって当該調査対象における刻々の実際の位置に関係するデータである画像群に基づいて、当該調査対象の位置情報を予測する位置情報予測装置であって、
１つの時点における当該調査対象の複数の候補位置に係る情報を含む「状態」と、当該１つの時点において当該調査対象がいずれの当該候補位置に移動するかの情報を含む「行動」とを変数とする価値関数を用いて、予測時点での「状態」から、当該予測時点での当該調査対象の「行動」を、当該予測時点での当該調査対象の位置情報として決定するテスト手段と、
決定された「行動」が、当該予測時点での当該画像から導出される当該調査対象の正解の位置情報に該当するか否かに基づいて「報酬」を生成する報酬生成手段と、
生成された「報酬」に基づいて、当該価値関数を更新する学習手段と
を有し、
当該価値関数の変数である「状態」は、当該１つの時点における当該調査対象の複数の候補位置に係る情報として、
・当該１つの時点の前の時点において決定された位置情報に基づいて決定された当該複数の候補位置の各々について当該画像から算出される特徴量における、予め設定された当該調査対象のモデルに対する類似の度合いに係る情報
を含むことを特徴とする位置情報予測装置が提供される。

さらに、上記の実施形態において、当該価値関数の変数である「状態」は、当該１つの時点における当該調査対象の複数の候補位置に係る情報として、
・当該１つの時点以前での当該物体において最後に確認された位置の変化分を変数とする当該複数の候補位置の各々に関する確率密度関数に係る情報と、
・当該複数の候補位置の各々における当該物体相当の画像領域と、当該１つの時点において検出された物体相当の画像領域との重畳の度合いに係る情報と、
・当該１つの時点における、当該物体と他の物体とを２値分類する識別器によって算出された類似度に係る情報と、
・当該１つの時点の前の時点で検出された当該物体相当の画像領域における特徴的な画素であるキーポイントが、移動（オプティカルフロー）した後の当該１つの時点において、当該複数の候補位置の各々における当該物体相当の画像領域に含まれている割合に係る情報と
の少なくとも１つを更に含むことも好ましい。

また、本発明によれば、さらに、調査対象を撮影可能な１つ以上のカメラから取得される時系列の画像群であって当該調査対象における刻々の実際の位置に関係するデータである画像群に基づいて、当該調査対象の位置情報を予測する位置情報予測装置であって、
１つの時点における当該調査対象の複数の候補位置に係る情報を含む「状態」と、当該１つの時点において当該調査対象がいずれの当該候補位置に移動するかの情報を含む「行動」とを変数とする価値関数を用いて、予測時点での「状態」から、当該予測時点での当該調査対象の「行動」を、当該予測時点での当該調査対象の位置情報として決定するテスト手段と、
決定された「行動」が、当該予測時点での当該画像から導出される当該調査対象の正解の位置情報に該当するか否かに基づいて「報酬」を生成する報酬生成手段と、
生成された「報酬」に基づいて、当該価値関数を更新する学習手段と
を有し、
当該価値関数の変数である、当該１つの時点での「状態」は、
・当該物体がロストしてから当該１つの時点の前の時点までに経過した時間に係る情報と、
・当該１つの時点以前での当該物体の最終位置を中心とした周囲を区分する複数の所定角度範囲の各々における最近の物体までの距離に係る情報と、
・当該１つの時点以前での当該物体の最終位置であって、当該画像座標上での最終位置における当該物体相当の画像領域と、他の物体相当の画像領域との重畳の度合いに係る情報と
の少なくとも１つを更に含む
ことを特徴とする位置情報予測装置が提供される

本発明によれば、また、調査対象における刻々の実際の位置に関係するデータである位置情報実データに基づいて、当該調査対象の位置情報を予測する装置に搭載されたコンピュータを機能させるプログラムであって、
１つの時点における当該調査対象の複数の候補位置の各々に係る情報を含む「状態」と、当該１つの時点において当該調査対象がいずれの当該候補位置に移動するかの情報を含む「行動」とを変数とする価値関数を用いて、予測時点での「状態」から、当該予測時点での当該調査対象の「行動」を、当該予測時点での当該調査対象の位置情報として決定するテスト手段と
としてコンピュータを機能させる位置情報予測プログラムが提供される。

本発明によれば、さらに、調査対象における刻々の実際の位置に関係するデータである位置情報実データに基づいて、当該調査対象の位置情報を予測する位置情報予測方法であって、
１つの時点における当該調査対象の複数の候補位置の各々に係る情報を含む「状態」と、当該１つの時点において当該調査対象がいずれの当該候補位置に移動するかの情報を含む「行動」とを変数とする価値関数を準備するステップと、
当該価値関数を用いて、予測時点での「状態」から、当該予測時点での当該調査対象の「行動」を、当該予測時点での当該調査対象の位置情報として決定するステップと
有する位置情報予測方法が提供される。

本発明の位置情報予測装置、プログラム及び方法によれば、対象の見え方が変化したりオクルージョンが発生したりする場合でも、対象をより確実に識別しながらその位置を追うことができる。

本発明による位置情報予測装置を含む位置情報予測システムの一実施形態を示す模式図である。本発明による位置情報予測装置の一実施形態における処理の流れを概略的に示すフローチャートである。本発明による物体追跡装置の一実施形態における機能構成を示す機能ブロック図である。状態sの構成要素Dist(r_i)を説明するための模式図である。状態sの構成要素o_maxを説明するための模式図である。状態sの構成要素Φ(q_i)における候補位置q_iを説明するための模式図である。 Φ(q_i)の構成要素α(P', P, q_i)を説明するためのグラフである。 Φ(q_i)の構成要素φ(q_i)を説明するためのグラフである。物体検出部における物体の高さh₀を算出する方法の一実施形態を示す模式図である。

以下、本発明の実施形態について、図面を用いて詳細に説明する。

図１は、本発明による位置情報予測装置を含む位置情報予測システムの一実施形態を示す模式図である。

図１に示した、位置情報予測システムとしての物体追跡システムは、
（ａ）追跡対象の物体を撮影可能であり、撮影した画像の情報を、通信ネットワークを介して時系列で送信可能な１つ又は複数のカメラ２と、
（ｂ）カメラ２から通信ネットワークを介して取得される時系列の画像群を用い、当該物体の位置情報を予測して当該物体を追跡可能な、位置情報予測装置としての物体追跡装置１と
を備えている。

ここで、追跡対象となる物体には、人物、動物、乗り物や、その他移動可能な物理対象等、撮影可能であれば様々なものが該当する。また、撮影される場所も、特に限定されるものではなく、例えば、追跡対象となる人物として、観客、通勤者、買い物客、労働者、歩行者や、ランナー等が映り得る屋外、さらには会社、学校、家庭や、店舗の内部といった屋内とすることもできる。特に、追跡対象となる物体（人物）が複数又は多数であって、同行したり互いにすれ違ったり、さらには撮影範囲の内外に移動したりし得る環境であってもよい。

また、画像情報の伝送路である通信ネットワークは、例えばＷｉ−Ｆｉ（登録商標）等の無線ＬＡＮ(Local Area Network)とすることができる。または、ＬＴＥ(Long Term Evolution)、ＷｉＭＡＸ（Worldwide Interoperability for Microwave Access）又は３Ｇ（3rd Generation）等の無線系アクセスネットワークを介し、インターネットを経由してカメラ２と物体追跡装置１とを通信接続させるものであってもよい。

さらに、光ファイバ網若しくはＡＤＳＬ（Asymmetric Digital Subscriber Line）等の固定系アクセスネットワークを介しインターネットを経由して、又はプライベートネットワークを介してカメラ２と物体追跡装置１とが通信接続されてもよい。また、変更態様として、カメラ２と物体追跡装置１とは直接有線で接続されてもよい。さらに、複数のカメラ２から出力される画像情報を取りまとめて物体追跡装置１に送信可能な（図示していない）カメラ制御装置が設けられていてもよい。

ここで、伝送される画像情報（時系列画像群）は、追跡対象（位置の調査対象）における刻々の実際の位置に関係するデータである位置情報実データとして捉えることができる。また、物体追跡装置１は、この位置情報実データ（時系列画像群）に基づいて、調査対象の位置情報を予測する位置情報予測装置として捉えることができる。

同じく図１に示すように、位置情報予測装置（物体追跡装置）１は、強化学習部１１３を有しており、この強化学習部１１３において、
（Ａ１）１つの時点における調査対象（追跡対象）の複数の「候補位置」に係る情報を含む「状態」と、
（Ａ２）当該１つの時点において調査対象（追跡対象）がいずれの「候補位置」に移動するかの情報を含む「行動」と
を変数とする価値関数を用いて、予測時点での「状態」から、当該予測時点での当該調査対象の「行動」を、当該予測時点での当該調査対象の位置情報として決定する。

このように、位置情報予測装置１は、「状態」及び「行動」を変数とする価値関数を用いてテスト、すなわち位置情報の予測を実施することができるのである。

また、本実施形態の位置情報予測装置１は、同じく強化学習部１１３において、さらに、
（Ｂ１）決定された「行動」が、位置情報実データ（画像データ）から導出される調査対象（追跡対象）の正解の位置情報に該当するか否かに基づいて、「報酬」を生成し、
（Ｂ２）生成された「報酬」に基づいて、価値関数を更新する
といった特徴も有している。

このように、位置情報予測装置（物体追跡装置）１は、「状態」及び「行動」を変数とする価値関数を用いてテスト及び学習を行う、いわゆる強化学習アルゴリズムを利用して、位置情報を予測し、追跡を行うのである。

ここで、特に、上記（Ａ１）及び（Ａ２）に示したように、複数の「候補位置」に係る事項を「状態」及び「行動」に含めており、さらに、上記（Ｂ１）に示したように、正解の位置情報そのものに基づいて「報酬」を決定している。その結果、予測時点での調査対象（追跡対象）の位置情報を、予測時点でのまさに「行動」という形で、強化学習ゆえのより高い信頼性をもって予測・決定することができる。これにより、後に詳しく説明するように、対象の見え方が変化したりオクルージョンが発生したりする場合でも、対象をより確実に識別しながらその位置を追うことが可能となるのである。

この点、強化学習においては通常、環境に関する完全な理解はない状況で学習が進行するが、位置情報予測装置１では、位置情報実データ（画像情報）をまさに正解に係る情報として取り扱い、効果的な「報酬」を決定している。その結果、より適切な「行動」を出力可能とする有効な学習を、効率良く実施することが可能となるのである。

なお、装置１で取り扱われる位置情報実データは、本実施形態のようなカメラ撮影によって生成された画像データに限定されるものではない。調査対象（追跡対象）の実際の位置に関係するデータであれば、様々なものが該当する。例えば、デプスカメラによって生成される（対象の各画素の）デプス値情報を、位置情報実データとして利用することも可能である。

同じく図１に示すように、物体追跡装置１では、追跡対象物体は、床又は地面での接地位置である物体位置に存在する３次元の物体モデルとして捉えられる。この物体モデルは、その物体の概形を表現した所定の標準的な形状を有し、モデル表面に位置する３次元空間内の点の集合となっている。例えば、追跡対象物体が人物の場合、図１に示したような、サイズの異なる円柱を縦に重ねた形状の表面に位置する点の集合を３次元物体モデルとすることができる。

また、物体追跡装置１は、刻々と取得される画像内に張られた画像座標系u-vでの位置座標(u, v)を、実空間に張られた世界座標系G_x-G_y-G_zでの位置座標(g_x, g_y, g_z)へ変換する座標変換操作を用いて、追跡対象物体の映った画像情報から、実空間での位置の変化分Δp等の位置情報を算出している。

例えば、追跡対象物体の画像内における前時刻（T−1）での位置(u, v)が、現時刻Tでの位置(u', v')へ変化した場合、この物体は、実空間（観測対象空間）において前時刻（T−1）での位置(g_x, g_y, g_z)から現時刻Tでの位置(g_x', g_y', g_z')へ移動したことが推定され、実空間での位置の前時刻（T−1）からの変化分を取得することができる。

ここで、使用する時刻は、単位時間を１としてこの単位時間経過毎に設定される時刻であり、時刻Tの1つ前となる前時刻はT-1となる。また、上記のような画像座標系から世界座標系への座標変換は、予めキャリブレーションにより各カメラ２についての設置位置及び撮影向きに係る外部パラメータを設定しておくことによって決定することが可能である。なお、複数のカメラ２のそれぞれから画像が取得される場合でも、これらの画像を統合して１つの画像空間を構築し、この画像空間に画像座標系を適用することができる。

このように、物体追跡装置１は、刻々と取得される画像情報（画像座標系u-vでの位置情報）に基づき、追跡対象物体の実空間での位置情報（世界座標系G_x-G_y-G_zでの位置情報）を、強化学習部１１３によって推定することができるのである。

さらに、本実施形態において、物体追跡装置１は、複数（又は多数）の物体を同時に追跡することができる。物体追跡装置１は、このような複数物体の追跡において、追跡対象の見え方が変化したりオクルージョンが発生したりする場合でも、強化学習に基づき、物体の状態に応じた最適な方策に従い追跡を行うことで、例えば対象固有の識別子IDを付与し続けながら、それらの位置を追跡することができる。

具体的には、後に詳しく説明するように、追跡対象物体の移動をエージェントの移動として捉え、強化学習によって画像情報と複数物体に係る最適な位置情報（移動分）との関係を学習し、物体の状態に応じた最適な方策（エージェントをどのように動かすと最適かという方策）に従うことによって、さらにその方策を自動的に学習することで、複数物体の同時追跡を可能とするのである。

さらに、物体追跡装置１は、強化学習部１１３において、カメラ２から取得した時系列の各画像を用いて即座に、すなわちオンラインで学習することができる。その結果、追跡対象物体の位置を即座に把握して追跡を行うことが可能となるのである。さらに、刻々と学習する強化学習部１１３を用いて追跡を行うので、対象の見え方が変化したりオクルージョンが発生したりする場合でも、同一の物体であると認識することができ、例えば当該物体に固有のＩＤを付与し続けながら、適切な追跡を続行することが容易になる。

図２は、本発明による位置情報予測装置の一実施形態における処理の流れを概略的に示すフローチャートである。

図２によれば、本実施形態の物体追跡装置（位置情報予測装置）１は、カメラ２から解析対象の画像を取得した際、追跡対象の複数の物体に対応した学習済みの強化学習部１１３に対して当該画像を入力し、当該物体の位置情報としての「行動ａ」を出力させて当該物体を追跡する。追跡対象である複数物体の各々には当該物体固有のＩＤが継続して付与される。

ここで、強化学習部１１３で実施される強化学習アルゴリズムについて説明する。強化学習とは、「環境」中に置かれた「エージェント」が、「環境」との相互作用を通して最適な方策（行動を決定する決まり）を得るように設計された機械学習の一手法である。この強化学習における「エージェント」は、行動主体であって、「環境」の「状態ｓ」を計測し、方策に基づいて次にとる「行動ａ」を選択し出力する。この行動出力が、テスト（予測）に相当する。

その後、この「行動ａ」は「環境」によって評価され、「エージェント」は「環境」から「行動ａ」に応じた「報酬ｒ」を受け取る。「報酬ｒ」は行動の良し悪しを評価するものであり、「エージェント」は、適切な行動をとった場合に高い報酬（通常は正の報酬）を獲得し、適切でない行動をとった場合には低い報酬（通常は負の報酬）を受け取る。次いで、「エージェント」は、受け取った「報酬ｒ」に基づいて、方策を更新する。この方策の更新が、学習に相当する。ここでは、この学習はオンラインで実施されることになる。

本実施形態では、追跡対象の複数の物体の各々に対応する３次元モデルを「エージェント」として捉える。そして、この「エージェント」を実空間上でどのように移動させるか又はロストさせるかといった状態変化を、強化学習の「行動ａ」として設定する。さらに、実際の物体の動きに係る情報（正解データ）との近さを、選択した「行動ａ」に対する「報酬ｒ」とする。ここで、「エージェント」は、出力した「行動ａ」が正解データに近ければ近いほどより高い「報酬ｒ」を取得するが、このような報酬に基づき、方策をより適切なものに更新していくのである。

同じく図２に示すように、物体追跡装置１は、上記の追跡処理と並行して、検出処理を行う。具体的には、新規の又は追跡されていない可能性のある物体が、取得された画像上に写っていないか否かを学習済みの検出用識別器を用いて判定し、このような物体の領域が当該画像上に出現した際に当該物体を検出したとする。

物体が検出された際、物体追跡装置１は、新規に追跡を開始する前に、検出された物体と過去に追跡していた物体との類似度を算出し、この類似度が所定値以上である場合に、一旦追跡が終了した物体が撮影可能な空間内に復帰したとみなす。この場合、類似度の高い過去の物体と同一の識別子IDを検出物体に付与して、すなわち識別子IDを統合して追跡を再開する。一方、算出した類似度が所定値よりも小さい場合、新規の物体が撮影可能な空間内に出現したとみなし、新規の識別子IDを検出物体に付与する。

物体追跡装置１は、次いで、時系列で再び新たな画像を取得して、図２に示したような処理のサイクルを繰り返す。

以上に説明したように、物体追跡装置１は、１つ以上のカメラ２からの時系列画像群を用いて追跡と同時に検出処理も行っているので、物体における様々の状況に合わせて、的確且つ統合的な追跡を実施することができる。

図３は、本発明による物体追跡装置の一実施形態における機能構成を示す機能ブロック図である。

図３によれば、物体追跡装置１は、１つ又は複数のカメラ２と通信接続可能な通信インタフェース１０１と、画像蓄積部１０２と、ＩＤ蓄積部１０３と、行動価値関数記憶部１０４と、追跡物体情報記憶部１０５と、プロセッサ・メモリとを有する。ここで、プロセッサ・メモリは、物体追跡装置１のコンピュータを機能させるプログラムを実行することによって、物体追跡機能（位置情報予測機能）を実現させる。

さらに、プロセッサ・メモリは、機能構成部として、物体検出部１１１と、ＩＤ（識別子）管理部１１２と、強化学習部１１３と、追跡物体管理部１１４と、通信制御部１１５とを有する。ここで、物体検出部１１１は、検出用識別器１１１ａを有することも好ましい。また、ＩＤ管理部１１２は、既存物体状態更新部１１２ａと、新規物体登録管理部１１２ｂとを有することも好ましい。さらに、強化学習部１１３は、テスト部１１３ａと、報酬生成部１１３ｂと、学習部１１３ｃとを有することも好ましい。なお、図３における物体追跡装置１の機能構成部間を矢印で接続して示した処理の流れは、本発明による物体追跡方法（位置情報予測方法）の一実施形態としても理解される。

カメラ２は、例えば、ＣＣＤイメージセンサ、ＣＭＯＳイメージセンサ等の固体撮像素子を備えた可視光、近赤外線又は赤外線対応の撮影デバイスである。なお、上述したように、カメラ２としてデプスカメラを用いることも可能である。また、カメラ２又は（図示していない）カメラ制御装置は、カメラ２で撮影された物体の画像を含む撮影画像データを生成し、当該データを時系列に又はバッチで物体追跡装置１に送信する機能を有する。また、カメラ２は、可動であって設置位置、撮影向きや高さを変更することができ、この変更のための制御信号を受信し処理する機能を有していることも好ましい。

通信インタフェース１０１は、カメラ２又はカメラ制御装置から時系列の画像群である撮影画像データを、通信ネットワークを介して受信する。通信インタフェース１０１を使用した送受信及び通信データ処理の制御は、通信制御部１２１によって行われ、取得された撮影画像データは、画像蓄積部１０２に蓄積される。ここで、この撮影画像データは、カメラ２又はカメラ制御装置から時系列順に呼び出されて取得されたものであってもよく、リアルタイムに一定時間間隔でキャプチャされた画像を順に取得したものであってもよい。

物体検出部１１１は、所定の特徴量を用いて学習を行った検出用識別器１１１ａによって、物体識別対象の画像における出現した又は追跡されていない物体を検出可能な機能部である。この検出された物体に係る情報から、後述するテスト部１１３ａにおいて予測時点での「状態」が決定される。

物体検出部１１１は、具体的には、画像蓄積部１０２に蓄積された画像において、追跡対象となる物体に対応する画像領域を検出する。ここで、人物を追跡対象とする場合、学習には人物検出に適した特徴量を用いる。物体検出のための特徴量としては、例えばＨＯＧ特徴量を使用することも好ましい。ＨＯＧ特徴量は、画像の局所領域における輝度の勾配方向をヒストグラム化し、各度数を成分としたベクトル量である。ＨＯＧ特徴量を用いた人物検出技術については、例えば、非特許文献であるDalal. N and Triggs. B，"Histograms of Oriented Gradients for Human Detection"，proceedings of IEEE Computer Vision and Pattern Recognition (CVPR)，２００５年，８８６〜８９３頁に記載されている。

物体検出部１１１は、さらに、画像蓄積部１０２から入力した画像から物体を検出した際、新規登録の可能性がある検出した物体の情報をＩＤ管理部１１２へ通知し、登録を依頼する。

ＩＤ管理部１１２は、既存物体状態更新部１１２ａと、新規物体登録管理部１１２ｂとを有する。既存物体状態更新部１１２ａは、既に登録されている各物体に対応するエージェントの状態を更新するように強化学習部１１３へ依頼する。また、強化学習部１１３からこの状態更新の終了の通知を受けると、その更新情報をＩＤ蓄積部１０３へ登録する。ちなみに、強化学習部１１３は、既存物体状態更新部１１２ａから物体の状態更新の依頼を受け取ると、後に詳しく説明するが、物体に対応する各エージェントの置かれている状態から、行動価値関数記憶部１０４に保持されている行動価値関数に従い、前時刻から現在の時刻においてエージェントを実空間上でいかに移動させるか、又はロストさせるかどうかを判断する。すなわち、強化学習部１１３は、時刻毎に既存物体状態更新部１１２ａからリクエストを受けて、行動価値関数に従って行動を決定するのである。

一方、新規物体登録管理部１１２ｂは、既存物体の状態更新が終了すると、物体検出部１１１から出力される物体検出結果から新規物体が出現したかどうかを強化学習部１１３へ問い合わせる。新規物体があった場合、この新規物体に係る情報をＩＤ蓄積部１０３へ登録する。ちなみに、強化学習部１１３は、新規物体登録管理部１１２ｂからの依頼を受け取ると、これも後に詳しく説明するが、各物体検出結果について、他物体領域とのオーバーラップ率、検出結果の信頼度、及び物体の３次元モデルとの比較による物体らしさの評価結果を状態としてとらえ、新規に物体追跡を開始するかどうかを判断する。新規に物体追跡を行うとの判断を行った場合、この判断結果を新規物体登録管理部１１２ｂに通知する。

同じく図３において、強化学習部１１３は、テスト部１１３ａと、報酬生成部１１３ｂと、学習部１１３ｃとを有する。このうち、テスト部１１３ａは、
（ａ）「１つの時点における調査対象の複数の候補位置に係る情報」を含む「状態」と、
（ｂ）この１つの時点において調査対象がいずれの候補位置に移動するかの情報を含む「行動」と
を変数とする行動価値関数を用いて、予測時点での「状態」から、この予測時点での調査対象の「行動」を、この予測時点での調査対象の位置情報として決定する。

ここで、上記（ａ）における「１つの時点における調査対象の複数の候補位置に係る情報」は、
（ａ４-１）この１つの時点の前の時点において決定された位置情報に基づいて決定された複数の候補位置の各々について画像データ（位置情報実データ）から算出される特徴量における、予め設定された調査対象のモデルに対する類似の度合いに係る情報φ(q_i)
とすることができる。

このように、本実施形態の強化学習部１１３は、強化学習アルゴリズムのうち、行動価値関数を用いて最適方策を学習する、いわゆるＱ学習を実施して、物体追跡のための処理を行っている。ここで、行動価値とは、図２に示したように、エージェントが、置かれた状態sで行動aをとることによるメリットである。Ｑ学習において、この行動価値は、状態sと行動aとの全ての組（s, a）の各々に対し、１つ存在する。行動価値関数は、この全ての組（s, a）について行動価値を対応付けた関数であり、以後、Q(s, a)と表す。Ｑ学習において最適方策を得るというのは、行動価値関数Q(s, a)を得ることと同意である。

また、行動価値関数Q(s, a)の変数である状態sは、１つの時点における調査対象の複数の候補位置に係る情報として、さらに、
（ａ４-２）１つの時点以前での追跡対象物体において、最後に確認された位置の変化分を変数とする複数の候補位置の各々に関する確率密度関数に係る情報α(P', P, q_i)と、
（ａ４-３）複数の候補位置の各々における追跡対象物体相当の画像領域と、この１つの時点において検出された物体相当の画像領域との重畳の度合いに係る情報η(q_i)と、
（ａ４-４）この１つの時点における、追跡対象物体と他の物体とを２値分類する識別器によって算出された類似度に係る情報π(q_i)と、
（ａ４-５）この１つの時点の前の時点で検出された追跡対象物体相当の画像領域における特徴的な画素であるキーポイントが、移動（オプティカルフロー）した後のこの１つの時点において、複数の候補位置の各々におけるこの物体相当の画像領域に含まれている割合に係る情報γ(q_i)と
の少なくとも１つを含むことも好ましい。

さらにまた、行動価値関数Q(s, a)の変数である状態sは、
（ａ１）追跡対象物体がロストしてから当該１つの時点の前の時点までに経過した時間に係る情報t_lostと、
（ａ２）この１つの時点以前での追跡対象物体の最終位置を中心とした周囲を区分する複数の所定角度範囲の各々における最近の物体までの距離に係る情報Dist(r_i)と、
（ａ３）この１つの時点以前での追跡対象物体の最終位置であって、画像座標上での最終位置におけるこの物体相当の画像領域と、他の物体相当の画像領域との重畳の度合いに係る情報o_maxと
の少なくとも１つをさらに含むことも好ましい。

本実施形態では、時刻t＝Tにおけるあるエージェントの状態sは、上記（ａ１）、（ａ２）、（ａ３）、及び（ａ４-１）〜（ａ４-５）の全てを含む好適な形態として、
（１） s＝[t_lost, Dist(r₁),・・・Dist(r_M), o_max, ,Φ(q₀),・・・, Φ(q_n)]
と表される。ここで、
（２） Φ(q_i)＝{[α(P', P, q_i), η(q_i), φ(q_i), π(q_i), γ(q_i)]｜α(P', P, q_i)∈Ｒ², η(q_i),φ(q_i),π(q_i),γ(q_i) ∈Ｒ, i＝0,・・・,N}
である。

以後、（１）式及び（２）式で表された状態sの各構成要素について説明する。

［t_lost］
状態sの構成要素である上式（１）のt_lostは、追跡対象の物体がロストした時点（見失われて追跡が継続できなくなった時点）から時刻T−1までに経過した時間である。ここで、時刻T−1までとしたのは、t_lostを、ロストしたか否かの状態が確定した時刻T−１に係る情報とするためである。従って、時刻T−1で物体がロストしていない場合、t_lost＝０となり、時刻T−1でロストしていれば、ロストしてから時刻T−1までに経過した時間となる。t_lostの単位は、秒であってもよく、また、例えばフレーム数とすることもできる。

［Dist(r_i)］
図４は、状態sの構成要素Dist(r_i)を説明するための模式図である。

図４に示すように、状態sの構成要素である上式（１）のDist(r_i)は、実空間に張られた世界座標系G_x-G_y-G_zにおける、時刻T以前に追跡対象の物体が存在していたその最終位置Pを基準として、角度r_i-1に係る向きと角度r_iに係る向きとの間となる向きに存在する他の物体までのユークリッド距離dであり、次式
（３） Dist(r_i)＝{d｜d∈Ｒ, d≧0, r_i∈[0,360), i＝1,・・・, M-1, r_M＝360}
で表される。ちなみに、図４では、１つの例としてDist(r₂)が示されている。

ここで、追跡対象物体の最終位置Pは、ロストしていなければ時刻T−1における当該物体の位置となり、一方、ロストしていればロストする直前の位置となる。また、角度r_iは、最終位置Pとその直前の位置P'とから算出される最終移動ベクトルΔPの向きを基準（０度）として、位置Pを中心とした周囲３６０度をM個の「向き範囲」に分ける角度である。具体的に、M個の「向き範囲」はそれぞれ、[0, r₁)、[r₁, r₂)、・・・、[r_M-1, r_M(=360))の角度範囲で規定される。例えば、他の物体が、角度範囲[0, r₁)で規定される「向き範囲」内の向きに、位置Pから距離dだけ離隔した位置に存在していた場合、Dist(r₁)＝dとなる。なお、他の物体の存在が確認されなかった場合、Dist(r₁)＝∞とすることができる。

［o_max］
図５は、状態sの構成要素o_maxを説明するための模式図である。

図５に示すように、状態sの構成要素である上式（１）のo_maxは、
（ａ）時刻T以前に追跡対象物体が存在していた最終位置Pにおける、画像座標系u-vでの当該物体の画像領域PHI(P)と、
（ｂ）時刻T−1に存在していた他の物体の画像領域PHI(C)と
のオーバーラップ率のうちの最大のものである最大オーバーラップ率である。ここで、画像領域PHI(P)とPHI(C)とのオーバーラップ率OVRは、
（４） OVR＝(PHI(P)∩PHI(C))／PHI(P)
と定義される。

関数PHI(P)は、実空間に張られた世界座標系G_x-G_y-G_zでの位置Pに置かれた３次元モデルの表面をなす点集合を、画像座標系u-vでの領域（ピクセル集合）へ射影した結果としての、投影された全ての点を含む最小の非凸領域（物体画像領域）を定義する。なお、この定義される物体画像領域は、画像座標系u-vに投影された全ての点を含む最小の凸領域又は矩形であるとされてもよい。

[Φ(q_i)]
状態sの構成要素である上式（１）のΦ(q_i)は、時刻Tにおいて追跡対象物体（に対応するエージェント）が存在している可能性のある候補位置q_iに関する状態情報を示す。

図６は、状態sの構成要素Φ(q_i)における候補位置q_iを説明するための模式図である。

図６に示したように、本実施形態において、候補位置q_iは、最終位置Pを原点とした同心円のグリッドを用いたグリッドサンプリングによって得られる。すなわち、同心円グリッドにおける格子点、または、当該グリッドによって規定される面積範囲を代表する点を候補位置q_iとすることができる。本実施形態では、i＝0, ・・, Nであって、候補位置q_iは、原点Pを含めてN＋1個存在する。なお、当然に、候補位置q_iの設定は、この実施形態に限定されるものではなく種々の形態が可能となる。例えば、最終位置Pを原点とした矩形グリッドの格子点のうち、原点Pから所定距離範囲内にある位置を候補位置としてもよい。

次に、Φ(q_i)の構成要素について説明する。上式（２）に示したように、Φ(q_i)は、速度の一貫性α(P', P, q_i)、検出結果との最大オーバーラップ率η(q_i)、追跡対象物体か背景かを分類する学習器が算出した当該物体との類似度φ(q_i)、追跡対象物体か他の物体かを２値分類する学習器が算出した追跡対象物体との類似度π(q_i)、及び画素の色変化との整合性γ(q_i)で構成されている。以下、順次、これらの構成要素を説明する。

[α(P', P, q_i)]
Φ(q_i)の構成要素α(P', P, q_i)は、最後に確認された位置変化分Δp＝P−P'から求められた位置q_iに関する確率密度関数（の値）である。具体的には、物体は前時刻と似た動きを行う確率が高いという仮説に基づいて算出される、位置変化分に関する確率密度となっている。

図７は、Φ(q_i)の構成要素α(P', P, q_i)を説明するためのグラフである。

図７によれば、α(P', P, q_i)は、位置変化分（移動）Δpに関する確率密度関数であって、予め設定された分散共分散行列Σを用い、Δpを平均として規定された２変量正規分布N(Δp, Σ)として定義される。ここで、ロストの継続時間に応じて分散共分散行列Σの値を変化させ、ロスト時間が長くなるほど、最後に確認された位置変化分Δpと同じ動きをする確率をより小さくすることも好ましい。このような所定の確率モデルに基づく確率密度関数αをΦ(q_i)の構成要素とすることによって、前時刻T−1での移動量から見て、起こり得る確率の十分に高い時刻Tでの移動量を、状態sに反映させることができるのである。

[η(q_i)]
Φ(q_i)の構成要素η(q_i)は、
（ａ）画像上での（画像座標系u-vでの）候補位置における画像領域PHI(q_i)と、
（ｂ）時刻Tの画像上で（物体検出部１１１によって）検出された画像領域Bと
のオーバーラップ率のうちの最大のものである最大オーバーラップ率である。ここで、画像領域PHI(q_i)と検出画像領域Bとのオーバーラップ率OVR'は、
（５） OVR'＝(PHI(P)∩B)／(PHI(P)∪B)
と定義される。

[φ(q_i)]
Φ(q_i)の構成要素φ(q_i)は、追跡対象物体である物体Aか背景かを分類する学習器が算出した、時刻Tにおける画像上での（画像座標系u-vでの）候補位置の画像領域PHI(q_i)と、物体Aの見かけモデルとの類似度である。

図８は、Φ(q_i)の構成要素φ(q_i)を説明するためのグラフである。

図８によれば、構成要素φ(q_i)は、物体Aか背景かを２値分類する識別器におけるスコア（類似度）、すなわち、（画像座標系u-vでの）候補位置における画像領域PHI(q_i)の特徴量の、特徴空間における識別超平面からの符号付き距離dとして定義することができる。

また、ここで使用される識別器は、図８に示すように、画像上での領域を特徴量化し、この特徴量を用いて学習及び物体Aの識別を行う。具体的には、時刻T−1における物体Aの画像領域PHI(P)に対応付けられる特徴量を正のラベルとし、画像領域PHI(P)の周辺からサンプリングした背景領域に対応付けられる特徴量を負のラベルとして、オンラインで学習を行う。また、時刻t＝0, ・・・, T−1までの学習によって更新された結果を用いて、時刻Tにおける候補位置の画像領域PHI(q_i)の見かけをスコア化する。

このような識別器として、例えばサポートベクタマシン（ＳＶＭ，Structured Support Vector Machine）を用いることができる。また特徴量としては、領域内の色ヒストグラムや、Haar-Like特徴を用いてもよい。なお、Haar-Like特徴については、例えば、非特許文献であるViola, P and Jones, M，"Rapid object detection using a boosted cascade of simple features"，Proceedings of IEEE Computer Vision and Pattern Recognition (CVPR)，vol.1，２００１年，５１１〜５１８頁に記載されている。

[π(q_i)]
Φ(q_i)の構成要素π(q_i)は、追跡対象の物体Aかそれ以外の物体かを２値分類する識別器が算出した物体Aとの類似度である。この類似度として、例えば、上記のΦ(q_i)と同様に、２値分類する識別器におけるスコア、すなわち、（画像座標系u-vでの）候補位置における画像領域PHI(q_i)の特徴量の、特徴空間における識別超平面からの符号付き距離dを用いることができる。

また、ここで使用される識別器においては、時刻T−1における物体Aの画像領域PHI(P)に対応付けられる特徴量を正のラベルとし、時刻T−1に存在していた他の物体に係る画像領域に対応付けられる特徴量を負のラベルとして学習を行う。その後、学習によって更新された結果を用いて、時刻Tにおける候補位置の画像領域PHI(q_i)の見かけをスコア化する。

[γ(q_i)]
Φ(q_i)の構成要素γ(q_i)は、画素の色変化との整合性を示す値である。γ(q_i)を算出するには、最初に、時刻T-1における追跡対象の物体Aの画像領域PHI(P)内で、特徴的な画素（キーポイント）を検出し、そのキーポイントの時刻T-1から時刻Tにかけての移動(オプティカルフロー)を推定する。次いで、例えば、オプティカルフローの決定されたキーポイントのうち、移動先の画素位置が候補位置の画像領域PHI(qi)に含まれているものの割合をγ(q_i)とすることができる。

ここで、上述したキーポイントの移動推定は、例えば、Lucas-Kanade法を用いて実施することができる。なお、Lucas-Kanade法については、例えば、非特許文献であるB. Lucas and T. Kanade，"An iterative image registration technique with an application to stereo vision"，In Proc. Seventh International Conference on Artificial Intelligence，１９８１年，６７４〜６７９頁に記載されている。

以上、行動価値関数Q(s, a)の変数である状態sの構成要素について詳細に説明したが、次いで、同変数である行動aについて説明する。

本実施形態において、行動価値関数Q(s, a)の変数である行動aのとり得る値は、
（ａ）物体を追跡対象から外すことを示す値と、
（ｂ）当該物体を移動させないことを示す値と、
（ｃ）当該物体を移動先としてのＮ個の候補位置にそれぞれ移動させることを示すＮ個の値と
を含む。

具体的に、行動価値関数Q(s, a)の変数である行動aは、次式のように定義することができる。
（６） a∈{ロストさせる，Δp_i移動させる｜|ΔP_i|∈[0, R], ΔP₀＝0, i＝1,・・・, N}
ここで、ΔP₀はゼロベクトルであり、物体を移動させないことを意味している。なお、本実施形態において、「Δp_i移動させる」ことには、追跡対象物体がロストから復帰することも含み、この場合、最終位置PからΔp_iだけ移動した地点q_iから追跡を再開することになる。

図３に戻って、強化学習部１１３の報酬生成部１１３ｂは、決定された「行動」が、画像データ（位置情報実データ）から導出される調査対象の正解の位置情報に該当するか否かに基づいて「報酬」を生成する。

具体的に、上述した行動aに係る実施形態において、報酬生成部１１３ｂは、予測時点での画像データから導出される追跡対象物体の正解の位置情報に基づき、
（ａ）当該物体が所定の追跡範囲外へ移動したと判断した場合、又は当該物体の画像領域が他の物体の画像領域によって所定以上の割合で遮蔽されていると判断した場合、決定された行動aが当該物体を追跡対象から外すことであるならば、行動価値関数Q(s, a)の値を大きくする方向の報酬rを生成し、
（ｂ）当該物体が所定の追跡範囲外へ移動したとも、当該物体の画像領域が他の物体の画像領域によって所定以上の割合で遮蔽されているとも判断しなかった場合、決定された行動aが当該物体を移動させない又は１つの候補位置に移動させることであって、正解の位置情報に係る位置と、当該物体の移動していない位置又は移動先である１つの候補位置との距離が所定未満であれば、行動価値関数Q(s, a)の値を大きくする方向の「報酬」を生成する
ことも好ましい。

このように、報酬rは、実際の物体の動き(正解データ)と物体のとった行動との近さとして設定することができる。より具体的には、例えば、追跡対象物体の画像領域が、他の物体の画像領域とのオクルージョンによって、所定割合閾値θ以上の割合で遮蔽されている場合や、追跡範囲外、すなわちカメラ撮影範囲外の領域へ移動した場合にはロストを正解とする。その上で、実際にとった行動aが「ロストさせる」であった場合には報酬rとして１を、そうでない場合には報酬rとして−１を与えることができる。

一方、正解がロストでない場合には、例えば実空間上の実際の位置と推定位置とのユークリッド距離が下限閾値δ_low未満であれば報酬１を、上限閾値δ_highよりも大きければ報酬−１を、また、推定位置が取り違えて他の物体の位置となっていた場合(ドリフティングが発生した場合)にも報酬−１を与えてもよい。さらに、その他の場合には、報酬は与えない、若しくは報酬ゼロを与えることができる。

同じく図３において、強化学習部１１３の学習部１１３ｃは、生成された報酬rに基づいて、行動価値関数Q(s, a)を更新する。ここで、更新された行動価値関数Q(s, a)は、行動価値関数記憶部１０４に適宜保存され、また、必要時に行動価値関数記憶部１０４から読み出される。この学習部１１３ｃにおける、行動価値関数Q(s, a)の更新を含む学習フェーズとしての処理については、後に、詳細に説明する。

追跡物体管理部１１４は、強化学習部１１３において更新された行動価値関数Q(s, a)によって出力された行動aの値に基づき、１つ又は複数の追跡対象物体の各々について、時刻毎に（実空間に張られた）世界座標系G_x-G_y-G_zにおける位置（又はロストした事実）を対応付けた追跡履歴を含む情報を、追跡物体情報として生成し、管理する。生成された追跡物体情報は、生成・更新される毎に、又は適宜、追跡物体情報記憶部１０５に記憶されることも好ましい。また、通信制御部１１５及び通信インタフェースを介し、外部の情報処理装置に送信されてもよい。

［学習フェーズ・テストフェーズ］
本実施形態の物体追跡装置１（強化学習部１１３）は、「学習フェーズ」と「テストフェーズ」との２つのフェーズをとることができる。このうち、「学習フェーズ」は、追跡対象物体の正しい画像領域（又は実空間上の位置）を用い、強化学習によって、画像から得られる情報と実際の物体の動き（正解データ）とから物体の３次元モデル（エージェント）をどのように動かすと最適となるかという方策を学習する。

一方、「テストフェーズ」は、物体位置が未知である、すなわち正解データの存在しない映像（画像群）に対し、学習フェーズで学習された方策、すなわち更新された行動価値関数に基づき物体を追跡するフェーズである。ちなみに、本発明によれば、このテストフェーズでの物体追跡精度を高めることが可能となるのである。以下、両フェーズの理解を容易にするため、最初にテストフェーズについて説明したのちに、学習フェーズについて説明する。

［テストフェーズ：物体検出］
図３に示した物体検出部１１１は、画像蓄積部１０２から入力した画像上で所望の物体（例えば人物）を検出する。具体的には、画像上で、追跡対象物体が写っていると判断される画像領域を検出してもよい。このような物体検出には、例えばＨＯＧ特徴量を用いて学習された識別器を用いる。ここで、ＨＯＧ特徴量は、画像の局所領域における輝度の勾配方向をヒストグラム化し、各度数を成分としたベクトル量である。ＨＯＧ特徴量を用いた人物検出技術については、例えば、非特許文献であるDalal. N and Triggs. B，"Histograms of Oriented Gradients for Human Detection"，Proceedings of IEEE Computer Vision and Pattern Recognition (CVPR)，２００５年，８８６〜８９３頁に記載されている。

［テストフェーズ：既存物体状態更新］
テストフェーズにおいては、エージェント（追跡対象物体の３次元モデル）と、エージェントの置かれる環境との間には、図２に示したやり取りのうち、環境からエージェントへ状態sが手渡され、さらに、エージェントから環境へ行動aが出力されるやり取りが存在する。すなわち、テストフェーズでは、環境がエージェントによって選択された行動aの評価を行って報酬rを算出し、さらに、エージェントがこの報酬rを受け取って行動価値関数を更新するといった学習処理は行われない。

このテストフェーズでは、図３において、ＩＤ管理部１１２の既存物体状態更新部１１２ａから強化学習部１１３へ、既に追跡中である物体Aの状態更新のリクエストが出力された際、強化学習部１１３は、物体Aの置かれている現在の（時刻t＝Tでの）状態sを観測する。具体的には、例えば、上式（１）：s＝[t_lost, Dist(r₁),・・・Dist(r_M), o_max, ,Φ(q₀),・・・, Φ(q_n)]を用いて状態sを算出する。

強化学習部１１３は、次いで、観測された（算出した）状態sを用い、行動価値関数Q(s, a)に従って、次にとる最適な行動a*を選択する。最適な行動a*は、次式
（７） a*＝argmax_a Q(s, a)
を用いて決定することができる。上式（７）によれば、最適な行動a*は、与えられた状態sについて、行動価値関数Q(s, a)の値を最大にする行動aとして決定されることが理解される。

［テストフェーズ：新規物体登録］
また、物体検出部１１１は、新規物体管理部１１２ｂから、物体検出結果を受け取ると、各物体検出結果を新規の物体として当該物体の追跡を開始するかどうかを判断する。この際、検出の信頼度、他物体とのオーバーラップ率、標準的な３次元モデルとの整合性等から総合的に判断を行い、新規物体として登録するかどうかを判断する。例えば、特徴量fを、
（８） f＝[f1, f2, f3, f4]
と規定し、新規物体か否か２値分類するＳＶＭ等の検出用識別器１１１ａを用いて、検出物体に対応する特徴量が新規物体相当かどうかを判断する。ここで、式（８）において、
f1：検出の信頼値
f2：追跡中の他物体との最大オーバーラップ率
f3：標準的な物体の３次元モデルとの整合性
f4：検出された画像領域の足元位置を実空間の地面へ逆投影させた位置
である。

上記f3については、検出された画像領域の足元位置uを実空間の地面へ逆投影させた位置Pに、平均的な高さh₀の物体の３次元モデルを置き、その３次元モデルを画像座標系u-vへ投影させた領域PHI(P)と検出画像領域Bとのオーバーラップ率OVRを、次式
（９） OVR＝(PHI(P)∩B)／(PHI(P)∪B)
を用いて算出し、整合性の度合いとすることができる。

ここで、新規の物体検出は、物体が標準的な形状であり、且つ画像内で床（地面）に接している箇所が明確に判断される場合に実施されるとしてもよい。この場合、例えば、人物であれば直立している人物のみが検出される。新規に物体を登録する際、エージェントの初期化を行う。エージェントの初期化では、最初に、実空間における標準形状としての物体の高さを推定する。以下、実空間における物体の高さの算出について説明する。

図９は、物体検出部１１１における物体の高さh₀を算出する方法の一実施形態を示す模式図である。

図９には、画像座標系u-v及び世界座標系G_x-G_y-G_zにおける対象物体に係る座標が示されている。予めのキャリブレーションによって各カメラ２の内部パラメータ及び外部パラメータを取得しておくことによって、カメラ２の設置位置や姿勢が変わらない限り、画像座標系u-vにおける座標(u, v)と世界座標系G_x-G_y-G_zにおける座標(g_x, g_y, g_z)には下記のような関係が成立する。

ここで、行列Pは予め決定された透視投影行列であり、sは未知のスカラ変数である。この際、各カメラ２の内部パラメータ及び外部パラメータをキャリブレーションによって予め設定しておけば、カメラ２の位置・姿勢が変わらない限り、透視投影行列Ｐは当初設定された値をとり続ける。

上式（１０）を用いて、２次元の画像座標系での座標から３次元の世界座標系での座標を求める際、画像座標系での座標(u, v)及び透視投影行列Pが定まっているだけでは、未知パラメータの数（４つ）が観測方程式の数（３つ）よりも多いので、世界座標系での座標(g_x, g_y, g_z)を一意に決定することはできない。

しかしながら、本実施形態では、図９に示したように、検出された物体について画像内で床や地面に接している接地位置(u_b ⁰, v_b ⁰)が取得される。従って、この接地位置(u_b ⁰, v_b ⁰)及びg_z＝０を上式（１０）に代入することによって、接地位置(u_b ⁰, v_b ⁰)に対応する実空間上の位置(g_x ⁰, g_y ⁰, 0)を一意に取得することができる。ここで、実空間での物体の高さをh₀とすると、取得された実空間の床面又は地面での位置座標g_x ⁰及びg_y ⁰と、画面座標系での物体の最上部の点(u_h ⁰, v_h ⁰)との間に、次式の関係が成立する。

上式（１１）において、未知のパラメータはs及びh₀の２つのみであり、一方、観測方程式の数は３つであることから、この式を用いて実空間での高さh₀を求めることが可能となる。なお、この際、s及びh₀の値を、最終的に最小二乗法を用いて決定することも好ましい。このようにして、物体の高さh₀を求め、エージェントの3次元モデルを初期化する。

［学習フェーズ］
次に、学習フェーズについて説明する。学習フェーズは、映像（時系列画像群、学習用シーケンス）と、それに対応する正解データとが用意されていることを前提として実施される。学習フェーズにおいて学習する対象は、本実施形態において、
（ａ）新規物体であるか否かの２値分類を行う新規物体識別器としての検出用識別器１１１ａ、及び
（ｂ）行動価値関数Q(s, a)
である。

［学習フェーズ：検出用識別器］
物体検出部１１１（図３）は、全ての学習用シーケンス（時系列画像群）から物体検出を行い、各検出結果について上式（８）の特徴量fを算出する。次いで、当該検出結果に対し、新規物体であれば正のラベルを、そうでなければ負のラベルを付与して、２値分類を行うＳＶＭ等の検出用識別器（新規物体識別器）１１１ａを生成する。

［学習フェーズ：行動価値関数］
強化学習部１１３（図３）は、学習用シーケンス（時系列画像群）の開始時刻から終了時刻まで、上述したテストフェーズと同様にして複数物体の追跡を実施する。ここで、行動価値関数Q(s, a)を当初、初期値Q₀で初期化し、その後、状態sにおいて行動aを実行して、この行動aに対応する報酬rを、学習部１１３ｃ（図３）に受け取らせる。学習部１１３ｃは、状態、行動及び報酬のセット(s, a, r)を用いて、行動価値関数Q(s, a)を更新する。

具体的に、行動価値関数Q(s, a)の更新方法として、状態sと行動aとの組に対し、テーブル関数Q(s, a)を作成し、全ての要素を任意の値に初期化した後、毎回（時刻毎）のデータ(s, a, r, s')に対し、次式を用いて更新を行う方法が挙げられる。
（１２） Q(s, a)←(1−α)・Q(s, a)＋α(r＋γ・max_a'Q(s', a'))
ここで、rは、状態sで行動a を選択した後に環境から受け取った報酬である。また、s'は、同様に状態 s で行動 a を選択した後、次の時刻で受け取った状態を表す。αは、学習率であり、事前に定められる固定パラメータである。αとして、通常、１未満の例えば０.１や０.０１といった小さい値が使用される。γは、割引率であり、同じく事前に定められる固定パラメータである。γとして、通常、０以上であって１未満の値が使用され、多くの場合０.９９といった１に近い値に設定される。

しかしながら、上記の更新方法では、状態の次元数が非常に大きくなり、テーブル関数を乗せるためのメモリ容量も膨大となってしまう。そのため、行動価値関数Q(s, a)の学習（更新）の別の方法として、例えば、下記の文献に紹介されている、Q値の更新にディープラーニングを利用する方法を用いることも好ましい。
行動価値関数Qの学習方法に関する参考文献：Long-ji Lin，"Self-improving reactive agents based on reinforcement learning, planning and teaching"，Machine Learning，vol.8(3)，１９９２年，２９３〜３２２頁、及びMnih, Volodymyr, et al.，"Human-level control through deep reinforcement learning"，Nature 518.7540，２０１５年，５２９〜５３３頁

以上詳細に説明したように、本発明によれば、「状態」及び「行動」を変数とする価値関数を用いて、すなわち強化学習アルゴリズムを利用して、位置情報を予測し、追跡を行う。ここで、複数の候補位置に係る事項を「状態」及び「行動」に含めているので、予測時点での調査対象（追跡対象）の位置情報を、予測時点でのまさに「行動」という形で、強化学習ゆえのより高い信頼性をもって予測・決定することができる。これにより、対象の見え方が変化したりオクルージョンが発生したりする場合でも、対象をより確実に識別しながらその位置を追うことが可能となるのである。

また、本発明による位置情報予測装置１では、各物体の状態（移動又はロスト）の変化を、他物体の実空間上での位置や画像上に現れている領域をも考慮して決定する。ここで、物体同士の位置が近接する場合や画像空間において他物体と重畳して見えづらくなるといったオクルージョンが発生する場合、追跡に失敗する可能性が高いので、意図的にロストさせるように方策の学習を行う。すなわち、追跡に失敗しやすい状況では意図的にロストさせ、一旦追跡を中断させることによって、各物体の見かけ情報にノイズが乗り難くなるようにする。また、この場合、再びオクルージョンが解消される等、追跡し易くなってから追跡を再開するので、結果的に、正確な追跡を継続することが可能となるのである。

さらに、位置情報予測装置１での物体追跡においては、物体検出結果をつないでいくのではなく、物体検出結果を、あくまで次時刻での移動先を決定する１つの要素として取り扱っている。ここで、次時刻での移動先は、前時刻での位置を基準とした周囲を探索し、物体検出結果を含む様々な状況に基づいて学習された方策に従い、複合的に判断している。これにより、ノイズの乗った物体検出結果のみに依存する場合と比較して、より安定した物体追跡を実施することができるのである。

また、本発明の構成及び方法は、例えば、人物が移動・滞留したり出入りしたりする場を監視する監視システム、及び商店街や商業・サービス施設内での人物の入店、休憩、観戦・イベント参加や、移動の状況を調査するためのマーケティング調査システム等、様々な系に適用可能である。

以上に述べた本発明の種々の実施形態において、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。

１物体追跡装置（位置情報予測装置）
１０１通信インタフェース
１０２画像蓄積部
１０３ＩＤ蓄積部
１０４行動価値関数記憶部
１０５追跡物体情報記憶部
１１１物体検出部
１１１ａ検出用識別器
１１２ＩＤ管理部
１１２ａ既存物体状態更新部
１１２ｂ新規物体登録管理部
１１３強化学習部
１１３ａテスト部
１１３ｂ報酬生成部
１１３ｃ学習部
１１４追跡物体管理部
１１５通信制御部
２カメラ

Claims

調査対象における刻々の実際の位置に関係するデータである位置情報実データに基づいて、当該調査対象の位置情報を予測する位置情報予測装置であって、
１つの時点における当該調査対象の複数の候補位置の各々に係る情報を含む「状態」と、当該１つの時点において当該調査対象がいずれの当該候補位置に移動するかの情報を含む「行動」とを変数とする価値関数を用いて、予測時点での「状態」から、当該予測時点での当該調査対象の「行動」を、当該予測時点での当該調査対象の位置情報として決定するテスト手段
を有することを特徴とする位置情報予測装置。
決定された「行動」が、当該位置情報実データから導出される当該調査対象の正解の位置情報に該当するか否かに基づいて、「報酬」を生成する報酬生成手段と、
生成された「報酬」に基づいて、当該価値関数を更新する学習手段と
を更に有することを特徴とする請求項１に記載の位置情報予測装置。
当該位置情報実データは、当該調査対象である物体を撮影可能な１つ以上のカメラから取得される時系列の画像群であり、
前記報酬生成手段は、決定された「行動」が、当該予測時点での当該画像から導出される当該調査対象の正解の位置情報に該当するか否かに基づいて「報酬」を生成する
ことを特徴とする請求項２に記載の位置情報予測装置。
当該画像から調査対象の物体を含む物体を検出する物体検出手段を更に有し、
前記テスト手段は、検出された当該調査対象の物体に係る情報から、予測時点での「状態」を決定する
ことを特徴とする請求項３に記載の位置情報予測装置。
調査対象における刻々の実際の位置に関係するデータである位置情報実データに基づいて、当該調査対象の位置情報を予測する位置情報予測装置であって、
１つの時点における当該調査対象の複数の候補位置に係る情報を含む「状態」と、当該１つの時点において当該調査対象がいずれの当該候補位置に移動するかの情報を含む「行動」とを変数とする価値関数を用いて、予測時点での「状態」から、当該予測時点での当該調査対象の「行動」を、当該予測時点での当該調査対象の位置情報として決定するテスト手段を有し、
当該「状態」において、当該１つの時点における当該調査対象の複数の候補位置に係る情報は、当該１つの時点の前の時点において決定された位置情報に基づいて決定された当該複数の候補位置の各々について当該位置情報実データから算出される特徴量における、予め設定された当該調査対象のモデルに対する類似の度合いに係る情報である
ことを特徴とする位置情報予測装置。
調査対象を撮影可能な１つ以上のカメラから取得される時系列の画像群であって当該調査対象における刻々の実際の位置に関係するデータである画像群に基づいて、当該調査対象の位置情報を予測する位置情報予測装置であって、
１つの時点における当該調査対象の複数の候補位置に係る情報を含む「状態」と、当該１つの時点において当該調査対象がいずれの当該候補位置に移動するかの情報を含む「行動」とを変数とする価値関数を用いて、予測時点での「状態」から、当該予測時点での当該調査対象の「行動」を、当該予測時点での当該調査対象の位置情報として決定するテスト手段と、
決定された「行動」が、当該予測時点での当該画像から導出される当該調査対象の正解の位置情報に該当するか否かに基づいて「報酬」を生成する報酬生成手段と、
生成された「報酬」に基づいて、当該価値関数を更新する学習手段と
を有し、
当該価値関数の変数である「行動」のとり得る値は、当該物体を追跡対象から外すことを示す値と、当該物体を移動させないことを示す値と、当該物体を移動先としてのＮ個の候補位置にそれぞれ移動させることを示すＮ個の値とを含み、
前記報酬生成手段は、当該予測時点での当該画像から導出される当該物体の正解の位置情報に基づき、
当該物体が所定の追跡範囲外へ移動したと判断した場合、又は当該物体の画像領域が他の物体の画像領域によって所定以上の割合で遮蔽されていると判断した場合、決定された「行動」が当該物体を追跡対象から外すことであるならば、当該価値関数の値を大きくする方向の「報酬」を生成し、
当該物体が当該所定の追跡範囲外へ移動したとも、当該物体の画像領域が他の物体の画像領域によって所定以上の割合で遮蔽されているとも判断しなかった場合、決定された「行動」が当該物体を移動させない又は１つの候補位置に移動させることであって、当該正解の位置情報に係る位置と、当該物体の移動していない位置又は移動先である当該１つの候補位置との距離が所定未満であれば、当該価値関数の値を大きくする方向の「報酬」を生成する
ことを特徴とする位置情報予測装置。
調査対象を撮影可能な１つ以上のカメラから取得される時系列の画像群であって当該調査対象における刻々の実際の位置に関係するデータである画像群に基づいて、当該調査対象の位置情報を予測する位置情報予測装置であって、
１つの時点における当該調査対象の複数の候補位置に係る情報を含む「状態」と、当該１つの時点において当該調査対象がいずれの当該候補位置に移動するかの情報を含む「行動」とを変数とする価値関数を用いて、予測時点での「状態」から、当該予測時点での当該調査対象の「行動」を、当該予測時点での当該調査対象の位置情報として決定するテスト手段と、
決定された「行動」が、当該予測時点での当該画像から導出される当該調査対象の正解の位置情報に該当するか否かに基づいて「報酬」を生成する報酬生成手段と、
生成された「報酬」に基づいて、当該価値関数を更新する学習手段と
を有し、
当該価値関数の変数である「状態」は、当該１つの時点における当該調査対象の複数の候補位置に係る情報として、
当該１つの時点の前の時点において決定された位置情報に基づいて決定された当該複数の候補位置の各々について当該画像から算出される特徴量における、予め設定された当該調査対象のモデルに対する類似の度合いに係る情報
を含むことを特徴とする位置情報予測装置。
当該価値関数の変数である「状態」は、当該１つの時点における当該調査対象の複数の候補位置に係る情報として、
当該１つの時点以前での当該物体において最後に確認された位置の変化分を変数とする当該複数の候補位置の各々に関する確率密度関数に係る情報と、
当該複数の候補位置の各々における当該物体相当の画像領域と、当該１つの時点において検出された物体相当の画像領域との重畳の度合いに係る情報と、
当該１つの時点における、当該物体と他の物体とを２値分類する識別器によって算出された類似度に係る情報と、
当該１つの時点の前の時点で検出された当該物体相当の画像領域における特徴的な画素であるキーポイントが、移動（オプティカルフロー）した後の当該１つの時点において、当該複数の候補位置の各々における当該物体相当の画像領域に含まれている割合に係る情報と
の少なくとも１つを更に含むことを特徴とする請求項７に記載の位置情報予測装置。
調査対象を撮影可能な１つ以上のカメラから取得される時系列の画像群であって当該調査対象における刻々の実際の位置に関係するデータである画像群に基づいて、当該調査対象の位置情報を予測する位置情報予測装置であって、
１つの時点における当該調査対象の複数の候補位置に係る情報を含む「状態」と、当該１つの時点において当該調査対象がいずれの当該候補位置に移動するかの情報を含む「行動」とを変数とする価値関数を用いて、予測時点での「状態」から、当該予測時点での当該調査対象の「行動」を、当該予測時点での当該調査対象の位置情報として決定するテスト手段と、
決定された「行動」が、当該予測時点での当該画像から導出される当該調査対象の正解の位置情報に該当するか否かに基づいて「報酬」を生成する報酬生成手段と、
生成された「報酬」に基づいて、当該価値関数を更新する学習手段と
を有し、
当該価値関数の変数である、当該１つの時点での「状態」は、
当該物体がロストしてから当該１つの時点の前の時点までに経過した時間に係る情報と、
当該１つの時点以前での当該物体の最終位置を中心とした周囲を区分する複数の所定角度範囲の各々における最近の物体までの距離に係る情報と、
当該１つの時点以前での当該物体の最終位置であって、当該画像座標上での最終位置における当該物体相当の画像領域と、他の物体相当の画像領域との重畳の度合いに係る情報と
の少なくとも１つを更に含むことを特徴とする位置情報予測装置。
調査対象における刻々の実際の位置に関係するデータである位置情報実データに基づいて、当該調査対象の位置情報を予測する装置に搭載されたコンピュータを機能させるプログラムであって、
１つの時点における当該調査対象の複数の候補位置の各々に係る情報を含む「状態」と、当該１つの時点において当該調査対象がいずれの当該候補位置に移動するかの情報を含む「行動」とを変数とする価値関数を用いて、予測時点での「状態」から、当該予測時点での当該調査対象の「行動」を、当該予測時点での当該調査対象の位置情報として決定するテスト手段
としてコンピュータを機能させることを特徴とする位置情報予測プログラム。
調査対象における刻々の実際の位置に関係するデータである位置情報実データに基づいて、当該調査対象の位置情報を予測する位置情報予測方法であって、
１つの時点における当該調査対象の複数の候補位置の各々に係る情報を含む「状態」と、当該１つの時点において当該調査対象がいずれの当該候補位置に移動するかの情報を含む「行動」とを変数とする価値関数を準備するステップと、
当該価値関数を用いて、予測時点での「状態」から、当該予測時点での当該調査対象の「行動」を、当該予測時点での当該調査対象の位置情報として決定するステップと
有することを特徴とする位置情報予測方法。