JP2019121019A

JP2019121019A - 情報処理装置、３次元位置推定方法、コンピュータプログラム、及び記憶媒体

Info

Publication number: JP2019121019A
Application number: JP2017253578A
Authority: JP
Inventors: 敬正角田; Norimasa Kadota; 克彦森; Katsuhiko Mori
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2017-12-28
Filing date: 2017-12-28
Publication date: 2019-07-22

Abstract

【課題】複数のカメラで撮像される複数の対象物が存在する空間において、高速・高精度に複数の対象物の３次元位置及び軌跡の推定を実現する情報処理装置を提供する。【解決手段】情報処理装置１００は、複数のカメラ１０２〜１１１で撮像される複数の対象物が存在する３次元空間において、複数の対象物の配置予測と次フレームの対象物の予測に基づいて、隠蔽を予測・定量化する。これにより情報処理装置１００は、対象物の隠蔽の影響を軽減し複数の対象物の３次元位置及び軌跡を推定する。【選択図】図１

Description

本発明は、動画中の対象物（物体）を追尾する技術に関する。特に、複数のカメラを用いて複数の対象物を含む３次元空間を撮像し、各対象物を追尾して３次元空間内における当該対象物の位置を推定する技術に関する。

複数の固定されたカメラで撮影された３次元空間内における物体等の対象物の位置を推定する技術がある。このような技術の多くは、各カメラで撮像された時間的に連続する複数の画像（以下、「フレーム」という。）における対象物の同一性を判定し、３次元空間内の該対象物の軌跡を推定することができる。

特許文献１には、サッカー場等のフィールドを真上から見下ろした俯瞰平面上に多数の粒子を配置し、俯瞰平面上の人物の動きのモデルから次の位置を予測する技術が開示される。この技術では、予測した粒子をカメラのフレーム上に射影して、フレームの前景らしい領域に再配置するパーティクルフィルタにより、平面上の複数の人物の軌跡を推定する。特許文献２には、３次元空間内の人物の位置と顔向きを状態変数として扱い、人物の顔向きの状態に好適な識別器を用いて粒子の再配置を行うパーティクルフィルタにより、人物の軌跡の推定を行う技術が開示される。

非特許文献１には、予め３次元空間内の複数の人物の位置を推定し、各位置をフレーム上に射影し、フレーム上の人物の軌跡をカルマンフィルタで追跡する技術が開示される。その際、予め推定した３次元空間内の各人物の位置からフレーム上で隠蔽が起きている領域が特定される。フレーム上での追跡の際、隠蔽されている領域の画像特徴を用いないようにすることで、隠蔽に頑健な追尾が実現される。非特許文献２には、３次元空間内の複数物体の追跡を行う技術が開示される。この技術では、生成、分裂、消滅を伴う物体の動きの時間発展と誤検出（過検出、未検出）を伴う観測過程を、有限ランダム集合を用いた状態空間モデルでモデル化する。モデル化後に、確率仮説密度（ＰＨＤ：Probability Hypothsis Density）フィルタを用いる。有限ランダム集合を用いたモデル化により、複数の対象の数の変化や観測値の誤検出に頑健な３次元空間内における追尾が可能となる。

特許２０１３−０５８１３２号公報特開２００８−２６９７４号公報

Michalis Zervos,"Real timemulti-object tracking using multiple cameras",EPFL,2012 PHAM NAM TRUNG,"TRACKING OF MULTIPLE OBJECTS USING THE PHDFILTER",PH.D THESES,Chapter 6,2007 「Shaoqing Ren,Kaiming He,Ross Girshick, and Jian Sum,"Faster R-CNN:Towards Real-Time Object Detection with RegionProposal Networks",NIPS 2015」

複数のカメラを用いて複数の対象物の３次元空間内の位置を推定して追尾する場合、カメラ視点で生じる複数の対象物同士の重なりによる隠蔽が問題になる。対象物の隠蔽は、フレーム間の対象物の対応付けに影響を与え、追尾の失敗の原因となる。

特許文献１、２では、３次元空間中内の対象物を射影したカメラフレーム上の位置の対象物らしさで位置推定の補正を行う。そのために、ある瞬間、対象物が別の類似の対象物によって隠蔽された場合、軌跡が入れ替わり、追尾が失敗する可能性がある。

非特許文献１では、ＰＯＭ（Probabilistic Occupancy Map）という技術を用いて、事前に複数物体の３次元位置を推定する。隠蔽が生じる場合、隠蔽された領域の画像特徴を用いないようにすることで、複数物体同士の隠蔽の影響を軽減する。ＰＯＭでは、３次元空間の俯瞰平面上にグリッドを設定し、各升目の対象物による占有の有無を条件付き確率場でモデル化し、さらに隠れマルコフモデルによって時間発展をモデル化している。ＰＯＭでは、１フレーム毎に各グラフィカルモデルを個別に最適化計算して推定している。条件付き確率場では、隠蔽の発生を明確に定量化して隠蔽の影響を軽減する工夫がないため、特許文献１、２同様の問題を抱える。また、ＰＯＭは計算コストが高いため、リアルタイム動作が要求されるアプリケーションには不向きである。非特許文献２では、生成・分裂・消滅を伴う複数の対象物とそれに対応する誤検出する観測値を有限ランダム集合として扱い、誤検出に頑健な複数対象追尾を実現している。しかし、隠蔽が発生した場合を対象物の消滅及び生成と区別しないため、軌跡の入れ替わりが発生する。

本発明は、このような従来の問題を解決するため、複数のカメラで撮像される複数の対象物が存在する空間において、高速・高精度に複数の対象物の３次元位置及び軌跡の推定を実現する情報処理装置を提供することを主たる目的とする。

本発明の情報処理装置は、複数の撮像手段から取得する画像から複数の対象物を検出する検出手段と、所定の時刻の前記対象物の状態及び認証ラベルを把握する状態取得手段と、前記所定の時刻より前の時刻の前記対象物の状態から前記所定の時刻の該対象物の状態を予測する予測手段と、異なる時刻に取得された２つの画像のそれぞれの前記対象物の認証ラベルを対応付ける対応付け手段と、前記所定の時刻より前の時刻の画像に対する前記検出手段の検出結果、前記予測手段による予測結果、及び前記対応付け手段の対応付け結果に基づいて、前記対象物の状態を更新する更新手段と、を備えることを特徴とする。

本発明によれば、複数のカメラで撮像される複数の対象物が存在する空間において、高速・高精度に複数の対象物の３次元位置及び軌跡の推定を実現することができる。

（ａ）〜（ｄ）は、撮影システムの説明図。３次元追尾装置の機能ブロック図。対象物の認識処理を表すフローチャート。（ａ）、（ｂ）は、検出範囲の説明図。（ａ）、（ｂ）は、観測値の説明図。観測値の重複数の変動の説明図コスト行列の説明図。３次元追尾装置の機能ブロック図。対象物の認識処理を表すフローチャート。（ａ）、（ｂ）は、観測値の説明図。３次元追尾装置の機能ブロック図。対象物の認識処理を表すフローチャート。３次元追尾装置の機能ブロック図。対象物の認識処理を表すフローチャート。

以下、図面を参照して、実施形態を詳細に説明する。本実施形態では、競技場や大広間などの空間の周囲に複数台のカメラを配置した撮影システムを用いて、対象物である複数の人物を撮影し、各人物の３次元空間内の軌跡を追尾する場合について説明する。

（第１実施形態）
図１は、本実施形態の撮影システムの説明図である。撮影システムは、複数台のカメラ及び各カメラから映像を取得する情報処理装置を備える。図１（ａ）は、カメラの配置を例示する。複数のカメラ１０２〜１１１は、空間１０１を撮影可能な位置に配置され、有線又は無線により情報処理装置１００に接続される。空間１０１内の位置は、原点１１２と３次元座標（世界座標）のＸ軸１１３、Ｙ軸１１４、Ｚ軸１１５とで表される。Ｘ軸１１３とＹ軸１１４とがなす平面が地面、Ｚ軸１１５が高さ方向を表す。各カメラ１０２〜１１１は、地面から所定の高さの空間壁面部分に固定される。各カメラ１０２〜１１１は、レンズ及びイメージセンサが撮影エリアの地面上に存在するオブジェクト（対象物）を撮影する。各カメラ１０２〜１１１は、公知の技術によってキャリブレーションされている。

図１（ｂ）は、空間１０１内に存在する人物の所定時刻の配置例を例示する。空間１２１は、複数のカメラ１０２〜１１１により撮影される空間１０１である。空間１０１内にオブジェクトである人物１２２、１２３、１２４が存在する。図１（ｃ）は、カメラ１０４で、人物１２２、１２３、１２４を撮影した場合の１フレーム１３１を例示する。フレーム１３１内の人物１３２、１３３、１３４は、空間１２１内の人物１２２、１２３、１２４にそれぞれ対応する。フレーム１３１の座標系は、原点１３５、ｕ軸１３６、ｖ軸１３７のピクセル座標系及び適宜正規化した座標系により表される。図１（ｄ）は、カメラ１０２で、人物１２２、１２３、１２４を撮影した場合の１フレーム１４１を例示する。フレーム１４１内の人物１４２、１４３は、空間１２１の人物１２２、１２３にそれぞれ対応する。フレーム１４１の座標系は、原点１４５、ｕ軸１４６、ｖ軸１４７により表される。図１（ｃ）、１（ｄ）に例示するフレーム１３１、１４１は、カメラ１０２、１０４以外のカメラでも撮影された画像でもよい。

図２は、図１の撮影システムによる３次元追尾装置の機能ブロック図である。３次元追尾装置１０００は、撮影部１１００、処理部１２００、及びモニタリング部１３００として機能する。撮影部１１００は、Ｋ台の動画取得部（第１動画取得部１００１〜第Ｋ動画取得部１００２）を有する。第１動画取得部１００１〜第Ｋ動画取得部１００２は、図１（ａ）の例では、各カメラ１０２〜１１１により実現される。処理部１２００は、情報処理装置１００により実現される。情報処理装置１００は、例えばＣＰＵ（Central Processing Unit）、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）を備えるコンピュータシステムである。情報処理装置１００は、ＣＰＵがＲＯＭに格納されるコンピュータプログラムを、ＲＡＭを作業領域に用いて実行することで、処理部１２００の各機能ブロックとして機能する。処理部１２００は、人体検出器１００３、初期状態取得部１００４、予測部１００５、認証ラベル（以下、「ＩＤ」と略記）対応付け部１００６、隠蔽率予測部１００７、更新部１００８、及び可視化部１００９を有する。モニタリング部１３００は、例えばディスプレイにより実現される。

図３は、３次元追尾装置１０００による対象物（人物）の認識処理を表すフローチャートである。図２の機能ブロックによる処理を、図３のフローチャートを用いて詳細に説明する。

撮影部１１００は、第１動画取得部１００１〜第Ｋ動画取得部１００２により、所定の時刻のフレーム（静止画）を取得する（Ｓ１００１）。撮影部１１００は、各動画取得部により、Ｋ枚のフレームを取得する。撮影部１１００は、Ｋ台のカメラのそれぞれから現時刻のフレームを取得する。撮影部１１００は、Ｋ台のカメラのそれぞれから連続してフレームを取得することで、動画を取得する。

カメラは、例えば解像度ＦｕｌｌＨＤ（１９２０×１０８０ピクセル）、秒間３０フレームの動画を撮影可能な撮像装置である。なお、カメラは、数１０ミリ秒おきにフレームを取得する、或いは、より低速な秒間で撮影する等の、異なる条件でフレームを取得する撮像装置であっても、数倍程度の差異であれば、本実施形態に用いることができる。Ｋ台のカメラのシャッターは、トリガーパルス、同期信号等の電気信号によって同期して動作してもよく、カメラ内部のマイクロコントローラのクロックによって自律的な周期で動作してもよい。

撮影部１１００と処理部１２００とは、有線又は無線によるローカルエリアネットワーク等の通信経路を介して接続される。撮影部１１００は、取得したＫ枚のフレームを処理部１２００へ送信する。処理部１２００が受信したフレームは、ネットワーク経路に存在するスイッチングハブ等の中継部のパフォーマンスや帯域の制限等で、コマ落ちが発生する可能性がある。本実施形態では、非同期、コマ落ち発生等の特徴を有するフレームを想定する。フレームは常にバッファリングされる。処理部１２００は、コマ落ちが発生した場合、その時刻で取得されるフレームを前時刻と同じフレームとする。同期され、コマ落ちが発生しないフレームを用いる場合であっても、本実施形態が実現する機能は損なわれない。

以上の説明では、処理部１２００は、撮影部１１００が撮影したフレームを、本工程で説明したようにオンラインで取得する。この他に処理部１２００は、一旦外部記憶装置に記憶されたフレームを取得する構成であってもよい。この場合、撮影部１１００は、外部記憶装置にフレームを随時書き込む。処理部１２００は、外部記憶装置が所定のフレームを読み出す。処理部１２００は、取得したフレームを用いて以下の処理を行う。

処理部１２００は、人体検出器１００３により、取得したフレームに含まれる対象物である人物の位置及びスコア少なくとも一方を検出する（Ｓ１００２）。人体検出器１００３は、フレーム内に複数の人物が含まれる場合に、基本的にはその人数に対応した複数の位置及びスコアの少なくとも一方を検出する。
人体検出器１００３は、例えばテクスチャ等の画像特徴に基づいてフレーム内の人体の有無を判別する。人体検出器１００３は、畳み込みニューラルネットワーク（ＣＮＮ：Convolutional Neural Network）を用いた画像認識技術によりフレーム内の人体の検出を行う。ＣＮＮを用いた画像認識技術により、高速且つ高精度に複数の画像認識処理を同時実行することができる。非特許文献３では、物体候補領域を推定する層を物体認識用ＣＮＮに組み込み、物体候補領域の検出と複数カテゴリの分類の２つのタスクの認識処理を、１７ｆｐｓ（frame per second）という動作速度で実現している。本実施形態では、このようなＣＮＮによって実現される高速且つ高精度な人体検出器１００３を利用する。

人体検出器１００３は、検出した人体の位置及びスコアの少なくとも一方を出力する。ここで位置とは、画像上の正規化位置（ｕ，ｖ）である。スコア（以後、「ｑ」とする）は、人体らしさを表す［０，１］の正規化された値である。スコアは、「１」に近いほど、位置（ｕ，ｖ）の物体が人体らしいことを意味する。人体検出器１００３の出力は（ｕ，ｖ，ｑ）で表され、以後これを「観測値」と呼ぶ。人体検出器１００３は、非特許文献３のようにピクセル座標上の対象物（人体）のサイズに合わせたバウンディングボックスを出力するものでもよいが、本実施形態では、バウンディングボックスの中心位置を対象物の位置（ｕ，ｖ）として用いる。

一般に人体検出器１００３は、対象物（人体）らしさを検出できる大きさに限界がある。すなわち対象物を検出できるカメラからの検出範囲に制限がある。図４は、検出範囲の説明図である。図４（ａ）は、人体検出器１００３による検出器ＦＯＶ（Field of View）を示す。検出器ＦＯＶ４００は、カメラ４０１の画角４０２と人体検出器１００３の検出範囲４０３によって決まるＦＯＶ４０４を表す。簡単のため図４（ａ）、４（ｂ）では、カメラ４０１の光学中心を含む平面でＦＯＶ４０４を表している。ＦＯＶ４０４は、所定の検出範囲と角度を持つ扇形を成す。

図４（ｂ）は、図１（ａ）の空間１０１に対してＦＯＶを重畳した、ＦＯＶ重複地図を示す。ＦＯＶ重複地図４１０には、カメラ１０９のフレームを用いた人体検出器１００３の扇形のＦＯＶ４１１と、それぞれ３次元空間中の地点ａ、ｂと、３次元の空間１０１中の領域４１４が含まれる。ＦＯＶ重複地図４１０では、扇形の複数のＦＯＶは重複し、領域毎の重複数が濃淡によって示されている。地点ａは、カメラ１０９を含む３カメラのＦＯＶが重複する領域にある。地点ｂは、５カメラのＦＯＶが重複する領域にある。疎なカメラ配置であるために、ＦＯＶ重複地図４１０には重複数が少ない領域も存在する。領域４１４は１台のカメラのＦＯＶでしかカバーされない。ＦＯＶ重複地図４１０を用いることで、人体検出器１００３は、各々のカメラによる観測値の数（撮影される人物の数）を得ることができる。

図５は、１台のカメラのフレームと人体検出器１００３によって得られる観測値の説明図である。図５（ａ）は、人物配置とＦＯＶとの位置関係を示す図である。空間５０１内には、人物５０２、５０３、５０４が配置される。カメラ５０５で取得されたフレームに人体検出器１００３を適用した場合のＦＯＶ５０６が扇型になる。この例では人物５０２、５０３が、ＦＯＶ５０６の領域内に存在する。図５（ｂ）は、カメラ５０５によって取得されるフレームと人体検出器１００３の出力の一部を可視化した図である。カメラ５０５が取得するフレーム５１１には、人物５１２、５１３が含まれる。人物５１２が空間５０１の人物５０２に対応し、人物５１３が空間５０１の人物５０３に対応する。フレーム５１１は、人体検出器１００３の出力の一部を可視化したバウンディングボックス５１４、５１５、５１６を含む。本実施形態で用いる人体検出器１００３の出力は、バウンディングボックスの中心（ｕ，ｖ）、幅（ｈ，ｗ）、及びスコアｑで表される。バウンディングボックス５１４、５１５、５１６は、（ｕ，ｖ，ｈ，ｗ）で表現される。バウンディングボックス５１４、５１５は、それぞれ人物５１２、５１３に対応する。バウンディングボックス５１６は人体に対応しない誤検出である。この例のように、人体検出器１００３の出力には誤検出が存在する。認識対象物（人物）が存在するのに検出されない場合を「未検出」と呼ぶ。認識対象物（人物）が存在しないのに検出される場合を「過検出」と呼ぶ。図５（ｂ）のバウンディングボックス５１６は過検出である。

以上の結果、空間１０１に存在する人物が、１つ又は複数の検出器で検出される。検出される人物の数は地点によって変動する。カメラパラメータ及び検出器のスペックによって、ＦＯＶ重複地図４１０を得ることができるため、通常、人物が各地点でどのカメラ及び検出器によって検出されるかを事前に知ることができる。また、人物同士の重なりによる隠蔽の発生や検出器の未検出等により、人物がいずれの検出器からも検出されない状況も起こりうる。

処理部１２００は、人体の検出後に、時刻ｔを確認する（Ｓ１００３）。

処理部１２００は、人体検出器１００３の出力（ｕ，ｖ，ｑ）を観測値、人物の３次元空間内の位置（ｘ，ｙ，ｚ）、速度（ｘ，ｙ，ｚ）、向き（φ，θ，ψ）の計９次元を状態変数、とする状態空間モデルを用いて、人物の３次元位置の推定及び追尾を行う。なお、状態変数は、位置及び向きの少なくとも一方を含む６次元であってもよい。本実施形態の処理部１２００は、状態空間モデルから拡張カルマンフィルタによって対象物（人物）の状態推定及び人物ＩＤの追尾を行う。

図４（ｂ）で示したように、所定の対象物（人物）の観測値は、その位置でＦＯＶが重複する数だけ取得できる。重複数は３次元空間内の各地点で変動する。図６はそのような観測値の重複数の変動の説明図である。ここでは、観測値が状態空間モデル６００により説明される。状態空間モデル６００は、時刻ｔ＝１、２、３、４における状態変数６０１、６０２、６０３、６０４、及び時刻ｔ＝１、２、３、４で観測される観測値６０５、６０６、６０７、６０８を示す。時刻ｔ＝１において観測値６０５は３つ観測される。ｔ＝２では観測値６０６の欠損が起こる。ｔ＝３では１つの観測値６０７が観測される。ｔ＝４では２つの観測値６０８が観測される。観測値の数は、基本的に検出される人物の位置によって決まり、また隠蔽、未検出、過検出等の要因で増減する。観測値ｙと状態変数ｘは、下記のように記述される。

添え字ｔは時刻を表す。ｋ_jはカメラｋのフレーム内のｊ番目の観測値を表す。ｎはｎ番目の人物を表す。Ｔは転置を表す。人物に関する添え字ｎは、人物のＩＤと換言できる。さらに、後述するＩＤ対応づけを実行することで、ｎとｋ_jの対応付けが行われ、ｙ_t,kjはｙ_t,kｎ＝［ｕ_t,kｎ，ｖ_t,kｎ，ｑ_t,kｎ］^Tに対応付けられる。ｙ_t,kｎは人物ｎのカメラｋでの時刻ｔの観測値を意味する。

時刻ｔ＝０の場合（Ｓ１００３：Y）、処理部１２００は、初期状態取得部１００４により初期状態を取得する。初期状態取得部１００４は、人体検出器１００３で検出したフレーム内の人体位置を３次元空間に射影し、３次元上の人体の初期状態を取得する。この処理の終了によって、初期状態取得部１００４は、時刻ｔ＝１とする。

初期状態取得部１００４は、具体的には、３次元空間中の人物１２２、１２３、１２４（図１（ｂ）参照）の状態変数の初期値を取得する処理を行う。９次元の状態変数のうち、速度及び向きは初期値が全て「０」とされる。３次元空間の地面上の位置（ｘ，ｙ）の初期値は、下記の方法によって、複数の人物でそれぞれ異なる真の位置に近い値が付与される。この理由は、カメラ毎の複数の観測値と複数の人物の対応付けを処理の開始時点で同定する必要があるためである。高さ方向の位置ｚは、初期値に正確性が不要なため、「０」と仮定される。初期状態取得部１００４は、後述する透視投影行列を用いて、カメラの観測値の位置（ｕ，ｖ）を３次元空間内の位置（ｘ，ｙ，０）へ射影し、所定のカメラで見た対象物の３次元空間内の位置を得る。初期状態取得部１００４は、全てのカメラの検出器の観測値を３次元空間内に射影し、その上で３次元空間内の位置をクラスタリングし、各クラスタを人物の位置として扱うことで複数の観測値と複数の人物の対応付けを行う。クラスタの中心が状態変数の位置（ｘ，ｙ）の初期値となる。

この際、図４（ｂ）に示すＦＯＶ重複地図４１０に基づいて、各クラスタには、地図に記されたカメラの観測値が含まれているように制約が課される。これは検出器の誤検出等で常には満たされないが、その場合、初期状態取得部１００４は、数フレームこの検出、対応付けの処理を繰り返し行う。条件が満たされた場合、初期状態取得部１００４は、それをクラスタの要素として採用し、当該フレームを初期フレームとする。

以上の結果、初期状態取得部１００４は、状態変数の初期値ｘ_0,n＝（ｘ_0,n，ｙ_0,n，０，０，０，０，０，０，０）を取得する。これを状態変数の初期のフィルタ分布（事後分布）の１次モーメント（平均）ｘ_0|0,nとして、２次モーメント（分散共分散行列）Ｖ_0|0,nには適当な大きさの半正定値行列が設定される。

初期状態取得後、或いは時刻ｔが「０」ではない場合（Ｓ１００３：N）、処理部１２００は、予測部１００５により、時刻ｔの状態の確率分布を予測する処理を行う。予測部１００５は、現在の時刻ｔ（ｔ＞＝１）の直前の時刻ｔ−１における人体の位置、速度等の状態に基づいて、時刻ｔの状態の確率分布を予測する。さらに予測部１００５は、時刻ｔで取得されるべき観測値の確率分布を予測する。

予測部１００５は、状態変数の予測分布を取得する際にる下記のシステム方程式を用いる。

Δｔは、１ステップの時間幅（秒）を表す。ｓ_tはプロセスノイズと呼ばれる白色ガウスノイズである。ｓ_tの分散共分散行列をＱ_tとする。このシステム方程式は、位置（ｘ，ｙ，ｚ）に関し２次のマルコフ過程でモデル化した位置と、速度（ｘ，ｙ，ｚ）のトレンド成分モデルとを扱う。向き（φ，θ，ψ）は１次のマルコフ過程としてモデル化されている。

予測部１００５は、観測値の予測分布の取得に際して以下の観測方程式を用いる。３次元空間上の点は、予めキャリブレーションにより取得したカメラパラメータを用い、カメラのピクセル座標上に射影できる。この射影は下式で記述される。

ここで、ｐ_xx,kはカメラｋの透視投影行列の各要素である。これらの要素はカメラキャリブレーションによって予め取得される。γは、同次座標系のパラメータである。この射影に基づいて、観測値の内の位置（ｕ，ｖ）の観測方程式は下式となる。

スコアｑの観測方程式は下式となる。

Ｃｋはカメラｋの３次元空間上のカメラ位置を表す。||・||₂はユークリッドノルムを表す。α０、α１、α２、α３、α４はモデルパラメータを表す。ｗｔは観測ノイズと呼ばれる白色ガウスノイズである。θ_x、θ_y、θ_zは、カメラの外部パラメータの回転行列をＲ、人体の向き（φ，θ，ψ）から得られる回転行列をＲ₀としたときの行列の要素を用いて、以下のように表現される。

上記の（１）、（２）式は、３次元空間内の位置（ｘ，ｙ，ｚ）がピクセル座標（ｕ，ｖ）として観測される過程をモデル化した式である。本実施形態における複数カメラの撮影システムは、前述のとおり、非同期であり且つコマ落ちが発生する可能性がある。さらに物体検出器（人体検出器１００３）の利用に伴う検出位置のずれ、カメラキャリブレーションの誤差に伴う位置ずれが発生する可能性がある。これらの要因により、３次元空間内の人物は、位置に誤差を含んで観測されると考えられる。（１）、（２）式はその誤差を観測ノイズとしてモデル化する。

（３）式は、観測値のスコアに関する観測過程をモデル化した重回帰モデルである。検出器は、一般に、撮像された対象物の大きさ及び向きに相関してスコアを変化させる。カメラで撮影した対象物の大きさは、通常、カメラからの距離に相関する。学習データの偏りが無ければ、一般に、対象物が大きい場合（カメラから近い場合）、テクスチャ等の画像特徴量がロバストに取得されて、スコアも高くなる。逆に対象物が小さい場合（カメラから遠い場合）、テクスチャが潰れて画像特徴量が安定して取得できず、スコアも低くなる傾向がある。特に対象物が人物の場合、カメラに対して正面を向いていると、目、鼻、口などの人物の識別に際して重要なパーツの見えが安定するため、スコアが高くなる傾向がある。逆にカメラに対して背面を向いている場合、識別の手掛かりとなるパーツが少なくなり、スコアが低くなる傾向がある。（３）式の第１項は、定数項である。第２項は、対象物のカメラからの距離とスコアとの関係を線形モデルでモデル化した項である。第３、第４、第５項は、カメラから見える人体の向きとスコアの関係をコサイン関数でモデル化した項である。第６項はノイズ項である。

（３）式のモデルパラメータα₀、α₁、α₂、α₃、α₄の推定には、複数の方法がある。１つは、キャリブレーション済みのカメラで撮影した複数の人物の画像に、３次元空間内の向きの正解値を付与し、さらに人体検出器のスコアを得て、向きとスコアを持つ複数のサンプルを用い最小２乗法でパラメータ推定する方法である。もう１つは、後述する式（８）の尤度関数を用い、観測値に対するモデルの尤もらしさを定量化した尤度を算出し、多量の観測値から対数尤度を得て、グリッドサーチで対数尤度を最大化させるパラメータを探索する方法である。後者の方法は、人手による正解値の付与を必要としないため、効率的である。その他に、ＥＭ（Expectation-Maximization）法を用いた再帰的な探索方法や、モデルパラメータも状態空間に組み込んだ自己組織的なモデルとする方法等が存在する。いずれの方法を用いても、本実施形態で説明する機能は大きく損なわれない。

以上の式（１）、（２）、（３）をまとめ、以後、下記式（４）のように表現する。
ｙ_t,kj＝ｈ_t,k（ｘ_t,n）＋ｗ_t （４）

ｘ_t|t-1,nは状態変数の予測分布の１次モーメントを表す。Ｖ_t|t-1,nは２次モーメントを表す。ｙ_t|t-1,k,nは観測値の予測分布の１次モーメントを表す。Ｕ_t|t-1,k,nは２次モーメントを表す。Ｑ_tはプロセスノイズの分散共分散行列、Ｒ_ｔは観測ノイズの分散共分散行列である。Ｈ_t,kは、ｈ_t,k（ｘ_t,n）のヤコビ行列である。以後簡単のため、１次及び２次モーメントを持つガウス分布に従う状態変数の予測分布を、Ｐｘ_t,n｜Ｙ_t-1と表現する。観測値の予測分布をＰｙ_t,k,n｜Ｙ_t-1と表現する。Ｙ_ｔ−１は、時刻ｔ−１までの観測値の集合Ｙ_t-1 = {{{y_1,1,1,y_1,2,1,…,y_1,K1,1}，{y_2,2,1,y_2,2,1,…,y_2,K1,1}，…，{y_t-1,1,1,y_t-1,2,1,…,y_t-1,K1,1}}，…，{{y_1,1,1,y_1,2,1,…,y_1,KN,N}，{y_2,2,1,y_2,2,1,…,y_2,KN,N}，…，{y_t-1,1,1,y_t-1,2,1,…,y_t-1,KN,N}}}である。y_t,k,nは、人物ＩＤがｎの人物の、時刻ｔ、カメラｋにおける観測値である。Ｋ_ｎは、人物ｎの３次元空間上の位置で重複するカメラ数である。

予測処理後に処理部１２００は、ＩＤ対応付け部１００６により、３次元空間内の複数の対象物（人体）のそれぞれに、重複しない番号である認証ラベル（ＩＤ）を対応付ける（Ｓ１００６）。ＩＤ対応付け部１００６は、予測部１００５で予測した時刻ｔの観測値の予測分布と時刻ｔの実際の観測値とに基づいて、実際の観測値の尤度を算出する。ＩＤ対応付け部１００６は、算出した尤度に基づいて３次元空間内の人体と観測値を対応付ける。

時刻ｔにおいて、カメラｋのフレームから、誤検出を含んだＪ個の観測値｛ｙ_t,k1，ｙ_t,k2，…，ｙ_t,kj｝が得られる。図５（ｂ）の例では、１つの誤検出（過検出）を含む３個の観測値が得られている。式（７）、（８）により取得される観測値の予測分布の１次及び２次モーメントより、下記のガウス分布が記述できる。
ｌ_kj.n＝Ｎ（ｙ_t,kj；ｙ_t|t-1,k,n，Ｕ_t|t-1,k,n）（９）

この関数に観測値ｙ_ｔ，ｋjを引数として与えることで、ｙ_ｔ，ｋjの人物ｎの観測値としての尤度ｌ_kj,nが算出される。複数の観測値｛ｙ_t,k1，ｙ_t,k2，…，ｙ_t,kj｝にそれぞれ式（９）を適用し、尤度の高い観測値を人物ｎの観測値として対応付けることで、観測値と人物との対応付けが行われる。

対応付けでは、貪欲法に基づき複数の観測値の内の最大となる尤度の観測値を、所定の人物ｎの観測値として割り当ててもよいが、尤度の和が最大になる対応付けを線形計画法で算出してもよい。その場合、観測値と予測分布の１次及び２次モーメントで算出されるマハラノビス距離を用い、マハラノビス距離の和が最小となる対応付けをハンガリアン法で算出することで、尤度の和が最大になる割り当てが取得可能である。このとき人体検出器１００３の未検出及び過検出によって、実際の観測値が本来フレーム内にあるはずの真の観測値の数と一致しない場合がある。真の観測値数とは、１つのカメラのＦＯＶ内に存在する人物の数と等しく、図５（ｂ）の例では「２」である。

図７は、未検出及び過検出発生時のハンガリアン法で用いるコスト行列の説明図である。ここでは、３次元空間内にＩＤ１、２、３、４が割り振られた４人の人物がおり、カメラｋではＩＤ２、３、４が割り振られた３人の人物が撮像される場合で説明する。図７（ａ）は、実際の観測値数と真の観測値数とが一致する場合にハンガリアン法で用いるコスト行列７００を例示する。図７（ｂ）は、実際の観測値数が真の観測値数より少ない場合（未検出発生）にハンガリアン法で用いるコスト行列７１０を例示する。図７（ｃ）は、実際の観測値数が真の観測値数より多い場合（過検出発生）にハンガリアン法で用いるコスト行列７２０を例示する。

コスト行列７００のＰ（ｙ_t,k,2｜Ｙ_t-1）７０１、Ｐ（ｙ_t,k,3｜Ｙ_t-1）７０２、Ｐ（ｙ_t,k,4｜Ｙ_t-1）７０３は、それぞれＩＤがｎ＝２、３、４の人物の観測値の予測分布ある。ｙ_t,k1７０４、ｙ_t,k2７０５、ｙ_t,k3７０６は、それぞれ時刻ｔにおけるカメラｋの１、２、３番目の観測値である。表内の値７０７はマハラノビス距離である。マハラノビス距離を要素とする行列がコスト行列７０８である。実際の観測値数と真の観測値数とが一致するコスト行列７００の場合、ＩＤ対応付け部１００６は、当該コスト行列７００に基づきハンガリアン法を適用する。

コスト行列７１０は、未検出が発生した状況である。このとき実際の観測値は、ｙ_t,k1とｙ_t,k2の２つである場合、真の観測値と数が合わなくなる。この場合、ＩＤ対応付け部１００６は、偽の観測値ｙ_t,k-1７１１を設定し、マハラノビス距離を無限大とする。ＩＤ対応付け部１００６は、このようにコスト行列７１０を正方行列にして、ハンガリアン法を適用する。ハンガリアン法の計算の結果、いずれかのＩＤの予測分布が偽の観測値ｙ_t,k-1に割り当てられる。これは、観測値が欠損した状況で、図６の状態空間モデル６００の観測値６０６に対応する。このＩＤの状態変数は、後述するＳ１００８の更新時に通常とは別の処理を行う。

コスト行列７２０は、過検出が発生した状況である。この場合、ＩＤ対応付け部１００６は、偽の予測分布Ｐ（ｙ_t,k-1｜Ｙ_t-1）７２１を設定し、マハラノビス距離を無限大とする。ＩＤ対応付け部１００６は、このようにコスト行列７２０を正方行列化して、ハンガリアン法を適用する。

なお、所定のフレームで未検出と過検出とが同時に発生し、見かけ上、実際の観測値数と真の観測値数が一致してしまい、誤対応が発生する可能性がある。このような場合に対応するために、ＩＤ対応付け部１００６は、マハラノビス距離に閾値を設定する。例えばＩＤ対応付け部１００６は、３以上のマハラノビス距離で対応付けられたＩＤを上述の観測値が欠損した場合と同じ扱いにするようにすることで、誤対応を軽減する。

対応付け処理後に処理部１２００は、隠蔽率予測部１００７により、前工程で予測した時刻ｔにおける複数人体の状態の予測分布に基づいて、時刻ｔにおいて所定の対象物が自分以外の他の人体によってフレーム内で隠蔽される割合の予測を行う（Ｓ１００７）。つまり隠蔽率予測部１００７は、時刻ｔにおける隠蔽の発生を予測し定量化する。隠蔽率予測部１００７は、人物同士の観測値の予測分布の類似度と、カメラの位置と人物の位置間の前後関係によって定量化した予測隠蔽率を生成する。

本実施形態では、観測値の予測分布の１次モーメントのみを用いた軽量な定量化方法を説明する。類似度としてコサイン類似度が用いられる。すなわち、人物ｎと人物ｍの間の類似度は、ｃｏｓ^β（ｙ_t|t-1,k,_m，ｙ_t|t-1,k,n）となる。ここで、βはべき指数（ハイパーパラメータ）である。またカメラの位置と人物の位置間の前後関係は、以下の式によって算出される。
ｍｉｎ（ｍａｘ（||ｘ_t,n−Ｃ_k||₂−||ｘ_t,m−Ｃ_k||₂，０），１）（１０）
Ｃ_kは、カメラｋの３次元空間上のカメラ位置である。

式（１０）の関数は、人物ｍがカメラｋから見て人物ｎの手前に存在する場合に「１」を返し、それ以外の場合は「０」を返す。以上より、予測隠蔽率ｐ^occ _t,k,nは、下式で算出される。
Ｐ^ccc _t,k,n＝（１／Ｎ_t,k−１）Σ^Nt.k _n≠mｍｉｎ（ｍａｘ（||ｘ_t,n−Ｃ_k||₂−||ｘ_t,m−Ｃ_k||₂，０），１）・ｃｏｓ^β（ｙ_t|t-1,k,m，ｙ_t|t-1,k,n））（１１）
Ｎ_t,kは、時刻ｔにおけるカメラｋで撮影される真の観測値の数（＝撮影される人物数）である。

式（１１）は、所定のカメラから見て所定の対象物の手前に別の対象物が存在し且つカメラの中心と対象物を結ぶ視線が類似しているときに、所定の対象物が別の対象物に所定のカメラから見た場合に隠蔽されるという考え方に基づく。式（１０）とコサイン類似度を乗算した値は、所定の人物に対し、別の人物が手前に存在し且つピクセル座標上で近い位置に存在する場合、「１」に近い値になる。それを自分以外のすべての人物に対し計算し、正規化したものが式（１１）である。そのためｐ^occ _t,k,nは、「１」で人物ｎが完全に隠蔽されていることを示し、「０」で隠蔽が無いことを示す。なお前工程のＩＤ対応付けで、偽の観測値が割り当たったＩＤでは、ｐ^occ _t,k,nが「１」となる。

ここでは、観測値の予測分布の１次モーメントのみを用いた定量化を行ったが、２次モーメントまで考慮してＫＬダイバージェンス等で分布間の距離を計量し、視線の類似度として用いても良い。また、本実施形態では、人物の配置予測とカメラからの観測値予測に基づく隠蔽率予測を人物のみを対象にして行っているが、人物と自律的に動かない遮蔽物との間の隠蔽に対し、これを適用してもよい。

隠蔽率の予測後に処理部１２００は、更新部１００８により、Ｓ１００６の処理による対応付け結果、Ｓ１００２の処理による検出結果、及びＳ１００７の処理による予測結果に基づいて各人体の状態を更新する（Ｓ１００８）。即ち、更新部１００８は、Ｓ１００６の処理で対応付けた観測値、Ｓ１００２の処理で取得したスコア、及びＳ１００７の処理で予測した隠蔽率に基づいて、各人体の状態を更新する。更新部１００８は、時刻ｔの観測値を用い、状態変数の予測分布を更新し、フィルタ分布（事後分布）を取得する。この際、図６に示したように、状態空間モデル６００は、逐次観測可能なカメラの数が変化する。そのために更新部１００８は、更新に際して複数の観測値の統合を行う。本実施形態では、更新部１００８は、前工程で取得した予測隠蔽率ｐ^occ _t,k,nを統合時に用い、隠蔽が予測される観測値を更新に反映しないようにする。同時に更新部１００８は、観測値のスコアｑ_t,k,nも用い、カメラからの距離や向きが物体検出に好適な条件である可能性が高い観測値を、更新により強く反映させるように統合する。以上の指針により、統合方法は以下の２つの方針が考えられる。

（方針１）
更新部１００８は、各カメラの尤度関数Ｐ（ｙ_t,kj｜ｘ_t,n）の観測ノイズの分散共分散行列Ｒｔに、（１−ｐ^occ _t,k,n）とｑ_t,k,nの逆数を乗算する。更新部１００８は、各カメラで独立性を仮定した上で、同時分布として各カメラの観測値を統合した統合尤度関数をモデル化する。

Ｙ_t,kn,nは、時刻ｔにおいてカメラｋで取得される観測値の集合Ｙ_t,kn,n＝｛ｙ_t,1,n，ｙ_t,2,n，…，ｙ_t,kn,n｝である。Ｐ（ｙ_t,n｜ｘ_t,n，ｑ_t,k,n，ｐ^occ _t,k,n）の分散共分散行列は、（ｑ_t,k,n・（１−ｐ^occ _t,k,n））^-1・Ｒ_tとする。これは、識別スコアが小さく、隠蔽率が高いほど観測ノイズの分散が大きくなるようにモデル化したと換言できる。

（方針２）
更新部１００８は、統合尤度関数を、（１−ｐ^occ _t,k,n）とｑ_t,k,nの積を混合比として、各カメラの尤度関数Ｐ（ｙ_t,kj｜ｘ_t,n）の混合分布でモデル化する。

この方針は、複数のカメラの視線（カメラの光学中心と物体を結ぶ直線）の交点以外の、各視線上にも尤度が分布する統合となる。

また上記２つの方針による更新式は、次の通りである。方針１に関しては、統合尤度関数の確率分布を直接計算する方法と再帰的に計算する方法との２通りの更新式が挙げられる。

（統合方法１−１）
方針１の１つ目の統合方法は、下記のように尤度関数の積の分布を計算し、通常の拡張カルマンフィルタの更新を適用する方法である。

この方法では、複数のガウス分布の積を予め計算し、１から所定数までのガウス分布の積を関数として実装する必要がある。そのため仮に全カメラ数が想定できない場合は、実装が困難である。

（統合方法１−２）
方針１の２つ目の統合方法では、尤度関数の積の計算を、下記の再帰的な式で実行する。

この方法は、全カメラ数を実装時に把握しておく必要が無いために、統合方法１−１より柔軟に実装できる。

（統合方法２）
方針２の統合方法は、カルマンフィードバックを重み付け和する、下記の方法である。

統合方法１−１及び統合方法２は、ガウス分布の積で統合尤度関数をモデル化する。そのためにカメラ数が多い場合、統合尤度関数はデルタ関数に近づき、分布の分散が縮退する。フィルタ分布は、システム方程式でモデル化した状態変数の時間的な変化の滑らかさが失われてしまう可能性がある。逆にこの方法は、ガウス分布の積でモデル化しないため、分布の分散が縮退せず、カメラ数が多い場合でも時間的変化が滑らかな状態変数の推定が可能になると考えられる。

以上のいずれかの方法でカメラ毎の観測値を統合した更新を実行する事で、複数の観測値と予測の誤差を補正したフィルタ分布の計算が実行される。また全てのカメラで、予測隠蔽率ｐ^occ _t,k,n＝１の場合、または観測値が欠損する場合は、フィルタ分布を状態変数の予測分布で代替し、以下の式とすればよい。
ｘ_t|t,n＝ｘ_t|t-1,n
Ｖ_t|t,n＝Ｖ_t|t-1,n

状態の更新後に処理部１２００は、可視化部１００９により、更新した人物の状態を可視化する（Ｓ１００９）。可視化部１００９は、推定された３次元空間内の位置と推定位置の時系列の可視化を行う。可視化部１００９は、それぞれの結果を仮想的な３次元空間内に描画してもよいし、カメラで取得した実画像上に軌跡や点として重畳表示させてもよい。可視化部１００９は、可視化した結果をモニタリング部１３００に表示させる。ユーザは、モニタリング部１３００により表示結果を閲覧することができる。

処理部１２００は、引き続き次のフレームの処理を行う場合には、Ｓ１００１以降の処理を繰り返し実行する（Ｓ１０１０：Y、Ｓ１００１）。処理を終了する場合、処理部１２００は、この処理を終了する（Ｓ１０１０：N）。

以上の処理を実行することで、情報処理装置１００は、３次元空間内に存在する複数の人物の位置と軌跡の推定を高精度に行うことができる。人物が隠蔽される場合、情報処理装置１００は、隠蔽をオンラインで予測して隠蔽の程度を定量化し、隠蔽される観測値を状態変数の更新時に反映させない。さらに情報処理装置１００は、物体検出器（人体検出器１００３）のスコアを用い、同時に取得される複数の観測値を統合する。これらの結果、本実施形態の情報処理装置は、隠蔽等での人物間のＩＤの入れ替わりの問題を軽減した、比較的長い軌跡の推定が可能となる。

（第２実施形態）
第１実施形態では、空間１０１（図１（ａ））に存在する人物の数の変動を想定していない。しかし実際には、処理の途中で空間１０１内で人数の変化が発生することは十分起こりうる。そこで、空間１０１の外周やその一部分に入退エリアを設け、入退エリアで出入りする人物の検出を処理ループに組み込むことで、処理の途中で発生する人数変化に対応することができる。

図８は、本実施形態の３次元追尾装置の機能ブロック図である。本実施形態の３次元追尾装置２０００は、図２に示す第１実施形態の３次元追尾装置１０００に人数加減検出部２０１０を追加した構成である。その他の各機能構成に関しては、第１実施形態の３次元追尾装置１０００の同名の機能構成と同じ機能を有する。図９は、３次元追尾装置２０００による対象物（人物）の認識処理を表すフローチャートである。この処理は、図３の処理に人数加減検知処理を追加した処理である。第１実施形態から追加した機能及び処理について説明し、共通の機能及び処理については説明を省略する。

処理部２２００は、人体の検出後、時刻ｔ＝０ではない場合に（Ｓ２００３：N）、人数加減検出部２０１０により、入退エリアの人物の検出を行う。この処理は、人体検出器１００３によるＳ２００２の処理結果を用いればよい。人数加減検出部２０１０は、Ｓ２００２の処理結果に応じて空間１０１内の人物の加減を検知する（Ｓ２０１１）。人物の加減がある場合（Ｓ２０１２：Y）、処理部２２００は、初期状態取得部２００４により人物の初期状態を取得する（Ｓ２００４）。人物の加減がない場合（Ｓ２０１２：N）、処理部２２００は、予測部２００５により予測処理を行う（Ｓ２００５）。この際、Ｓ２００４の初期状態の取得処理は、新たに追加された人物に関してのみ行う。他の人物の状態は、Ｓ２００８の更新処理で得られるフィルタ分布を用いれば、元々存在した人物に関し、より長い軌跡を取得することができる。

以上のような第２実施形態の３次元追尾装置２０００は、第１実施形態と同様の効果に加え、空間１０１の人物が増減する場合にも、第１実施形態と同様の効果を奏することができる。

（第３実施形態）
第３実施形態では、第１実施形態と同様の撮影システムで撮影される空間１０１において、複数の人物と１つのボールを対象物とし、各々について、３次元空間内の位置と軌跡の推定を行う。ボールは人物に対して大きさが十分に小さいとする。

図１０は、１台のカメラのフレームと検出器とによって得られる観測値の説明図である。図１０（ａ）は、本実施形態の人物とボールの配置を例示する。空間８０１は、図１（ａ）の空間１０１と同様のカメラ配置のマルチカメラ撮影システムの空間である。空間８０１内には人物８０２、８０３、８０４及びボール８０５が存在する。空間８０１は、カメラ８０６により撮影される。なお、カメラ８０６の他にも、不図示の複数台のカメラが配置される。図１０（ａ）では、カメラ８０６で取得したフレームに検出器を適用する場合のＦＯＶ８０７が示される。

図１０（ｂ）は、カメラ８０６によって取得されるフレームと検出器の出力の一部を可視化した図である。カメラ８０６で取得されるフレーム８１１には、人物８０２、８０３に対応する人物８１２、８１３及びボール８０５に対応するボール８１４が含まれる。フレーム８１１には、検出器の出力の一部を可視化したバウンディングボックス８１５、８１６、８１７、８１８が示される。フレーム８１１では、人物８１２の手前にボール８１４が存在するが、人物８１２は大部分が隠蔽されていない。

第１実施形態では、３次元追尾装置１０００は、人物間のカメラから見た前後関係とカメラのフレーム上での観測値の予測分布の類似度とに基づいて、予測隠蔽率を算出した。しかし、フレーム８１１に示すようにボール８１４が人物８１２に対して十分に小さい場合、前後関係と観測値の予測分布の類似度だけでは隠蔽の定量化に不十分であり、対象物間のスケールの違いを考慮する必要がある。第３実施形態では、空間８０１にサイズが大きく異なる対象物（人物及びボール）が存在する場合に、それぞれの３次元空間内の位置と軌跡を、隠蔽の影響を軽減して推定する方法について説明する。

図１１は、本実施形態の３次元追尾装置の機能ブロック図である。本実施形態の３次元追尾装置３０００は、図２に示す第１実施形態の３次元追尾装置１０００にボール検出部３０１１を追加した構成である。その他の各機能構成に関しては、第１実施形態の３次元追尾装置１０００の同名の機能構成と同じ機能を有する。図１２は、３次元追尾装置３０００による対象物（人物）の認識処理を表すフローチャートである。

処理部３２００は、第１実施形態のＳ１００１、Ｓ１００２（図３参照）と同様の処理を行い人体を検出する。処理部３２００は、撮影部３１００からＫ台の動画取得部により所定の時刻のフレームをＫ枚取得する（Ｓ３００１）。処理部３２００は、人体検出器３００３により、取得したフレームから人物の位置及びスコアを検出する（Ｓ３００２）。処理部３２００は、ボール検出部３０１１により、取得したフレームからボールの位置及びスコアを検出する（Ｓ３００３）。ここではボール検出部３０１１として、１実施形態のＳ３００２の処理で用いた検出器と同様の出力の検出器が用いられる。すなわち、処理部３２００は、検出器によりフレームのピクセル座標上の中心位置（ｕ，ｖ）と、［０，１］に正規化されたボールらしさのスコアｑの３次元の値を検出する。

処理部３２００は、人体及びボールの検出後に、時刻ｔが「０」であるかを確認する（Ｓ３００４）。確認処理は、図２のＳ１００３の処理と同様である。

時刻ｔ＝０である場合（Ｓ３００４：Y）、処理部３２００は、初期状態取得部３００４により、３次元空間上の人体とボールの初期位置を取得する（Ｓ３００５）。初期状態取得部３００４は、この処理が終了すると時刻ｔ＝１とする。初期状態取得部３００４は、人体検出器３００３が検出したフレーム内の人体位置と、ボール検出部３０１１が検出したフレーム内のボール位置と、をそれぞれ３次元空間に射影することで３次元空間内の人体とボールの初期位置を取得する。

ボールは、一般に球形であり、見え方が回転不変である。そのために、人物と異なり、ボールの状態変数に姿勢を含めることに意味がない。それゆえボールの状態変数は、下記の位置及び速度の計６次元で表される。

ボールは、空間８０１中に１つのみが存在している。そのため、観測値と対象物が常に対応付く状態であるので、人物と違い両者を同定する初期位置を求める必要がない。初期状態取得部３００４は、ボールのフレーム中の位置（ｕ，ｖ）を３次元空間内の位置（ｘ，ｙ，０）に射影し、各視点の３次元空間上への射影結果を平均して、（ｘ，ｙ）の初期位置とする。その他の値は「０」とする。初期状態取得部３００４は、人物に関しては、初期値を第１実施形態と同様の処理で取得する。

時刻ｔ＝０ではない場合（Ｓ３００４：N）、或いは初期状態取得後に、処理部１２００は、予測部３００５により、時刻ｔにおける状態の確率分布を予測する（Ｓ３００６）。予測部３００５は、現在の時刻をｔ（ｔ＞＝１）とし、時刻ｔ−１における３次元空間内の人物及びボールの状態に基づいて、時刻ｔにおける状態変数の確率分布（予測分布）を予測する。さらに、予測部３００５は、時刻ｔに取得されるべき観測値の確率分布（予測分布）を予測する。前述の通り、ボールは状態変数に向きを含めないため、システム方程式が人物の場合と異なり、位置及び速度のみでモデル化される。

スポーツ等の試合中のボールは、一般に速度の変化が急峻である。３０ｆｐｓ程度の速度で撮影する場合、急激に変化するシーンに関してはフレーム毎の位置の変化が不連続になる。そのために、特にボールの移動方向の変化が急峻なスポーツでは、単純なモデルの方が予測性能が良い場合がある。このような場合は、ボールのシステム方程式を位置のみの１次のマルコフ過程でモデル化してもよい。人物に関しては第１実施形態と同様のシステム方程式である。

次に観測方程式について説明する。前述の通り、ボールは見え方が回転不変であるため、スコアｑの観測方程式が下記のカメラ位置からの距離のみでモデル化される。
ｑ_t,kj＝α₀＋α₁||ｘ_t,n−Ｃ_k||₂＋ｗ_t,q
位置（ｕ，ｖ）に関しては、第１実施形態の人物の観測方程式と同じ式（１）、（２）と同様である。また人物の観測方程式は、位置、スコアともに、第１実施形態と同様である。

予測部３００５は、以上のシステム方程式及び観測方程式を用い、第１実施形態と同様に状態の予測分布及び観測値の予測分布の１次、２次モーメントを、式（４）、（５）、（６）、（７）を用いて取得する。

予測処理後に処理部３２００は、ＩＤ対応付け部３００６により、時刻ｔにおいて各カメラで観測される人物の観測値と、３次元空間上の人物を対応付ける（Ｓ３００７）。ＩＤ対応付け部３００６は、予測した時刻ｔの人物の観測値予測分布と時刻ｔにおいて各カメラで観測される実際の観測値とに基づいて実際の観測値の尤度を算出し、尤度に基づいて３次元空間内の人物と観測値の対応付けを行う。ボールは、複数存在しないために、観測値と３次元空間上のボールとは、常に対応付いた状態である。そのためにボールの対応付けは不要である。この処理は、人物に関してのみ行われる。対応付けの具体的な処理は、第１実施形態と同様である。

予測処理後に処理部３２００は、隠蔽率予測部３００７により予測隠蔽率を算出する（Ｓ３００８）。隠蔽率予測部３００７は、前工程で予測された時刻ｔにおける複数人物の状態の予測分布に基づいて、時刻ｔにおいて所定の対象物が自分以外の対象物（人物又はボール）によってフレーム内で隠蔽される割合の予測を行う。

第１実施形態では、追尾の対象物として人物のみを用いたため、対象物間のサイズが概ね等しい。そのために隠蔽率予測部３００７は、前後関係と観測値の予測分布の類似度のみを考慮すれば隠蔽をモデル化できた。本実施形態では、ボールと人物とのサイズの違いを考慮しなければ、適切な定量化が行えない。本実施形態の対象物である人物とボールとはサイズが大きく異なるため、隠蔽率予測部３００７は、そのサイズの違いを考慮した定量化を行う。隠蔽率予測部３００７は、第１実施形態の予測隠蔽率ｐ^occ _t,k,nの式にサイズの項を追加した、下式を用いて定量化を行う。

scale（ｎ）は、ＩＤがｎのオブジェクト（対象物）のサイズ（面積）を返す式である。スケール（scale（ｎ））の値に正確性は必要なく、人物やボールに関する類型的なサイズであればよい。例えば、スケールは、人物であれば１．７５（ｍ）×０．５０（ｍ）程度の値であり、ボールであれば０．３（ｍ）×０．３（ｍ）程度の値である。

図１０（ｂ）のフレーム８１１の例では、人物８１２はカメラ８０６から見てボール８１４の背後に位置し且つピクセル座標上の位置が近い。そのために、第１実施形態で説明した方法による予測隠蔽率は「１」に近い値になる。しかしフレーム８１１に示すように、実際には人物８１２の大部分が隠蔽されていない。本実施形態で説明した数１４の式では、隠蔽された対象物（人物８１２）が隠蔽した対象物（ボール８１４）より大きい場合、そのサイズの割合ｓ（ｎ，ｍ）を用いて、隠蔽率が調整される。

人物とボールに関するサイズの数値例ではｓ（ｎ，ｍ）≒０．１である。第１実施形態の予測隠蔽率が「１」の場合でも、本実施形態の方法では、人物８１２のボール８１４による予測隠蔽率はｐ^occ _t,k,n≒０．１となる。このように、サイズの違いによって隠蔽があまり発生しない場合を考慮した予測隠蔽率の定量化が可能になる。このような予測隠蔽率の定量化は、隠蔽が発生していない観測値を有効に利用できることになるため、対象物の状態（位置、速度等）の推定精度の向上に寄与する。

隠蔽率予測後に、処理部３２００は、更新部３００８により人物及びボールの状態を更新する（Ｓ３００９）。更新部３００８は、Ｓ３００７の処理で対応づいた観測値、Ｓ３００２及びＳ３００３の処理で取得した人物及びボールのスコア、及びＳ３００８の処理で予測した隠蔽率に基づいて、人物及びボールの状態を更新する。更新部３００８は、時刻ｔの観測値を用いて状態変数の予測分布を更新し、フィルタ分布（事後分布）を取得する。更新部３００８は、人物とボールのそれぞれの状態変数の予測分布に関し、各々の複数視点の観測値を統合し、状態変数の更新を実行する。これは第１実施形態に記載した方法で実行可能である。

状態の更新後に処理部３２００は、可視化部３００９により、更新した人物及びボールの状態を可視化する（Ｓ３０１０）。可視化部３００９は、推定された３次元空間内の位置と推定位置の時系列の可視化を行う。可視化部３００９は、可視化した結果をモニタリング部３３００に表示させる。ユーザは、モニタリング部１３００により表示結果を閲覧することができる。
処理部３２００は、引き続き次のフレームの処理を行う場合には、Ｓ３００１以降の処理を繰り返し実行する（Ｓ３０１１：Y、Ｓ３００１）。処理を終了する場合、処理部３２００は、この処理を終了する（Ｓ３０１１：N）。

以上のような第３実施形態の３次元追尾装置３０００は、第１実施形態と同様の効果に加え、ボールと人物のような異なる種類の複数の対象物の互いの隠蔽による影響を軽減することができる。また、３次元追尾装置３０００は、対象物のサイズの違いにより隠蔽があまり発生しない場合の観測値を有効に活用し、ボールと人物の３次元空間内の位置と軌跡の推定を高精度に行うことができる。

（第４実施形態）
マルチカメラによる撮影システムがローカルエリアネットワーク等を介して接続したネットワークカメラで構成される場合、ネットワーク経路のトラフィックの一時的増大や中継機器のパフォーマンス低下等が起こることがある。これは、１０フレームから３０フレーム程度の大規模なコマ落ちが発生する原因となる。上述の各実施形態では、各カメラから取得するフレームの完全同期を仮定せず、また２、３コマ程度のコマ落ちを吸収できる観測過程のモデル化を行っている。しかし、数１０フレームのコマ落ちは精度劣化を招く可能性がある。

サーバによりストリームとして取得されるフレームを常にバッファリングして用いることで、長時間のコマ落ちをフレーム間差分等の簡単な演算で定量化することが可能である。第１実施形態は、対象物の隠蔽が発生したカメラの観測値の寄与を低減させる更新方法を示す。コマ落ちの評価値を予測隠蔽率と同様の枠組みで扱い、コマ落ちが発生したカメラの観測値の寄与を低減させることで、大規模なコマ落ち発生時の精度劣化を軽減させることが可能である。
また、第１実施形態は、３次元空間内の対象物の動きの予測に基づいて追尾を行う、３次元ベースのトラッキングを示す。トラッキングは、フレーム間の画像特徴量の位置の変化等を追跡して行う２次元ベースの方法が一般的である。第１実施形態で示したＩＤ対応付けの際に、画像特徴量ベースのトラッキングの結果を組み込み、２次元ベースと３次元ベースのトラッキングを統合することで、より高精度な追尾が実現できる可能性がある。

本実施形態は、フレーム間差分の変化によるコマ落ちの評価値を更新時に用いる方法と、ＩＤ対応付けに画像特徴量ベースのトラッキングを組み込む方法と、によりマルチカメラによる対象物の位置及び軌跡を推定する。このような処理により、大規模なコマ落ちに頑強で追尾性能のよい対象物の位置及び軌跡の推定が可能になる。

図１３は、本実施形態の３次元追尾装置の機能ブロック図である。本実施形態の３次元追尾装置４０００は、図１１に示す第３実施形態の３次元追尾装置３０００に２Ｄトラッキング部４０１２及びコマ落ち判定部４０１３を追加した構成である。その他の各機能構成に関しては、第３実施形態の３次元追尾装置３０００の同名の機能構成と同じ機能を有する。図１４は、３次元追尾装置４０００による対象物（人物）の認識処理を表すフローチャートである。

処理部４２００は、第３実施形態のＳ３００１〜Ｓ３００６と同様の処理により、時刻ｔの状態の人体及びボールの確率分布を予測する（Ｓ４００１〜Ｓ４００６）。予測処理後に処理部４２００は、２Ｄトラッキング部４０１２により、オプティカルフローを用いた画像特徴ベースのトラッキングを行う（Ｓ４００７）。２Ｄトラッキング部４０１２は、前フレームのＩＤが対応付けられた物体検出結果のバウンディングボックスと、現フレームのバウンディングボックスとの対応を、オプティカルフローを用いて定量化し、フロー割合を取得する。

２Ｄトラッキング部４０１２は、まず、時刻ｔ−１におけるフレームと現時刻ｔにおけるフレームとの間で、例えばLucas-Kanade法でオプティカルフローを算出する。オプティカルフローは、領域毎の動きの大きさと向きを表す。２Ｄトラッキング部４０１２は、オプティカルフローを用いることで、前フレームと現フレームのバウンディングボックスの対応関係を定量化することができる。

２Ｄトラッキング部４０１２は、既に得られている人物ＩＤに対応付いた時刻ｔ−１における観測値ｙ_t-1,k,nのバウンディングボックス内のフローが、時刻ｔ−１におけるＩＤが対応付いたどのバウンディングボックスに由来するかの割合を求める。２Ｄトラッキング部４０１２は、これをフロー割合ｐ^flow _t,(kj,n)とする。フロー割合ｐ^flow _t,(kj,n)が大きいほど、該バウンディングボックスが前フレームのオブジェクトｎのバウンディングボックスに対応している割合が高い。フロー割合ｐ^flow _t,(kj,n)の添え字は、時刻ｔにおけるカメラｋのフレームに人体検出器３００３を適用した際のｊ番目の検出結果の、ＩＤがｎの人物に由来するフロー割合を意味する。例えば、所定の時点の１番目のバウンディングボックス内のフロー総数が１００であり、人物ＩＤがｎ＝２のバウンディングボックスから６０、人物ＩＤがｎ＝３のバウンディングボックスから２０、バウンディングボックス外から２０の流入があるとする。この場合、ｐ^flow _t,(k1,２)＝０．７５、ｐ^flow _t,(k1,３)＝０．２５となる。

トラッキング後に処理部４２００は、ＩＤ対応付け部４００６により、第３実施形態と同様に観測値の予測分布を用いて計算した現フレームでの観測値の尤度に加え、前工程で定量化したフロー割合に基づいた対応付けを行う（Ｓ４００８）。ＩＤ対応付け部４００６は、尤度に関しては、第１実施形態と同様に現時刻の観測値とのマハラノビス距離を求める。ＩＤ対応付け部４００６は、（−ｌn（ｐ^flow _t,(kj,ｎ)））^1/2を、各対象間のマハラノビス距離に足し、ハンガリアン法で尤度及びフロー割合の和を最大にする割り当てを求める。これにより、３次元ベースのトラッキングと画像特徴を用いた２次元ベースのトラッキングが統合される。

対応付け後に処理部４２００は、コマ落ち判定部４０１３により、フレーム間差分の変化量をコマ落ち評価値として取得する（Ｓ４００９）。所定のカメラでコマ落ちが発生した場合、処理部４２００は、事前にバッファリングされたコマ落ち前のフレームを取得する。本実施形態では、現時刻フレームと前の時刻のフレームの一致状態に応じた、コマ落ち評価値ｐ^jump _t,kを用いる。前後のフレームが一致している場合、コマ落ち判定部４０１３は、コマ落ちしていると判定して、コマ落ち評価値ｐ^jump _t,k＝１とする。前後のフレームが一致していない場合、コマ落ち判定部４０１３は、コマ落ちしていないと判定して、コマ落ち評価値ｐ^jump _t,k＝０とする。コマ落ち評価値ｐ^jump _t,kは、時刻ｔのカメラｋにおけるコマ落ち評価値である。一般に、固定カメラで取得される所定時刻のフレームとその前の時刻のフレームとでは、被写体に動きがない場合でもノイズ等の影響でフレーム内の輝度値に差異が生じる。そのため、両フレームが一致する場合は、コマ落ちと判定できる。またストリームで取得できるフレームの中にメタ情報としてコマ落ち発生有無の判定に活用できる情報が埋め込まれている場合、コマ落ち判定部４０１３は、その情報を用いてコマ落ちを判定してもよい。

コマ落ち評価後に処理部４２００は、第３実施形態のＳ３００８と同様の処理により、隠蔽率の予測を行う（Ｓ４０１０）。隠蔽率の予測後に処理部４２００は、更新部４００８により、人物及びボールの状態（位置、速度等）を更新する（Ｓ４０１１）。更新部４００８は、ＩＤが対応付いた観測値、Ｓ４００２、Ｓ４００３の処理で取得した人物及びボールのスコア、Ｓ４０１０の処理で予測した隠蔽率、及びＳ４００９の処理で取得したコマ落ち評価値を用いてこの処理を行う。

更新部４００８は、時刻ｔの観測値を用いて状態変数の予測分布を更新し、フィルタ分布を取得する。コマ落ち評価値ｐ^jump _t,kが「１」の場合、更新部４００８は、該カメラｋの観測値を更新に用いないようにすることで、コマ落ち発生の影響を軽減させたフィルタ分布を取得可能である。コマ落ち評価値ｐ^jump _t,kが［０，１］に正規化された発生確率として得られる場合、更新部４００８は、人体検出器スコアｑt,k,n、予測隠蔽率ｐ^occ _t,k,nに加え、コマ落ち評価値（発生確率）ｐ^jump _t,kを用いる。更新部４００８は、コマ落ち発生の可能性が高いフレームの観測値の更新への影響を軽減させ、複数の観測値の統合を行う。具体的には、第１実施形態のＳ１００８の処理の方針１の方法で複数の観測値の統合を行う場合、尤度関数ｐ（ｙ_t,kj｜ｘ_t,n）の２次モーメントを（ｑ_t,kn・（１−ｐ^occ _t,k,n）・（１−ｐ^jump _t,k）^-1・Ｒtとする。方針２の方法では、統合時の混合比を、以下の式とする。

処理部４２００は、人物及びボールの状態更新が終了すると、第３実施形態のＳ３０１０と同様の処理により、更新した人物及びボールの状態を可視化するための処理を実行し、その処理結果をモニタリング部３３００に表示する（Ｓ４０１２）。この処理は、実施形態２の可視化ステップＳ３０１０と同様の処理であるため、詳細な説明は省略する。処理部４２００は、引き続き次のフレームの処理を行う場合には、Ｓ４００１以降の処理を繰り返し実行する（Ｓ４０１３：Y、Ｓ４００１）。処理を終了する場合、処理部４２００は、この処理を終了する（Ｓ４０１３：N）。

以上の変更を加え、第１実施形態の更新処理（図３のＳ１００８）と同様に更新を行うことで、コマ落ちが発生したフレームの観測値を更新に反映させないように複数の観測値の統合を行うことができる。

以上のような第４実施形態の３次元追尾装置４０００は、第１実施形態と同様の効果に加え、ボールと人物のような異なる種類の複数の対象物の互いの隠蔽による影響を軽減することができる。また、３次元追尾装置４０００は、３次元ベースのトラッキングと画像特徴ベースのトラッキングを統合したより良い追尾性能が可能である。さらに３次元追尾装置４０００は、大規模なコマ落ちに頑強な３次元位置推定を行うことができる。

本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

Claims

複数の撮像手段から取得する画像から複数の対象物を検出する検出手段と、
所定の時刻の前記対象物の状態及び認証ラベルを把握する状態取得手段と、
前記所定の時刻より前の時刻の前記対象物の状態から前記所定の時刻の該対象物の状態を予測する予測手段と、
異なる時刻に取得された２つの画像のそれぞれの前記対象物の認証ラベルを対応付ける対応付け手段と、
前記所定の時刻より前の時刻の画像に対する前記検出手段の検出結果、前記予測手段による予測結果、及び前記対応付け手段の対応付け結果に基づいて、前記対象物の状態を更新する更新手段と、を備えることを特徴とする、
情報処理装置。
前記対象物の状態は、該対象物の３次元空間内の位置及び向きの少なくとも一方であることを特徴とする、
請求項１に記載の情報処理装置。
前記対応付け手段は、３次元空間内に存在する複数の対象物のそれぞれに、前記認証ラベルとして重複しない認証ラベルを対応付けることを特徴とする、
請求項１又は２に記載の情報処理装置。
前記検出手段は、前記画像における対象物の位置及び対象物らしさを表すスコアの少なくとも一方を出力することを特徴とする、
請求項１〜３のいずれか１項に記載の情報処理装置。
前記予測手段は、前記対象物の状態を確率分布として予測することを特徴とする、
請求項１〜４のいずれか１項に記載の情報処理装置。
前記予測手段は、第１の時刻で取得した画像の対象物の状態から、前記第１の時刻より後の第２の時刻の画像に対する前記検出手段の出力を予測することを特徴とする、
請求項１〜５のいずれか１項に記載の情報処理装置。
前記予測手段は、前記第１の時刻の対象物の状態から前記第２の時刻の画像に対する前記検出手段の出力を確率分布として予測することを特徴とする、
請求項６に記載の情報処理装置。
前記予測手段によって予測した対象物の状態と、前記対応付け手段によって対応付けた結果とから、異なる時刻に取得された前記２つの画像の後の画像で発生する前記対象物の隠蔽を予測する隠蔽率予測手段をさらに備えることを特徴とする、
請求項１〜７のいずれか１項に記載の情報処理装置。
前記隠蔽率予測手段は、前記複数の対象物のそれぞれが、前記２つの画像の後の画像で前記対象物が隠蔽される割合を、前記複数の撮像手段の位置に対する前記複数の対象物の３次元空間内の前後関係及び前記対応付け手段による前記複数の対象物の類似度によって定量化した予測隠蔽率を生成することを特徴とする、
請求項８に記載の情報処理装置。
前記更新手段は、第２の時刻の画像に対する前記検出手段の検出結果と、前記予測手段の予測結果と、前記対応付け手段の対応付け結果と、前記隠蔽率予測手段で取得した予測隠蔽率と、を用いて前記第２の時刻の対象物の状態を更新することを特徴とする、
請求項９に記載の情報処理装置。
前記更新手段は、前記対応付け手段で対応付けた第２の時刻の画像に対する前記検出手段の検出結果を用いて前記予測手段の予測結果を前記隠蔽率予測手段によって取得した予測隠蔽率に基づいて調整し、隠蔽された対象物が隠蔽した対象物より大きい場合に、前記予測隠蔽率を調整することを特徴とする、
請求項９又は１０に記載の情報処理装置。
前記更新手段は、前記対応付け手段で対応付けた前記第２の時刻の画像に対する前記検出手段の検出結果の数に応じて、前記検出手段の出力を予測する確率分布を統合することを特徴とする、
請求項６に記載の情報処理装置。
前記更新手段は、前記対応付け手段で対応付けた前記第２の時刻の画像に対する前記検出手段の検出結果の数に応じて、前記検出手段の出力を予測する確率分布を正規化して統合することを特徴とする、
請求項１２に記載の情報処理装置。
前記対応付け手段が有する前記確率分布は、前記２つの画像の後の画像に対する前記検出手段の出力を取得すると、前記対象物の前記検出手段の出力の尤もらしさを定量化することを特徴とする、
請求項７に記載の情報処理装置。
前記対応付け手段は、前記対象物の前記検出手段の出力の尤もらしさの値に応じて、認証ラベルを前記対象物と対応付けることを特徴とする、
請求項１４に記載の情報処理装置。
前記更新手段によって更新された複数の対象物の状態を可視化する可視化手段をさらに備えることを特徴とする、
請求項１〜１５のいずれか１項に記載の情報処理装置。
３次元空間内の複数の対象物の位置を推定し、前記認証ラベルに基づいて３次元空間内で追尾することを特徴とする、
請求項１〜１６のいずれか１項に記載の情報処理装置。
前記画像の中から前記対象物とは別の第２の対象物を検出する第２検出手段をさらに備えることを特徴とする、
請求項１〜１７のいずれか１項に記載の情報処理装置。
前記第２検出手段は、前記対象物と前記第２の対象物をそれぞれの特徴により識別することを特徴とする、
請求項１８に記載の情報処理装置。
前記隠蔽率予測手段は、前記複数の対象物のそれぞれが、前記２つの画像の後の画像で隠蔽される割合を、前記複数の撮像手段に対する前記複数の対象物の３次元空間内の前後関係と、前記対応付け手段による前記複数の対象物の類似度と、前記対象物と該対象物とは別の対象物との前後関係に基づいて定量化した予測隠蔽率を生成することを特徴とする、
請求項８〜１１に記載の情報処理装置。
第１の時刻の画像と第２の時刻の画像との画像の領域毎の動きを検出し、検出した動きと、前記第１の時刻の画像と前記第２の時刻の画像での前記検出手段の出力とにより、前記第１の時刻の画像に対する前記検出手段の出力と前記第２の時刻の画像に対する前記検出手段の出力の対応関係を定量化するトラッキング手段をさらに備えることを特徴とする、
請求項１〜２０のいずれか１項に記載の情報処理装置。
前記対応付け手段は、前記対象物の尤もらしさの評価値と、前記トラッキング手段が出力する前記第１の時刻の画像に対する前記検出手段の出力と前記第２の時刻の画像に対する前記検出手段の出力の対応関係とにより、前記複数の対象物と前記第２の時刻の画像に対する前記検出手段の出力の対応付けを行うことを特徴とする、
請求項２１に記載の情報処理装置。
前記検出手段は、前記撮像手段から連続して画像を取得しており、
連続した画像の一致状態に応じてコマ落ちを判定するコマ落ち判定手段をさらに備え、
コマ落ち判定手段がコマ落ちを判定した場合に、コマ落ちが発生した撮像手段から取得した画像に対する前記検出手段の検出結果を、前記更新手段が用いないようにすることを特徴とする、
請求項１〜２２のいずれか１項に記載の情報処理装置。
複数の撮像装置に接続される情報処理装置により実行される方法であって、
前記複数の撮像装置から取得する画像の中から複数の対象物を検出するステップと、
所定の時刻の前記の対象物の状態と認証ラベルを把握するステップと、
前記所定の時刻より前の時刻の対象物の状態から前記所定の時刻の対象物の状態を予測するステップと、
異なる時刻に取得した２つの画像でそれぞれの前記対象物の認証ラベルを対応付けるステップと
前記所定の時刻より前の時刻の画像に対する対象物の検出結果、前記対象物の状態の予測結果、及び認証ラベルの対応付け結果に基づいて、前記対象物の状態を更新するステップと、を含むことを特徴とする、
３次元位置推定方法。
複数の撮像装置に接続されるコンピュータを、
前記複数の撮像装置から取得する画像から複数の対象物を検出する検出手段、
所定の時刻の前記対象物の状態及び認証ラベルを把握する状態取得手段、
前記所定の時刻より前の時刻の前記対象物の状態から前記所定の時刻の該対象物の状態を予測する予測手段、
異なる時刻に取得された２つの画像のそれぞれの前記対象物の認証ラベルを対応付ける対応付け手段、
前記所定の時刻より前の時刻の画像に対する前記検出手段の検出結果、前記予測手段による予測結果、及び前記対応付け手段の対応付け結果に基づいて、前記対象物の状態を更新する更新手段、
として機能させるためのコンピュータプログラム。
請求項２５に記載のコンピュータプログラムを記憶する、コンピュータにより読み取り可能な記憶媒体。