JP2019121019A - 情報処理装置、3次元位置推定方法、コンピュータプログラム、及び記憶媒体 - Google Patents

情報処理装置、3次元位置推定方法、コンピュータプログラム、及び記憶媒体 Download PDF

Info

Publication number
JP2019121019A
JP2019121019A JP2017253578A JP2017253578A JP2019121019A JP 2019121019 A JP2019121019 A JP 2019121019A JP 2017253578 A JP2017253578 A JP 2017253578A JP 2017253578 A JP2017253578 A JP 2017253578A JP 2019121019 A JP2019121019 A JP 2019121019A
Authority
JP
Japan
Prior art keywords
time
information processing
image
state
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017253578A
Other languages
English (en)
Inventor
敬正 角田
Norimasa Kadota
敬正 角田
克彦 森
Katsuhiko Mori
克彦 森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2017253578A priority Critical patent/JP2019121019A/ja
Publication of JP2019121019A publication Critical patent/JP2019121019A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Length Measuring Devices By Optical Means (AREA)
  • Image Analysis (AREA)

Abstract

【課題】複数のカメラで撮像される複数の対象物が存在する空間において、高速・高精度に複数の対象物の3次元位置及び軌跡の推定を実現する情報処理装置を提供する。【解決手段】情報処理装置100は、複数のカメラ102〜111で撮像される複数の対象物が存在する3次元空間において、複数の対象物の配置予測と次フレームの対象物の予測に基づいて、隠蔽を予測・定量化する。これにより情報処理装置100は、対象物の隠蔽の影響を軽減し複数の対象物の3次元位置及び軌跡を推定する。【選択図】図1

Description

本発明は、動画中の対象物(物体)を追尾する技術に関する。特に、複数のカメラを用いて複数の対象物を含む3次元空間を撮像し、各対象物を追尾して3次元空間内における当該対象物の位置を推定する技術に関する。
複数の固定されたカメラで撮影された3次元空間内における物体等の対象物の位置を推定する技術がある。このような技術の多くは、各カメラで撮像された時間的に連続する複数の画像(以下、「フレーム」という。)における対象物の同一性を判定し、3次元空間内の該対象物の軌跡を推定することができる。
特許文献1には、サッカー場等のフィールドを真上から見下ろした俯瞰平面上に多数の粒子を配置し、俯瞰平面上の人物の動きのモデルから次の位置を予測する技術が開示される。この技術では、予測した粒子をカメラのフレーム上に射影して、フレームの前景らしい領域に再配置するパーティクルフィルタにより、平面上の複数の人物の軌跡を推定する。特許文献2には、3次元空間内の人物の位置と顔向きを状態変数として扱い、人物の顔向きの状態に好適な識別器を用いて粒子の再配置を行うパーティクルフィルタにより、人物の軌跡の推定を行う技術が開示される。
非特許文献1には、予め3次元空間内の複数の人物の位置を推定し、各位置をフレーム上に射影し、フレーム上の人物の軌跡をカルマンフィルタで追跡する技術が開示される。その際、予め推定した3次元空間内の各人物の位置からフレーム上で隠蔽が起きている領域が特定される。フレーム上での追跡の際、隠蔽されている領域の画像特徴を用いないようにすることで、隠蔽に頑健な追尾が実現される。非特許文献2には、3次元空間内の複数物体の追跡を行う技術が開示される。この技術では、生成、分裂、消滅を伴う物体の動きの時間発展と誤検出(過検出、未検出)を伴う観測過程を、有限ランダム集合を用いた状態空間モデルでモデル化する。モデル化後に、確率仮説密度(PHD:Probability Hypothsis Density)フィルタを用いる。有限ランダム集合を用いたモデル化により、複数の対象の数の変化や観測値の誤検出に頑健な3次元空間内における追尾が可能となる。
特許2013−058132号公報 特開2008−26974号公報
Michalis Zervos,"Real timemulti-object tracking using multiple cameras",EPFL,2012 PHAM NAM TRUNG,"TRACKING OF MULTIPLE OBJECTS USING THE PHDFILTER",PH.D THESES,Chapter 6,2007 「Shaoqing Ren,Kaiming He,Ross Girshick, and Jian Sum,"Faster R-CNN:Towards Real-Time Object Detection with RegionProposal Networks",NIPS 2015」
複数のカメラを用いて複数の対象物の3次元空間内の位置を推定して追尾する場合、カメラ視点で生じる複数の対象物同士の重なりによる隠蔽が問題になる。対象物の隠蔽は、フレーム間の対象物の対応付けに影響を与え、追尾の失敗の原因となる。
特許文献1、2では、3次元空間中内の対象物を射影したカメラフレーム上の位置の対象物らしさで位置推定の補正を行う。そのために、ある瞬間、対象物が別の類似の対象物によって隠蔽された場合、軌跡が入れ替わり、追尾が失敗する可能性がある。
非特許文献1では、POM(Probabilistic Occupancy Map)という技術を用いて、事前に複数物体の3次元位置を推定する。隠蔽が生じる場合、隠蔽された領域の画像特徴を用いないようにすることで、複数物体同士の隠蔽の影響を軽減する。POMでは、3次元空間の俯瞰平面上にグリッドを設定し、各升目の対象物による占有の有無を条件付き確率場でモデル化し、さらに隠れマルコフモデルによって時間発展をモデル化している。POMでは、1フレーム毎に各グラフィカルモデルを個別に最適化計算して推定している。条件付き確率場では、隠蔽の発生を明確に定量化して隠蔽の影響を軽減する工夫がないため、特許文献1、2同様の問題を抱える。また、POMは計算コストが高いため、リアルタイム動作が要求されるアプリケーションには不向きである。非特許文献2では、生成・分裂・消滅を伴う複数の対象物とそれに対応する誤検出する観測値を有限ランダム集合として扱い、誤検出に頑健な複数対象追尾を実現している。しかし、隠蔽が発生した場合を対象物の消滅及び生成と区別しないため、軌跡の入れ替わりが発生する。
本発明は、このような従来の問題を解決するため、複数のカメラで撮像される複数の対象物が存在する空間において、高速・高精度に複数の対象物の3次元位置及び軌跡の推定を実現する情報処理装置を提供することを主たる目的とする。
本発明の情報処理装置は、複数の撮像手段から取得する画像から複数の対象物を検出する検出手段と、所定の時刻の前記対象物の状態及び認証ラベルを把握する状態取得手段と、前記所定の時刻より前の時刻の前記対象物の状態から前記所定の時刻の該対象物の状態を予測する予測手段と、異なる時刻に取得された2つの画像のそれぞれの前記対象物の認証ラベルを対応付ける対応付け手段と、前記所定の時刻より前の時刻の画像に対する前記検出手段の検出結果、前記予測手段による予測結果、及び前記対応付け手段の対応付け結果に基づいて、前記対象物の状態を更新する更新手段と、を備えることを特徴とする。
本発明によれば、複数のカメラで撮像される複数の対象物が存在する空間において、高速・高精度に複数の対象物の3次元位置及び軌跡の推定を実現することができる。
(a)〜(d)は、撮影システムの説明図。 3次元追尾装置の機能ブロック図。 対象物の認識処理を表すフローチャート。 (a)、(b)は、検出範囲の説明図。 (a)、(b)は、観測値の説明図。 観測値の重複数の変動の説明図 コスト行列の説明図。 3次元追尾装置の機能ブロック図。 対象物の認識処理を表すフローチャート。 (a)、(b)は、観測値の説明図。 3次元追尾装置の機能ブロック図。 対象物の認識処理を表すフローチャート。 3次元追尾装置の機能ブロック図。 対象物の認識処理を表すフローチャート。
以下、図面を参照して、実施形態を詳細に説明する。本実施形態では、競技場や大広間などの空間の周囲に複数台のカメラを配置した撮影システムを用いて、対象物である複数の人物を撮影し、各人物の3次元空間内の軌跡を追尾する場合について説明する。
(第1実施形態)
図1は、本実施形態の撮影システムの説明図である。撮影システムは、複数台のカメラ及び各カメラから映像を取得する情報処理装置を備える。図1(a)は、カメラの配置を例示する。複数のカメラ102〜111は、空間101を撮影可能な位置に配置され、有線又は無線により情報処理装置100に接続される。空間101内の位置は、原点112と3次元座標(世界座標)のX軸113、Y軸114、Z軸115とで表される。X軸113とY軸114とがなす平面が地面、Z軸115が高さ方向を表す。各カメラ102〜111は、地面から所定の高さの空間壁面部分に固定される。各カメラ102〜111は、レンズ及びイメージセンサが撮影エリアの地面上に存在するオブジェクト(対象物)を撮影する。各カメラ102〜111は、公知の技術によってキャリブレーションされている。
図1(b)は、空間101内に存在する人物の所定時刻の配置例を例示する。空間121は、複数のカメラ102〜111により撮影される空間101である。空間101内にオブジェクトである人物122、123、124が存在する。図1(c)は、カメラ104で、人物122、123、124を撮影した場合の1フレーム131を例示する。フレーム131内の人物132、133、134は、空間121内の人物122、123、124にそれぞれ対応する。フレーム131の座標系は、原点135、u軸136、v軸137のピクセル座標系及び適宜正規化した座標系により表される。図1(d)は、カメラ102で、人物122、123、124を撮影した場合の1フレーム141を例示する。フレーム141内の人物142、143は、空間121の人物122、123にそれぞれ対応する。フレーム141の座標系は、原点145、u軸146、v軸147により表される。図1(c)、1(d)に例示するフレーム131、141は、カメラ102、104以外のカメラでも撮影された画像でもよい。
図2は、図1の撮影システムによる3次元追尾装置の機能ブロック図である。3次元追尾装置1000は、撮影部1100、処理部1200、及びモニタリング部1300として機能する。撮影部1100は、K台の動画取得部(第1動画取得部1001〜第K動画取得部1002)を有する。第1動画取得部1001〜第K動画取得部1002は、図1(a)の例では、各カメラ102〜111により実現される。処理部1200は、情報処理装置100により実現される。情報処理装置100は、例えばCPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)を備えるコンピュータシステムである。情報処理装置100は、CPUがROMに格納されるコンピュータプログラムを、RAMを作業領域に用いて実行することで、処理部1200の各機能ブロックとして機能する。処理部1200は、人体検出器1003、初期状態取得部1004、予測部1005、認証ラベル(以下、「ID」と略記)対応付け部1006、隠蔽率予測部1007、更新部1008、及び可視化部1009を有する。モニタリング部1300は、例えばディスプレイにより実現される。
図3は、3次元追尾装置1000による対象物(人物)の認識処理を表すフローチャートである。図2の機能ブロックによる処理を、図3のフローチャートを用いて詳細に説明する。
撮影部1100は、第1動画取得部1001〜第K動画取得部1002により、所定の時刻のフレーム(静止画)を取得する(S1001)。撮影部1100は、各動画取得部により、K枚のフレームを取得する。撮影部1100は、K台のカメラのそれぞれから現時刻のフレームを取得する。撮影部1100は、K台のカメラのそれぞれから連続してフレームを取得することで、動画を取得する。
カメラは、例えば解像度Full HD(1920×1080ピクセル)、秒間30フレームの動画を撮影可能な撮像装置である。なお、カメラは、数10ミリ秒おきにフレームを取得する、或いは、より低速な秒間で撮影する等の、異なる条件でフレームを取得する撮像装置であっても、数倍程度の差異であれば、本実施形態に用いることができる。K台のカメラのシャッターは、トリガーパルス、同期信号等の電気信号によって同期して動作してもよく、カメラ内部のマイクロコントローラのクロックによって自律的な周期で動作してもよい。
撮影部1100と処理部1200とは、有線又は無線によるローカルエリアネットワーク等の通信経路を介して接続される。撮影部1100は、取得したK枚のフレームを処理部1200へ送信する。処理部1200が受信したフレームは、ネットワーク経路に存在するスイッチングハブ等の中継部のパフォーマンスや帯域の制限等で、コマ落ちが発生する可能性がある。本実施形態では、非同期、コマ落ち発生等の特徴を有するフレームを想定する。フレームは常にバッファリングされる。処理部1200は、コマ落ちが発生した場合、その時刻で取得されるフレームを前時刻と同じフレームとする。同期され、コマ落ちが発生しないフレームを用いる場合であっても、本実施形態が実現する機能は損なわれない。
以上の説明では、処理部1200は、撮影部1100が撮影したフレームを、本工程で説明したようにオンラインで取得する。この他に処理部1200は、一旦外部記憶装置に記憶されたフレームを取得する構成であってもよい。この場合、撮影部1100は、外部記憶装置にフレームを随時書き込む。処理部1200は、外部記憶装置が所定のフレームを読み出す。処理部1200は、取得したフレームを用いて以下の処理を行う。
処理部1200は、人体検出器1003により、取得したフレームに含まれる対象物である人物の位置及びスコア少なくとも一方を検出する(S1002)。人体検出器1003は、フレーム内に複数の人物が含まれる場合に、基本的にはその人数に対応した複数の位置及びスコアの少なくとも一方を検出する。
人体検出器1003は、例えばテクスチャ等の画像特徴に基づいてフレーム内の人体の有無を判別する。人体検出器1003は、畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)を用いた画像認識技術によりフレーム内の人体の検出を行う。CNNを用いた画像認識技術により、高速且つ高精度に複数の画像認識処理を同時実行することができる。非特許文献3では、物体候補領域を推定する層を物体認識用CNNに組み込み、物体候補領域の検出と複数カテゴリの分類の2つのタスクの認識処理を、17fps(frame per second)という動作速度で実現している。本実施形態では、このようなCNNによって実現される高速且つ高精度な人体検出器1003を利用する。
人体検出器1003は、検出した人体の位置及びスコアの少なくとも一方を出力する。ここで位置とは、画像上の正規化位置(u,v)である。スコア(以後、「q」とする)は、人体らしさを表す[0,1]の正規化された値である。スコアは、「1」に近いほど、位置(u,v)の物体が人体らしいことを意味する。人体検出器1003の出力は(u,v,q)で表され、以後これを「観測値」と呼ぶ。人体検出器1003は、非特許文献3のようにピクセル座標上の対象物(人体)のサイズに合わせたバウンディングボックスを出力するものでもよいが、本実施形態では、バウンディングボックスの中心位置を対象物の位置(u,v)として用いる。
一般に人体検出器1003は、対象物(人体)らしさを検出できる大きさに限界がある。すなわち対象物を検出できるカメラからの検出範囲に制限がある。図4は、検出範囲の説明図である。図4(a)は、人体検出器1003による検出器FOV(Field of View)を示す。検出器FOV400は、カメラ401の画角402と人体検出器1003の検出範囲403によって決まるFOV404を表す。簡単のため図4(a)、4(b)では、カメラ401の光学中心を含む平面でFOV404を表している。FOV404は、所定の検出範囲と角度を持つ扇形を成す。
図4(b)は、図1(a)の空間101に対してFOVを重畳した、FOV重複地図を示す。FOV重複地図410には、カメラ109のフレームを用いた人体検出器1003の扇形のFOV411と、それぞれ3次元空間中の地点a、bと、3次元の空間101中の領域414が含まれる。FOV重複地図410では、扇形の複数のFOVは重複し、領域毎の重複数が濃淡によって示されている。地点aは、カメラ109を含む3カメラのFOVが重複する領域にある。地点bは、5カメラのFOVが重複する領域にある。疎なカメラ配置であるために、FOV重複地図410には重複数が少ない領域も存在する。領域414は1台のカメラのFOVでしかカバーされない。FOV重複地図410を用いることで、人体検出器1003は、各々のカメラによる観測値の数(撮影される人物の数)を得ることができる。
図5は、1台のカメラのフレームと人体検出器1003によって得られる観測値の説明図である。図5(a)は、人物配置とFOVとの位置関係を示す図である。空間501内には、人物502、503、504が配置される。カメラ505で取得されたフレームに人体検出器1003を適用した場合のFOV506が扇型になる。この例では人物502、503が、FOV506の領域内に存在する。図5(b)は、カメラ505によって取得されるフレームと人体検出器1003の出力の一部を可視化した図である。カメラ505が取得するフレーム511には、人物512、513が含まれる。人物512が空間501の人物502に対応し、人物513が空間501の人物503に対応する。フレーム511は、人体検出器1003の出力の一部を可視化したバウンディングボックス514、515、516を含む。本実施形態で用いる人体検出器1003の出力は、バウンディングボックスの中心(u,v)、幅(h,w)、及びスコアqで表される。バウンディングボックス514、515、516は、(u,v,h,w)で表現される。バウンディングボックス514、515は、それぞれ人物512、513に対応する。バウンディングボックス516は人体に対応しない誤検出である。この例のように、人体検出器1003の出力には誤検出が存在する。認識対象物(人物)が存在するのに検出されない場合を「未検出」と呼ぶ。認識対象物(人物)が存在しないのに検出される場合を「過検出」と呼ぶ。図5(b)のバウンディングボックス516は過検出である。
以上の結果、空間101に存在する人物が、1つ又は複数の検出器で検出される。検出される人物の数は地点によって変動する。カメラパラメータ及び検出器のスペックによって、FOV重複地図410を得ることができるため、通常、人物が各地点でどのカメラ及び検出器によって検出されるかを事前に知ることができる。また、人物同士の重なりによる隠蔽の発生や検出器の未検出等により、人物がいずれの検出器からも検出されない状況も起こりうる。
処理部1200は、人体の検出後に、時刻tを確認する(S1003)。
処理部1200は、人体検出器1003の出力(u,v,q)を観測値、人物の3次元空間内の位置(x,y,z)、速度(x,y,z)、向き(φ,θ,ψ)の計9次元を状態変数、とする状態空間モデルを用いて、人物の3次元位置の推定及び追尾を行う。なお、状態変数は、位置及び向きの少なくとも一方を含む6次元であってもよい。本実施形態の処理部1200は、状態空間モデルから拡張カルマンフィルタによって対象物(人物)の状態推定及び人物IDの追尾を行う。
図4(b)で示したように、所定の対象物(人物)の観測値は、その位置でFOVが重複する数だけ取得できる。重複数は3次元空間内の各地点で変動する。図6はそのような観測値の重複数の変動の説明図である。ここでは、観測値が状態空間モデル600により説明される。状態空間モデル600は、時刻t=1、2、3、4における状態変数601、602、603、604、及び時刻t=1、2、3、4で観測される観測値605、606、607、608を示す。時刻t=1において観測値605は3つ観測される。t=2では観測値606の欠損が起こる。t=3では1つの観測値607が観測される。t=4では2つの観測値608が観測される。観測値の数は、基本的に検出される人物の位置によって決まり、また隠蔽、未検出、過検出等の要因で増減する。観測値yと状態変数xは、下記のように記述される。
添え字tは時刻を表す。kjはカメラkのフレーム内のj番目の観測値を表す。nはn番目の人物を表す。Tは転置を表す。人物に関する添え字nは、人物のIDと換言できる。さらに、後述するID対応づけを実行することで、nとkjの対応付けが行われ、yt,kjはyt,kn=[ut,kn,vt,kn,qt,knTに対応付けられる。yt,knは人物nのカメラkでの時刻tの観測値を意味する。
時刻t=0の場合(S1003:Y)、処理部1200は、初期状態取得部1004により初期状態を取得する。初期状態取得部1004は、人体検出器1003で検出したフレーム内の人体位置を3次元空間に射影し、3次元上の人体の初期状態を取得する。この処理の終了によって、初期状態取得部1004は、時刻t=1とする。
初期状態取得部1004は、具体的には、3次元空間中の人物122、123、124(図1(b)参照)の状態変数の初期値を取得する処理を行う。9次元の状態変数のうち、速度及び向きは初期値が全て「0」とされる。3次元空間の地面上の位置(x,y)の初期値は、下記の方法によって、複数の人物でそれぞれ異なる真の位置に近い値が付与される。この理由は、カメラ毎の複数の観測値と複数の人物の対応付けを処理の開始時点で同定する必要があるためである。高さ方向の位置zは、初期値に正確性が不要なため、「0」と仮定される。初期状態取得部1004は、後述する透視投影行列を用いて、カメラの観測値の位置(u,v)を3次元空間内の位置(x,y,0)へ射影し、所定のカメラで見た対象物の3次元空間内の位置を得る。初期状態取得部1004は、全てのカメラの検出器の観測値を3次元空間内に射影し、その上で3次元空間内の位置をクラスタリングし、各クラスタを人物の位置として扱うことで複数の観測値と複数の人物の対応付けを行う。クラスタの中心が状態変数の位置(x,y)の初期値となる。
この際、図4(b)に示すFOV重複地図410に基づいて、各クラスタには、地図に記されたカメラの観測値が含まれているように制約が課される。これは検出器の誤検出等で常には満たされないが、その場合、初期状態取得部1004は、数フレームこの検出、対応付けの処理を繰り返し行う。条件が満たされた場合、初期状態取得部1004は、それをクラスタの要素として採用し、当該フレームを初期フレームとする。
以上の結果、初期状態取得部1004は、状態変数の初期値x0,n=(x0,n,y0,n,0,0,0,0,0,0,0)を取得する。これを状態変数の初期のフィルタ分布(事後分布)の1次モーメント(平均)x0|0,nとして、2次モーメント(分散共分散行列)V0|0,nには適当な大きさの半正定値行列が設定される。
初期状態取得後、或いは時刻tが「0」ではない場合(S1003:N)、処理部1200は、予測部1005により、時刻tの状態の確率分布を予測する処理を行う。予測部1005は、現在の時刻t(t>=1)の直前の時刻t−1における人体の位置、速度等の状態に基づいて、時刻tの状態の確率分布を予測する。さらに予測部1005は、時刻tで取得されるべき観測値の確率分布を予測する。
予測部1005は、状態変数の予測分布を取得する際にる下記のシステム方程式を用いる。
Δtは、1ステップの時間幅(秒)を表す。stはプロセスノイズと呼ばれる白色ガウスノイズである。stの分散共分散行列をQtとする。このシステム方程式は、位置(x,y,z)に関し2次のマルコフ過程でモデル化した位置と、速度(x,y,z)のトレンド成分モデルとを扱う。向き(φ,θ,ψ)は1次のマルコフ過程としてモデル化されている。
予測部1005は、観測値の予測分布の取得に際して以下の観測方程式を用いる。3次元空間上の点は、予めキャリブレーションにより取得したカメラパラメータを用い、カメラのピクセル座標上に射影できる。この射影は下式で記述される。
ここで、pxx,kはカメラkの透視投影行列の各要素である。これらの要素はカメラキャリブレーションによって予め取得される。γは、同次座標系のパラメータである。この射影に基づいて、観測値の内の位置(u,v)の観測方程式は下式となる。
スコアqの観測方程式は下式となる。
Ckはカメラkの3次元空間上のカメラ位置を表す。||・||2はユークリッドノルムを表す。α0、α1、α2、α3、α4はモデルパラメータを表す。wtは観測ノイズと呼ばれる白色ガウスノイズである。θx、θy、θzは、カメラの外部パラメータの回転行列をR、人体の向き(φ,θ,ψ)から得られる回転行列をR0としたときの行列の要素を用いて、以下のように表現される。
上記の(1)、(2)式は、3次元空間内の位置(x,y,z)がピクセル座標(u,v)として観測される過程をモデル化した式である。本実施形態における複数カメラの撮影システムは、前述のとおり、非同期であり且つコマ落ちが発生する可能性がある。さらに物体検出器(人体検出器1003)の利用に伴う検出位置のずれ、カメラキャリブレーションの誤差に伴う位置ずれが発生する可能性がある。これらの要因により、3次元空間内の人物は、位置に誤差を含んで観測されると考えられる。(1)、(2)式はその誤差を観測ノイズとしてモデル化する。
(3)式は、観測値のスコアに関する観測過程をモデル化した重回帰モデルである。検出器は、一般に、撮像された対象物の大きさ及び向きに相関してスコアを変化させる。カメラで撮影した対象物の大きさは、通常、カメラからの距離に相関する。学習データの偏りが無ければ、一般に、対象物が大きい場合(カメラから近い場合)、テクスチャ等の画像特徴量がロバストに取得されて、スコアも高くなる。逆に対象物が小さい場合(カメラから遠い場合)、テクスチャが潰れて画像特徴量が安定して取得できず、スコアも低くなる傾向がある。特に対象物が人物の場合、カメラに対して正面を向いていると、目、鼻、口などの人物の識別に際して重要なパーツの見えが安定するため、スコアが高くなる傾向がある。逆にカメラに対して背面を向いている場合、識別の手掛かりとなるパーツが少なくなり、スコアが低くなる傾向がある。(3)式の第1項は、定数項である。第2項は、対象物のカメラからの距離とスコアとの関係を線形モデルでモデル化した項である。第3、第4、第5項は、カメラから見える人体の向きとスコアの関係をコサイン関数でモデル化した項である。第6項はノイズ項である。
(3)式のモデルパラメータα0、α1、α2、α3、α4の推定には、複数の方法がある。1つは、キャリブレーション済みのカメラで撮影した複数の人物の画像に、3次元空間内の向きの正解値を付与し、さらに人体検出器のスコアを得て、向きとスコアを持つ複数のサンプルを用い最小2乗法でパラメータ推定する方法である。もう1つは、後述する式(8)の尤度関数を用い、観測値に対するモデルの尤もらしさを定量化した尤度を算出し、多量の観測値から対数尤度を得て、グリッドサーチで対数尤度を最大化させるパラメータを探索する方法である。後者の方法は、人手による正解値の付与を必要としないため、効率的である。その他に、EM(Expectation-Maximization)法を用いた再帰的な探索方法や、モデルパラメータも状態空間に組み込んだ自己組織的なモデルとする方法等が存在する。いずれの方法を用いても、本実施形態で説明する機能は大きく損なわれない。
以上の式(1)、(2)、(3)をまとめ、以後、下記式(4)のように表現する。
t,kj=ht,k(xt,n)+wt (4)
ここで観測ノイズwtの分散共分散行列はRtである。式(4)より、尤度関数P(yt,kj|xt,n)が取得できる。以上の、システム方程式と観測方程式により、人物nの1時刻前(時刻t−1)の状態から現在(時刻t)の状態と現在の観測値を予測する式が下式である。
t|t-1,n=Ftt-1|t-1,n (5)
t|t-1,n=Ftt-1|t-1,nT t+GttT t (6)
t|t-1,k,n=Ht,kt|t-1,n (7)
t|t-1,k,n=Ht,kt|t-1,nT t,k+Rt (8)
t|t-1,nは状態変数の予測分布の1次モーメントを表す。Vt|t-1,nは2次モーメントを表す。yt|t-1,k,nは観測値の予測分布の1次モーメントを表す。Ut|t-1,k,nは2次モーメントを表す。Qtはプロセスノイズの分散共分散行列、Rは観測ノイズの分散共分散行列である。Ht,kは、ht,k(xt,n)のヤコビ行列である。以後簡単のため、1次及び2次モーメントを持つガウス分布に従う状態変数の予測分布を、Pxt,n|Yt-1と表現する。観測値の予測分布をPyt,k,n|Yt-1と表現する。Yt−1は、時刻t−1までの観測値の集合Yt-1 = {{{y1,1,1,y1,2,1,…,y1,K1,1},{y2,2,1,y2,2,1,…,y2,K1,1},…,{yt-1,1,1,yt-1,2,1,…,yt-1,K1,1}},…,{{y1,1,1,y1,2,1,…,y1,KN,N},{y2,2,1,y2,2,1,…,y2,KN,N},…,{yt-1,1,1,yt-1,2,1,…,yt-1,KN,N}}}である。yt,k,nは、人物IDがnの人物の、時刻t、カメラkにおける観測値である。Kは、人物nの3次元空間上の位置で重複するカメラ数である。
予測処理後に処理部1200は、ID対応付け部1006により、3次元空間内の複数の対象物(人体)のそれぞれに、重複しない番号である認証ラベル(ID)を対応付ける(S1006)。ID対応付け部1006は、予測部1005で予測した時刻tの観測値の予測分布と時刻tの実際の観測値とに基づいて、実際の観測値の尤度を算出する。ID対応付け部1006は、算出した尤度に基づいて3次元空間内の人体と観測値を対応付ける。
時刻tにおいて、カメラkのフレームから、誤検出を含んだJ個の観測値{yt,k1,yt,k2,…,yt,kj}が得られる。図5(b)の例では、1つの誤検出(過検出)を含む3個の観測値が得られている。式(7)、(8)により取得される観測値の予測分布の1次及び2次モーメントより、下記のガウス分布が記述できる。
kj.n=N(yt,kj;yt|t-1,k,n,Ut|t-1,k,n) (9)
この関数に観測値yt,kjを引数として与えることで、yt,kjの人物nの観測値としての尤度lkj,nが算出される。複数の観測値{yt,k1,yt,k2,…,yt,kj}にそれぞれ式(9)を適用し、尤度の高い観測値を人物nの観測値として対応付けることで、観測値と人物との対応付けが行われる。
対応付けでは、貪欲法に基づき複数の観測値の内の最大となる尤度の観測値を、所定の人物nの観測値として割り当ててもよいが、尤度の和が最大になる対応付けを線形計画法で算出してもよい。その場合、観測値と予測分布の1次及び2次モーメントで算出されるマハラノビス距離を用い、マハラノビス距離の和が最小となる対応付けをハンガリアン法で算出することで、尤度の和が最大になる割り当てが取得可能である。このとき人体検出器1003の未検出及び過検出によって、実際の観測値が本来フレーム内にあるはずの真の観測値の数と一致しない場合がある。真の観測値数とは、1つのカメラのFOV内に存在する人物の数と等しく、図5(b)の例では「2」である。
図7は、未検出及び過検出発生時のハンガリアン法で用いるコスト行列の説明図である。ここでは、3次元空間内にID1、2、3、4が割り振られた4人の人物がおり、カメラkではID2、3、4が割り振られた3人の人物が撮像される場合で説明する。図7(a)は、実際の観測値数と真の観測値数とが一致する場合にハンガリアン法で用いるコスト行列700を例示する。図7(b)は、実際の観測値数が真の観測値数より少ない場合(未検出発生)にハンガリアン法で用いるコスト行列710を例示する。図7(c)は、実際の観測値数が真の観測値数より多い場合(過検出発生)にハンガリアン法で用いるコスト行列720を例示する。
コスト行列700のP(yt,k,2|Yt-1)701、P(yt,k,3|Yt-1)702、P(yt,k,4|Yt-1)703は、それぞれIDがn=2、3、4の人物の観測値の予測分布ある。yt,k1704、yt,k2705、yt,k3706は、それぞれ時刻tにおけるカメラkの1、2、3番目の観測値である。表内の値707はマハラノビス距離である。マハラノビス距離を要素とする行列がコスト行列708である。実際の観測値数と真の観測値数とが一致するコスト行列700の場合、ID対応付け部1006は、当該コスト行列700に基づきハンガリアン法を適用する。
コスト行列710は、未検出が発生した状況である。このとき実際の観測値は、yt,k1とyt,k2の2つである場合、真の観測値と数が合わなくなる。この場合、ID対応付け部1006は、偽の観測値yt,k-1711を設定し、マハラノビス距離を無限大とする。ID対応付け部1006は、このようにコスト行列710を正方行列にして、ハンガリアン法を適用する。ハンガリアン法の計算の結果、いずれかのIDの予測分布が偽の観測値yt,k-1に割り当てられる。これは、観測値が欠損した状況で、図6の状態空間モデル600の観測値606に対応する。このIDの状態変数は、後述するS1008の更新時に通常とは別の処理を行う。
コスト行列720は、過検出が発生した状況である。この場合、ID対応付け部1006は、偽の予測分布P(yt,k-1|Yt-1)721を設定し、マハラノビス距離を無限大とする。ID対応付け部1006は、このようにコスト行列720を正方行列化して、ハンガリアン法を適用する。
なお、所定のフレームで未検出と過検出とが同時に発生し、見かけ上、実際の観測値数と真の観測値数が一致してしまい、誤対応が発生する可能性がある。このような場合に対応するために、ID対応付け部1006は、マハラノビス距離に閾値を設定する。例えばID対応付け部1006は、3以上のマハラノビス距離で対応付けられたIDを上述の観測値が欠損した場合と同じ扱いにするようにすることで、誤対応を軽減する。
対応付け処理後に処理部1200は、隠蔽率予測部1007により、前工程で予測した時刻tにおける複数人体の状態の予測分布に基づいて、時刻tにおいて所定の対象物が自分以外の他の人体によってフレーム内で隠蔽される割合の予測を行う(S1007)。つまり隠蔽率予測部1007は、時刻tにおける隠蔽の発生を予測し定量化する。隠蔽率予測部1007は、人物同士の観測値の予測分布の類似度と、カメラの位置と人物の位置間の前後関係によって定量化した予測隠蔽率を生成する。
本実施形態では、観測値の予測分布の1次モーメントのみを用いた軽量な定量化方法を説明する。類似度としてコサイン類似度が用いられる。すなわち、人物nと人物mの間の類似度は、cosβ(yt|t-1,k,m,yt|t-1,k,n)となる。ここで、βはべき指数(ハイパーパラメータ)である。またカメラの位置と人物の位置間の前後関係は、以下の式によって算出される。
min(max(||xt,n−Ck||2−||xt,m−Ck||2,0),1) (10)
kは、カメラkの3次元空間上のカメラ位置である。
式(10)の関数は、人物mがカメラkから見て人物nの手前に存在する場合に「1」を返し、それ以外の場合は「0」を返す。以上より、予測隠蔽率pocc t,k,nは、下式で算出される。
ccc t,k,n=(1/Nt,k−1)ΣNt.k n≠mmin(max(||xt,n−Ck||2−||xt,m−Ck||2,0),1)・cosβ(yt|t-1,k,m,yt|t-1,k,n)) (11)
t,kは、時刻tにおけるカメラkで撮影される真の観測値の数(=撮影される人物数)である。
式(11)は、所定のカメラから見て所定の対象物の手前に別の対象物が存在し且つカメラの中心と対象物を結ぶ視線が類似しているときに、所定の対象物が別の対象物に所定のカメラから見た場合に隠蔽されるという考え方に基づく。式(10)とコサイン類似度を乗算した値は、所定の人物に対し、別の人物が手前に存在し且つピクセル座標上で近い位置に存在する場合、「1」に近い値になる。それを自分以外のすべての人物に対し計算し、正規化したものが式(11)である。そのためpocc t,k,nは、「1」で人物nが完全に隠蔽されていることを示し、「0」で隠蔽が無いことを示す。なお前工程のID対応付けで、偽の観測値が割り当たったIDでは、pocc t,k,nが「1」となる。
ここでは、観測値の予測分布の1次モーメントのみを用いた定量化を行ったが、2次モーメントまで考慮してKLダイバージェンス等で分布間の距離を計量し、視線の類似度として用いても良い。また、本実施形態では、人物の配置予測とカメラからの観測値予測に基づく隠蔽率予測を人物のみを対象にして行っているが、人物と自律的に動かない遮蔽物との間の隠蔽に対し、これを適用してもよい。
隠蔽率の予測後に処理部1200は、更新部1008により、S1006の処理による対応付け結果、S1002の処理による検出結果、及びS1007の処理による予測結果に基づいて各人体の状態を更新する(S1008)。即ち、更新部1008は、S1006の処理で対応付けた観測値、S1002の処理で取得したスコア、及びS1007の処理で予測した隠蔽率に基づいて、各人体の状態を更新する。更新部1008は、時刻tの観測値を用い、状態変数の予測分布を更新し、フィルタ分布(事後分布)を取得する。この際、図6に示したように、状態空間モデル600は、逐次観測可能なカメラの数が変化する。そのために更新部1008は、更新に際して複数の観測値の統合を行う。本実施形態では、更新部1008は、前工程で取得した予測隠蔽率pocc t,k,nを統合時に用い、隠蔽が予測される観測値を更新に反映しないようにする。同時に更新部1008は、観測値のスコアqt,k,nも用い、カメラからの距離や向きが物体検出に好適な条件である可能性が高い観測値を、更新により強く反映させるように統合する。以上の指針により、統合方法は以下の2つの方針が考えられる。
(方針1)
更新部1008は、各カメラの尤度関数P(yt,kj|xt,n)の観測ノイズの分散共分散行列Rtに、(1−pocc t,k,n)とqt,k,nの逆数を乗算する。更新部1008は、各カメラで独立性を仮定した上で、同時分布として各カメラの観測値を統合した統合尤度関数をモデル化する。
t,kn,nは、時刻tにおいてカメラkで取得される観測値の集合Yt,kn,n={yt,1,n,yt,2,n,…,yt,kn,n}である。P(yt,n|xt,n,qt,k,n,pocc t,k,n)の分散共分散行列は、(qt,k,n・(1−pocc t,k,n))-1・Rtとする。これは、識別スコアが小さく、隠蔽率が高いほど観測ノイズの分散が大きくなるようにモデル化したと換言できる。
(方針2)
更新部1008は、統合尤度関数を、(1−pocc t,k,n)とqt,k,nの積を混合比として、各カメラの尤度関数P(yt,kj|xt,n)の混合分布でモデル化する。
この方針は、複数のカメラの視線(カメラの光学中心と物体を結ぶ直線)の交点以外の、各視線上にも尤度が分布する統合となる。
また上記2つの方針による更新式は、次の通りである。方針1に関しては、統合尤度関数の確率分布を直接計算する方法と再帰的に計算する方法との2通りの更新式が挙げられる。
(統合方法1−1)
方針1の1つ目の統合方法は、下記のように尤度関数の積の分布を計算し、通常の拡張カルマンフィルタの更新を適用する方法である。
この方法では、複数のガウス分布の積を予め計算し、1から所定数までのガウス分布の積を関数として実装する必要がある。そのため仮に全カメラ数が想定できない場合は、実装が困難である。
(統合方法1−2)
方針1の2つ目の統合方法では、尤度関数の積の計算を、下記の再帰的な式で実行する。
この方法は、全カメラ数を実装時に把握しておく必要が無いために、統合方法1−1より柔軟に実装できる。
(統合方法2)
方針2の統合方法は、カルマンフィードバックを重み付け和する、下記の方法である。
統合方法1−1及び統合方法2は、ガウス分布の積で統合尤度関数をモデル化する。そのためにカメラ数が多い場合、統合尤度関数はデルタ関数に近づき、分布の分散が縮退する。フィルタ分布は、システム方程式でモデル化した状態変数の時間的な変化の滑らかさが失われてしまう可能性がある。逆にこの方法は、ガウス分布の積でモデル化しないため、分布の分散が縮退せず、カメラ数が多い場合でも時間的変化が滑らかな状態変数の推定が可能になると考えられる。
以上のいずれかの方法でカメラ毎の観測値を統合した更新を実行する事で、複数の観測値と予測の誤差を補正したフィルタ分布の計算が実行される。また全てのカメラで、予測隠蔽率pocc t,k,n=1の場合、または観測値が欠損する場合は、フィルタ分布を状態変数の予測分布で代替し、以下の式とすればよい。
t|t,n=xt|t-1,n
t|t,n=Vt|t-1,n
状態の更新後に処理部1200は、可視化部1009により、更新した人物の状態を可視化する(S1009)。可視化部1009は、推定された3次元空間内の位置と推定位置の時系列の可視化を行う。可視化部1009は、それぞれの結果を仮想的な3次元空間内に描画してもよいし、カメラで取得した実画像上に軌跡や点として重畳表示させてもよい。可視化部1009は、可視化した結果をモニタリング部1300に表示させる。ユーザは、モニタリング部1300により表示結果を閲覧することができる。
処理部1200は、引き続き次のフレームの処理を行う場合には、S1001以降の処理を繰り返し実行する(S1010:Y、S1001)。処理を終了する場合、処理部1200は、この処理を終了する(S1010:N)。
以上の処理を実行することで、情報処理装置100は、3次元空間内に存在する複数の人物の位置と軌跡の推定を高精度に行うことができる。人物が隠蔽される場合、情報処理装置100は、隠蔽をオンラインで予測して隠蔽の程度を定量化し、隠蔽される観測値を状態変数の更新時に反映させない。さらに情報処理装置100は、物体検出器(人体検出器1003)のスコアを用い、同時に取得される複数の観測値を統合する。これらの結果、本実施形態の情報処理装置は、隠蔽等での人物間のIDの入れ替わりの問題を軽減した、比較的長い軌跡の推定が可能となる。
(第2実施形態)
第1実施形態では、空間101(図1(a))に存在する人物の数の変動を想定していない。しかし実際には、処理の途中で空間101内で人数の変化が発生することは十分起こりうる。そこで、空間101の外周やその一部分に入退エリアを設け、入退エリアで出入りする人物の検出を処理ループに組み込むことで、処理の途中で発生する人数変化に対応することができる。
図8は、本実施形態の3次元追尾装置の機能ブロック図である。本実施形態の3次元追尾装置2000は、図2に示す第1実施形態の3次元追尾装置1000に人数加減検出部2010を追加した構成である。その他の各機能構成に関しては、第1実施形態の3次元追尾装置1000の同名の機能構成と同じ機能を有する。図9は、3次元追尾装置2000による対象物(人物)の認識処理を表すフローチャートである。この処理は、図3の処理に人数加減検知処理を追加した処理である。第1実施形態から追加した機能及び処理について説明し、共通の機能及び処理については説明を省略する。
処理部2200は、人体の検出後、時刻t=0ではない場合に(S2003:N)、人数加減検出部2010により、入退エリアの人物の検出を行う。この処理は、人体検出器1003によるS2002の処理結果を用いればよい。人数加減検出部2010は、S2002の処理結果に応じて空間101内の人物の加減を検知する(S2011)。人物の加減がある場合(S2012:Y)、処理部2200は、初期状態取得部2004により人物の初期状態を取得する(S2004)。人物の加減がない場合(S2012:N)、処理部2200は、予測部2005により予測処理を行う(S2005)。この際、S2004の初期状態の取得処理は、新たに追加された人物に関してのみ行う。他の人物の状態は、S2008の更新処理で得られるフィルタ分布を用いれば、元々存在した人物に関し、より長い軌跡を取得することができる。
以上のような第2実施形態の3次元追尾装置2000は、第1実施形態と同様の効果に加え、空間101の人物が増減する場合にも、第1実施形態と同様の効果を奏することができる。
(第3実施形態)
第3実施形態では、第1実施形態と同様の撮影システムで撮影される空間101において、複数の人物と1つのボールを対象物とし、各々について、3次元空間内の位置と軌跡の推定を行う。ボールは人物に対して大きさが十分に小さいとする。
図10は、1台のカメラのフレームと検出器とによって得られる観測値の説明図である。図10(a)は、本実施形態の人物とボールの配置を例示する。空間801は、図1(a)の空間101と同様のカメラ配置のマルチカメラ撮影システムの空間である。空間801内には人物802、803、804及びボール805が存在する。空間801は、カメラ806により撮影される。なお、カメラ806の他にも、不図示の複数台のカメラが配置される。図10(a)では、カメラ806で取得したフレームに検出器を適用する場合のFOV807が示される。
図10(b)は、カメラ806によって取得されるフレームと検出器の出力の一部を可視化した図である。カメラ806で取得されるフレーム811には、人物802、803に対応する人物812、813及びボール805に対応するボール814が含まれる。フレーム811には、検出器の出力の一部を可視化したバウンディングボックス815、816、817、818が示される。フレーム811では、人物812の手前にボール814が存在するが、人物812は大部分が隠蔽されていない。
第1実施形態では、3次元追尾装置1000は、人物間のカメラから見た前後関係とカメラのフレーム上での観測値の予測分布の類似度とに基づいて、予測隠蔽率を算出した。しかし、フレーム811に示すようにボール814が人物812に対して十分に小さい場合、前後関係と観測値の予測分布の類似度だけでは隠蔽の定量化に不十分であり、対象物間のスケールの違いを考慮する必要がある。第3実施形態では、空間801にサイズが大きく異なる対象物(人物及びボール)が存在する場合に、それぞれの3次元空間内の位置と軌跡を、隠蔽の影響を軽減して推定する方法について説明する。
図11は、本実施形態の3次元追尾装置の機能ブロック図である。本実施形態の3次元追尾装置3000は、図2に示す第1実施形態の3次元追尾装置1000にボール検出部3011を追加した構成である。その他の各機能構成に関しては、第1実施形態の3次元追尾装置1000の同名の機能構成と同じ機能を有する。図12は、3次元追尾装置3000による対象物(人物)の認識処理を表すフローチャートである。
処理部3200は、第1実施形態のS1001、S1002(図3参照)と同様の処理を行い人体を検出する。処理部3200は、撮影部3100からK台の動画取得部により所定の時刻のフレームをK枚取得する(S3001)。処理部3200は、人体検出器3003により、取得したフレームから人物の位置及びスコアを検出する(S3002)。処理部3200は、ボール検出部3011により、取得したフレームからボールの位置及びスコアを検出する(S3003)。ここではボール検出部3011として、1実施形態のS3002の処理で用いた検出器と同様の出力の検出器が用いられる。すなわち、処理部3200は、検出器によりフレームのピクセル座標上の中心位置(u,v)と、[0,1]に正規化されたボールらしさのスコアqの3次元の値を検出する。
処理部3200は、人体及びボールの検出後に、時刻tが「0」であるかを確認する(S3004)。確認処理は、図2のS1003の処理と同様である。
時刻t=0である場合(S3004:Y)、処理部3200は、初期状態取得部3004により、3次元空間上の人体とボールの初期位置を取得する(S3005)。初期状態取得部3004は、この処理が終了すると時刻t=1とする。初期状態取得部3004は、人体検出器3003が検出したフレーム内の人体位置と、ボール検出部3011が検出したフレーム内のボール位置と、をそれぞれ3次元空間に射影することで3次元空間内の人体とボールの初期位置を取得する。
ボールは、一般に球形であり、見え方が回転不変である。そのために、人物と異なり、ボールの状態変数に姿勢を含めることに意味がない。それゆえボールの状態変数は、下記の位置及び速度の計6次元で表される。
ボールは、空間801中に1つのみが存在している。そのため、観測値と対象物が常に対応付く状態であるので、人物と違い両者を同定する初期位置を求める必要がない。初期状態取得部3004は、ボールのフレーム中の位置(u,v)を3次元空間内の位置(x,y,0)に射影し、各視点の3次元空間上への射影結果を平均して、(x,y)の初期位置とする。その他の値は「0」とする。初期状態取得部3004は、人物に関しては、初期値を第1実施形態と同様の処理で取得する。
時刻t=0ではない場合(S3004:N)、或いは初期状態取得後に、処理部1200は、予測部3005により、時刻tにおける状態の確率分布を予測する(S3006)。予測部3005は、現在の時刻をt(t>=1)とし、時刻t−1における3次元空間内の人物及びボールの状態に基づいて、時刻tにおける状態変数の確率分布(予測分布)を予測する。さらに、予測部3005は、時刻tに取得されるべき観測値の確率分布(予測分布)を予測する。前述の通り、ボールは状態変数に向きを含めないため、システム方程式が人物の場合と異なり、位置及び速度のみでモデル化される。
スポーツ等の試合中のボールは、一般に速度の変化が急峻である。30fps程度の速度で撮影する場合、急激に変化するシーンに関してはフレーム毎の位置の変化が不連続になる。そのために、特にボールの移動方向の変化が急峻なスポーツでは、単純なモデルの方が予測性能が良い場合がある。このような場合は、ボールのシステム方程式を位置のみの1次のマルコフ過程でモデル化してもよい。人物に関しては第1実施形態と同様のシステム方程式である。
次に観測方程式について説明する。前述の通り、ボールは見え方が回転不変であるため、スコアqの観測方程式が下記のカメラ位置からの距離のみでモデル化される。
t,kj=α0+α1||xt,n−Ck||2+wt,q
位置(u,v)に関しては、第1実施形態の人物の観測方程式と同じ式(1)、(2)と同様である。また人物の観測方程式は、位置、スコアともに、第1実施形態と同様である。
予測部3005は、以上のシステム方程式及び観測方程式を用い、第1実施形態と同様に状態の予測分布及び観測値の予測分布の1次、2次モーメントを、式(4)、(5)、(6)、(7)を用いて取得する。
予測処理後に処理部3200は、ID対応付け部3006により、時刻tにおいて各カメラで観測される人物の観測値と、3次元空間上の人物を対応付ける(S3007)。ID対応付け部3006は、予測した時刻tの人物の観測値予測分布と時刻tにおいて各カメラで観測される実際の観測値とに基づいて実際の観測値の尤度を算出し、尤度に基づいて3次元空間内の人物と観測値の対応付けを行う。ボールは、複数存在しないために、観測値と3次元空間上のボールとは、常に対応付いた状態である。そのためにボールの対応付けは不要である。この処理は、人物に関してのみ行われる。対応付けの具体的な処理は、第1実施形態と同様である。
予測処理後に処理部3200は、隠蔽率予測部3007により予測隠蔽率を算出する(S3008)。隠蔽率予測部3007は、前工程で予測された時刻tにおける複数人物の状態の予測分布に基づいて、時刻tにおいて所定の対象物が自分以外の対象物(人物又はボール)によってフレーム内で隠蔽される割合の予測を行う。
第1実施形態では、追尾の対象物として人物のみを用いたため、対象物間のサイズが概ね等しい。そのために隠蔽率予測部3007は、前後関係と観測値の予測分布の類似度のみを考慮すれば隠蔽をモデル化できた。本実施形態では、ボールと人物とのサイズの違いを考慮しなければ、適切な定量化が行えない。本実施形態の対象物である人物とボールとはサイズが大きく異なるため、隠蔽率予測部3007は、そのサイズの違いを考慮した定量化を行う。隠蔽率予測部3007は、第1実施形態の予測隠蔽率pocc t,k,nの式にサイズの項を追加した、下式を用いて定量化を行う。
scale(n)は、IDがnのオブジェクト(対象物)のサイズ(面積)を返す式である。スケール(scale(n))の値に正確性は必要なく、人物やボールに関する類型的なサイズであればよい。例えば、スケールは、人物であれば1.75(m)×0.50(m)程度の値であり、ボールであれば0.3(m)×0.3(m)程度の値である。
図10(b)のフレーム811の例では、人物812はカメラ806から見てボール814の背後に位置し且つピクセル座標上の位置が近い。そのために、第1実施形態で説明した方法による予測隠蔽率は「1」に近い値になる。しかしフレーム811に示すように、実際には人物812の大部分が隠蔽されていない。本実施形態で説明した数14の式では、隠蔽された対象物(人物812)が隠蔽した対象物(ボール814)より大きい場合、そのサイズの割合s(n,m)を用いて、隠蔽率が調整される。
人物とボールに関するサイズの数値例ではs(n,m)≒0.1である。第1実施形態の予測隠蔽率が「1」の場合でも、本実施形態の方法では、人物812のボール814による予測隠蔽率はpocc t,k,n≒0.1となる。このように、サイズの違いによって隠蔽があまり発生しない場合を考慮した予測隠蔽率の定量化が可能になる。このような予測隠蔽率の定量化は、隠蔽が発生していない観測値を有効に利用できることになるため、対象物の状態(位置、速度等)の推定精度の向上に寄与する。
隠蔽率予測後に、処理部3200は、更新部3008により人物及びボールの状態を更新する(S3009)。更新部3008は、S3007の処理で対応づいた観測値、S3002及びS3003の処理で取得した人物及びボールのスコア、及びS3008の処理で予測した隠蔽率に基づいて、人物及びボールの状態を更新する。更新部3008は、時刻tの観測値を用いて状態変数の予測分布を更新し、フィルタ分布(事後分布)を取得する。更新部3008は、人物とボールのそれぞれの状態変数の予測分布に関し、各々の複数視点の観測値を統合し、状態変数の更新を実行する。これは第1実施形態に記載した方法で実行可能である。
状態の更新後に処理部3200は、可視化部3009により、更新した人物及びボールの状態を可視化する(S3010)。可視化部3009は、推定された3次元空間内の位置と推定位置の時系列の可視化を行う。可視化部3009は、可視化した結果をモニタリング部3300に表示させる。ユーザは、モニタリング部1300により表示結果を閲覧することができる。
処理部3200は、引き続き次のフレームの処理を行う場合には、S3001以降の処理を繰り返し実行する(S3011:Y、S3001)。処理を終了する場合、処理部3200は、この処理を終了する(S3011:N)。
以上のような第3実施形態の3次元追尾装置3000は、第1実施形態と同様の効果に加え、ボールと人物のような異なる種類の複数の対象物の互いの隠蔽による影響を軽減することができる。また、3次元追尾装置3000は、対象物のサイズの違いにより隠蔽があまり発生しない場合の観測値を有効に活用し、ボールと人物の3次元空間内の位置と軌跡の推定を高精度に行うことができる。
(第4実施形態)
マルチカメラによる撮影システムがローカルエリアネットワーク等を介して接続したネットワークカメラで構成される場合、ネットワーク経路のトラフィックの一時的増大や中継機器のパフォーマンス低下等が起こることがある。これは、10フレームから30フレーム程度の大規模なコマ落ちが発生する原因となる。上述の各実施形態では、各カメラから取得するフレームの完全同期を仮定せず、また2、3コマ程度のコマ落ちを吸収できる観測過程のモデル化を行っている。しかし、数10フレームのコマ落ちは精度劣化を招く可能性がある。
サーバによりストリームとして取得されるフレームを常にバッファリングして用いることで、長時間のコマ落ちをフレーム間差分等の簡単な演算で定量化することが可能である。第1実施形態は、対象物の隠蔽が発生したカメラの観測値の寄与を低減させる更新方法を示す。コマ落ちの評価値を予測隠蔽率と同様の枠組みで扱い、コマ落ちが発生したカメラの観測値の寄与を低減させることで、大規模なコマ落ち発生時の精度劣化を軽減させることが可能である。
また、第1実施形態は、3次元空間内の対象物の動きの予測に基づいて追尾を行う、3次元ベースのトラッキングを示す。トラッキングは、フレーム間の画像特徴量の位置の変化等を追跡して行う2次元ベースの方法が一般的である。第1実施形態で示したID対応付けの際に、画像特徴量ベースのトラッキングの結果を組み込み、2次元ベースと3次元ベースのトラッキングを統合することで、より高精度な追尾が実現できる可能性がある。
本実施形態は、フレーム間差分の変化によるコマ落ちの評価値を更新時に用いる方法と、ID対応付けに画像特徴量ベースのトラッキングを組み込む方法と、によりマルチカメラによる対象物の位置及び軌跡を推定する。このような処理により、大規模なコマ落ちに頑強で追尾性能のよい対象物の位置及び軌跡の推定が可能になる。
図13は、本実施形態の3次元追尾装置の機能ブロック図である。本実施形態の3次元追尾装置4000は、図11に示す第3実施形態の3次元追尾装置3000に2Dトラッキング部4012及びコマ落ち判定部4013を追加した構成である。その他の各機能構成に関しては、第3実施形態の3次元追尾装置3000の同名の機能構成と同じ機能を有する。図14は、3次元追尾装置4000による対象物(人物)の認識処理を表すフローチャートである。
処理部4200は、第3実施形態のS3001〜S3006と同様の処理により、時刻tの状態の人体及びボールの確率分布を予測する(S4001〜S4006)。予測処理後に処理部4200は、2Dトラッキング部4012により、オプティカルフローを用いた画像特徴ベースのトラッキングを行う(S4007)。2Dトラッキング部4012は、前フレームのIDが対応付けられた物体検出結果のバウンディングボックスと、現フレームのバウンディングボックスとの対応を、オプティカルフローを用いて定量化し、フロー割合を取得する。
2Dトラッキング部4012は、まず、時刻t−1におけるフレームと現時刻tにおけるフレームとの間で、例えばLucas-Kanade法でオプティカルフローを算出する。オプティカルフローは、領域毎の動きの大きさと向きを表す。2Dトラッキング部4012は、オプティカルフローを用いることで、前フレームと現フレームのバウンディングボックスの対応関係を定量化することができる。
2Dトラッキング部4012は、既に得られている人物IDに対応付いた時刻t−1における観測値yt-1,k,nのバウンディングボックス内のフローが、時刻t−1におけるIDが対応付いたどのバウンディングボックスに由来するかの割合を求める。2Dトラッキング部4012は、これをフロー割合pflow t,(kj,n)とする。フロー割合pflow t,(kj,n)が大きいほど、該バウンディングボックスが前フレームのオブジェクトnのバウンディングボックスに対応している割合が高い。フロー割合pflow t,(kj,n)の添え字は、時刻tにおけるカメラkのフレームに人体検出器3003を適用した際のj番目の検出結果の、IDがnの人物に由来するフロー割合を意味する。例えば、所定の時点の1番目のバウンディングボックス内のフロー総数が100であり、人物IDがn=2のバウンディングボックスから60、人物IDがn=3のバウンディングボックスから20、バウンディングボックス外から20の流入があるとする。この場合、pflow t,(k1,2)=0.75、pflow t,(k1,3)=0.25となる。
トラッキング後に処理部4200は、ID対応付け部4006により、第3実施形態と同様に観測値の予測分布を用いて計算した現フレームでの観測値の尤度に加え、前工程で定量化したフロー割合に基づいた対応付けを行う(S4008)。ID対応付け部4006は、尤度に関しては、第1実施形態と同様に現時刻の観測値とのマハラノビス距離を求める。ID対応付け部4006は、(−ln(pflow t,(kj,n)))1/2を、各対象間のマハラノビス距離に足し、ハンガリアン法で尤度及びフロー割合の和を最大にする割り当てを求める。これにより、3次元ベースのトラッキングと画像特徴を用いた2次元ベースのトラッキングが統合される。
対応付け後に処理部4200は、コマ落ち判定部4013により、フレーム間差分の変化量をコマ落ち評価値として取得する(S4009)。所定のカメラでコマ落ちが発生した場合、処理部4200は、事前にバッファリングされたコマ落ち前のフレームを取得する。本実施形態では、現時刻フレームと前の時刻のフレームの一致状態に応じた、コマ落ち評価値pjump t,kを用いる。前後のフレームが一致している場合、コマ落ち判定部4013は、コマ落ちしていると判定して、コマ落ち評価値pjump t,k=1とする。前後のフレームが一致していない場合、コマ落ち判定部4013は、コマ落ちしていないと判定して、コマ落ち評価値pjump t,k=0とする。コマ落ち評価値pjump t,kは、時刻tのカメラkにおけるコマ落ち評価値である。一般に、固定カメラで取得される所定時刻のフレームとその前の時刻のフレームとでは、被写体に動きがない場合でもノイズ等の影響でフレーム内の輝度値に差異が生じる。そのため、両フレームが一致する場合は、コマ落ちと判定できる。またストリームで取得できるフレームの中にメタ情報としてコマ落ち発生有無の判定に活用できる情報が埋め込まれている場合、コマ落ち判定部4013は、その情報を用いてコマ落ちを判定してもよい。
コマ落ち評価後に処理部4200は、第3実施形態のS3008と同様の処理により、隠蔽率の予測を行う(S4010)。隠蔽率の予測後に処理部4200は、更新部4008により、人物及びボールの状態(位置、速度等)を更新する(S4011)。更新部4008は、IDが対応付いた観測値、S4002、S4003の処理で取得した人物及びボールのスコア、S4010の処理で予測した隠蔽率、及びS4009の処理で取得したコマ落ち評価値を用いてこの処理を行う。
更新部4008は、時刻tの観測値を用いて状態変数の予測分布を更新し、フィルタ分布を取得する。コマ落ち評価値pjump t,kが「1」の場合、更新部4008は、該カメラkの観測値を更新に用いないようにすることで、コマ落ち発生の影響を軽減させたフィルタ分布を取得可能である。コマ落ち評価値pjump t,kが[0,1]に正規化された発生確率として得られる場合、更新部4008は、人体検出器スコアqt,k,n、予測隠蔽率pocc t,k,nに加え、コマ落ち評価値(発生確率)pjump t,kを用いる。更新部4008は、コマ落ち発生の可能性が高いフレームの観測値の更新への影響を軽減させ、複数の観測値の統合を行う。具体的には、第1実施形態のS1008の処理の方針1の方法で複数の観測値の統合を行う場合、尤度関数p(yt,kj|xt,n)の2次モーメントを(qt,kn・(1−pocc t,k,n)・(1−pjump t,k-1・Rtとする。方針2の方法では、統合時の混合比を、以下の式とする。
処理部4200は、人物及びボールの状態更新が終了すると、第3実施形態のS3010と同様の処理により、更新した人物及びボールの状態を可視化するための処理を実行し、その処理結果をモニタリング部3300に表示する(S4012)。この処理は、実施形態2の可視化ステップS3010と同様の処理であるため、詳細な説明は省略する。処理部4200は、引き続き次のフレームの処理を行う場合には、S4001以降の処理を繰り返し実行する(S4013:Y、S4001)。処理を終了する場合、処理部4200は、この処理を終了する(S4013:N)。
以上の変更を加え、第1実施形態の更新処理(図3のS1008)と同様に更新を行うことで、コマ落ちが発生したフレームの観測値を更新に反映させないように複数の観測値の統合を行うことができる。
以上のような第4実施形態の3次元追尾装置4000は、第1実施形態と同様の効果に加え、ボールと人物のような異なる種類の複数の対象物の互いの隠蔽による影響を軽減することができる。また、3次元追尾装置4000は、3次元ベースのトラッキングと画像特徴ベースのトラッキングを統合したより良い追尾性能が可能である。さらに3次元追尾装置4000は、大規模なコマ落ちに頑強な3次元位置推定を行うことができる。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。

Claims (26)

  1. 複数の撮像手段から取得する画像から複数の対象物を検出する検出手段と、
    所定の時刻の前記対象物の状態及び認証ラベルを把握する状態取得手段と、
    前記所定の時刻より前の時刻の前記対象物の状態から前記所定の時刻の該対象物の状態を予測する予測手段と、
    異なる時刻に取得された2つの画像のそれぞれの前記対象物の認証ラベルを対応付ける対応付け手段と、
    前記所定の時刻より前の時刻の画像に対する前記検出手段の検出結果、前記予測手段による予測結果、及び前記対応付け手段の対応付け結果に基づいて、前記対象物の状態を更新する更新手段と、を備えることを特徴とする、
    情報処理装置。
  2. 前記対象物の状態は、該対象物の3次元空間内の位置及び向きの少なくとも一方であることを特徴とする、
    請求項1に記載の情報処理装置。
  3. 前記対応付け手段は、3次元空間内に存在する複数の対象物のそれぞれに、前記認証ラベルとして重複しない認証ラベルを対応付けることを特徴とする、
    請求項1又は2に記載の情報処理装置。
  4. 前記検出手段は、前記画像における対象物の位置及び対象物らしさを表すスコアの少なくとも一方を出力することを特徴とする、
    請求項1〜3のいずれか1項に記載の情報処理装置。
  5. 前記予測手段は、前記対象物の状態を確率分布として予測することを特徴とする、
    請求項1〜4のいずれか1項に記載の情報処理装置。
  6. 前記予測手段は、第1の時刻で取得した画像の対象物の状態から、前記第1の時刻より後の第2の時刻の画像に対する前記検出手段の出力を予測することを特徴とする、
    請求項1〜5のいずれか1項に記載の情報処理装置。
  7. 前記予測手段は、前記第1の時刻の対象物の状態から前記第2の時刻の画像に対する前記検出手段の出力を確率分布として予測することを特徴とする、
    請求項6に記載の情報処理装置。
  8. 前記予測手段によって予測した対象物の状態と、前記対応付け手段によって対応付けた結果とから、異なる時刻に取得された前記2つの画像の後の画像で発生する前記対象物の隠蔽を予測する隠蔽率予測手段をさらに備えることを特徴とする、
    請求項1〜7のいずれか1項に記載の情報処理装置。
  9. 前記隠蔽率予測手段は、前記複数の対象物のそれぞれが、前記2つの画像の後の画像で前記対象物が隠蔽される割合を、前記複数の撮像手段の位置に対する前記複数の対象物の3次元空間内の前後関係及び前記対応付け手段による前記複数の対象物の類似度によって定量化した予測隠蔽率を生成することを特徴とする、
    請求項8に記載の情報処理装置。
  10. 前記更新手段は、第2の時刻の画像に対する前記検出手段の検出結果と、前記予測手段の予測結果と、前記対応付け手段の対応付け結果と、前記隠蔽率予測手段で取得した予測隠蔽率と、を用いて前記第2の時刻の対象物の状態を更新することを特徴とする、
    請求項9に記載の情報処理装置。
  11. 前記更新手段は、前記対応付け手段で対応付けた第2の時刻の画像に対する前記検出手段の検出結果を用いて前記予測手段の予測結果を前記隠蔽率予測手段によって取得した予測隠蔽率に基づいて調整し、隠蔽された対象物が隠蔽した対象物より大きい場合に、前記予測隠蔽率を調整することを特徴とする、
    請求項9又は10に記載の情報処理装置。
  12. 前記更新手段は、前記対応付け手段で対応付けた前記第2の時刻の画像に対する前記検出手段の検出結果の数に応じて、前記検出手段の出力を予測する確率分布を統合することを特徴とする、
    請求項6に記載の情報処理装置。
  13. 前記更新手段は、前記対応付け手段で対応付けた前記第2の時刻の画像に対する前記検出手段の検出結果の数に応じて、前記検出手段の出力を予測する確率分布を正規化して統合することを特徴とする、
    請求項12に記載の情報処理装置。
  14. 前記対応付け手段が有する前記確率分布は、前記2つの画像の後の画像に対する前記検出手段の出力を取得すると、前記対象物の前記検出手段の出力の尤もらしさを定量化することを特徴とする、
    請求項7に記載の情報処理装置。
  15. 前記対応付け手段は、前記対象物の前記検出手段の出力の尤もらしさの値に応じて、認証ラベルを前記対象物と対応付けることを特徴とする、
    請求項14に記載の情報処理装置。
  16. 前記更新手段によって更新された複数の対象物の状態を可視化する可視化手段をさらに備えることを特徴とする、
    請求項1〜15のいずれか1項に記載の情報処理装置。
  17. 3次元空間内の複数の対象物の位置を推定し、前記認証ラベルに基づいて3次元空間内で追尾することを特徴とする、
    請求項1〜16のいずれか1項に記載の情報処理装置。
  18. 前記画像の中から前記対象物とは別の第2の対象物を検出する第2検出手段をさらに備えることを特徴とする、
    請求項1〜17のいずれか1項に記載の情報処理装置。
  19. 前記第2検出手段は、前記対象物と前記第2の対象物をそれぞれの特徴により識別することを特徴とする、
    請求項18に記載の情報処理装置。
  20. 前記隠蔽率予測手段は、前記複数の対象物のそれぞれが、前記2つの画像の後の画像で隠蔽される割合を、前記複数の撮像手段に対する前記複数の対象物の3次元空間内の前後関係と、前記対応付け手段による前記複数の対象物の類似度と、前記対象物と該対象物とは別の対象物との前後関係に基づいて定量化した予測隠蔽率を生成することを特徴とする、
    請求項8〜11に記載の情報処理装置。
  21. 第1の時刻の画像と第2の時刻の画像との画像の領域毎の動きを検出し、検出した動きと、前記第1の時刻の画像と前記第2の時刻の画像での前記検出手段の出力とにより、前記第1の時刻の画像に対する前記検出手段の出力と前記第2の時刻の画像に対する前記検出手段の出力の対応関係を定量化するトラッキング手段をさらに備えることを特徴とする、
    請求項1〜20のいずれか1項に記載の情報処理装置。
  22. 前記対応付け手段は、前記対象物の尤もらしさの評価値と、前記トラッキング手段が出力する前記第1の時刻の画像に対する前記検出手段の出力と前記第2の時刻の画像に対する前記検出手段の出力の対応関係とにより、前記複数の対象物と前記第2の時刻の画像に対する前記検出手段の出力の対応付けを行うことを特徴とする、
    請求項21に記載の情報処理装置。
  23. 前記検出手段は、前記撮像手段から連続して画像を取得しており、
    連続した画像の一致状態に応じてコマ落ちを判定するコマ落ち判定手段をさらに備え、
    コマ落ち判定手段がコマ落ちを判定した場合に、コマ落ちが発生した撮像手段から取得した画像に対する前記検出手段の検出結果を、前記更新手段が用いないようにすることを特徴とする、
    請求項1〜22のいずれか1項に記載の情報処理装置。
  24. 複数の撮像装置に接続される情報処理装置により実行される方法であって、
    前記複数の撮像装置から取得する画像の中から複数の対象物を検出するステップと、
    所定の時刻の前記の対象物の状態と認証ラベルを把握するステップと、
    前記所定の時刻より前の時刻の対象物の状態から前記所定の時刻の対象物の状態を予測するステップと、
    異なる時刻に取得した2つの画像でそれぞれの前記対象物の認証ラベルを対応付けるステップと
    前記所定の時刻より前の時刻の画像に対する対象物の検出結果、前記対象物の状態の予測結果、及び認証ラベルの対応付け結果に基づいて、前記対象物の状態を更新するステップと、を含むことを特徴とする、
    3次元位置推定方法。
  25. 複数の撮像装置に接続されるコンピュータを、
    前記複数の撮像装置から取得する画像から複数の対象物を検出する検出手段、
    所定の時刻の前記対象物の状態及び認証ラベルを把握する状態取得手段、
    前記所定の時刻より前の時刻の前記対象物の状態から前記所定の時刻の該対象物の状態を予測する予測手段、
    異なる時刻に取得された2つの画像のそれぞれの前記対象物の認証ラベルを対応付ける対応付け手段、
    前記所定の時刻より前の時刻の画像に対する前記検出手段の検出結果、前記予測手段による予測結果、及び前記対応付け手段の対応付け結果に基づいて、前記対象物の状態を更新する更新手段、
    として機能させるためのコンピュータプログラム。
  26. 請求項25に記載のコンピュータプログラムを記憶する、コンピュータにより読み取り可能な記憶媒体。
JP2017253578A 2017-12-28 2017-12-28 情報処理装置、3次元位置推定方法、コンピュータプログラム、及び記憶媒体 Pending JP2019121019A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017253578A JP2019121019A (ja) 2017-12-28 2017-12-28 情報処理装置、3次元位置推定方法、コンピュータプログラム、及び記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017253578A JP2019121019A (ja) 2017-12-28 2017-12-28 情報処理装置、3次元位置推定方法、コンピュータプログラム、及び記憶媒体

Publications (1)

Publication Number Publication Date
JP2019121019A true JP2019121019A (ja) 2019-07-22

Family

ID=67307860

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017253578A Pending JP2019121019A (ja) 2017-12-28 2017-12-28 情報処理装置、3次元位置推定方法、コンピュータプログラム、及び記憶媒体

Country Status (1)

Country Link
JP (1) JP2019121019A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021071845A (ja) * 2019-10-30 2021-05-06 株式会社Qoncept 軌道算出装置、軌道算出方法、軌道算出プログラム
WO2023157623A1 (ja) * 2022-02-15 2023-08-24 ソニーグループ株式会社 情報処理装置、情報処理方法、および記録媒体
JP7360520B1 (ja) 2022-04-13 2023-10-12 緯創資通股▲ふん▼有限公司 オブジェクト追跡統合方法及び統合装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021071845A (ja) * 2019-10-30 2021-05-06 株式会社Qoncept 軌道算出装置、軌道算出方法、軌道算出プログラム
KR20210052314A (ko) * 2019-10-30 2021-05-10 컨셉 주식회사 궤도 산출 장치, 궤도 산출 방법, 궤도 산출 프로그램
KR102430369B1 (ko) 2019-10-30 2022-08-05 컨셉 주식회사 궤도 산출 장치, 궤도 산출 방법, 궤도 산출 프로그램
US11625836B2 (en) 2019-10-30 2023-04-11 Qoncept, Inc. Trajectory calculation device, trajectory calculating method, and trajectory calculating program
WO2023157623A1 (ja) * 2022-02-15 2023-08-24 ソニーグループ株式会社 情報処理装置、情報処理方法、および記録媒体
JP7360520B1 (ja) 2022-04-13 2023-10-12 緯創資通股▲ふん▼有限公司 オブジェクト追跡統合方法及び統合装置

Similar Documents

Publication Publication Date Title
Lee et al. A comprehensive review of past and present vision-based techniques for gait recognition
Morency et al. Generalized adaptive view-based appearance model: Integrated framework for monocular head pose estimation
JP4912388B2 (ja) 2次元見え方およびマルチキュー奥行き推定を使用する実世界の物体の視覚的追跡方法
Piątkowska et al. Spatiotemporal multiple persons tracking using dynamic vision sensor
Ayazoglu et al. Dynamic subspace-based coordinated multicamera tracking
Morency et al. Monocular head pose estimation using generalized adaptive view-based appearance model
WO2007044044A2 (en) Method and apparatus for tracking objects over a wide area using a network of stereo sensors
JP2016099982A (ja) 行動認識装置、行動学習装置、方法、及びプログラム
Henschel et al. Simultaneous identification and tracking of multiple people using video and imus
Sanchez-Matilla et al. A predictor of moving objects for first-person vision
JP2019121019A (ja) 情報処理装置、3次元位置推定方法、コンピュータプログラム、及び記憶媒体
Tian et al. Absolute head pose estimation from overhead wide-angle cameras
Klinger et al. Probabilistic multi-person tracking using dynamic bayes networks
Zhou et al. The chameleon-like vision system
Gruenwedel et al. Low-complexity scalable distributed multicamera tracking of humans
Seer et al. Kinects and human kinetics: a new approach for studying crowd behavior
Voit et al. A system for probabilistic joint 3d head tracking and pose estimation in low-resolution, multi-view environments
Jiang et al. Multi-person tracking-by-detection based on calibrated multi-camera systems
CN109492513A (zh) 光场监控的人脸空间去重方法
Zappa et al. Uncertainty of 3D facial features measurements and its effects on personal identification
Liu et al. A study of chained stochastic tracking in RGB and depth sensing
CN111191524A (zh) 运动人群计数方法
Menze et al. A stereoscopic approach for the association of people tracks in video surveillance systems
Kim et al. Directional pedestrian counting with a hybrid map-based model
Agarwal et al. An optimization based framework for human pose estimation in monocular videos