JP6618395B2 - 行動価値によって調査対象の位置を予測する装置、プログラム及び方法 - Google Patents

行動価値によって調査対象の位置を予測する装置、プログラム及び方法 Download PDF

Info

Publication number
JP6618395B2
JP6618395B2 JP2016055005A JP2016055005A JP6618395B2 JP 6618395 B2 JP6618395 B2 JP 6618395B2 JP 2016055005 A JP2016055005 A JP 2016055005A JP 2016055005 A JP2016055005 A JP 2016055005A JP 6618395 B2 JP6618395 B2 JP 6618395B2
Authority
JP
Japan
Prior art keywords
time point
position information
prediction
information
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016055005A
Other languages
English (en)
Other versions
JP2017168029A (ja
Inventor
有希 永井
有希 永井
小林 達也
達也 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2016055005A priority Critical patent/JP6618395B2/ja
Publication of JP2017168029A publication Critical patent/JP2017168029A/ja
Application granted granted Critical
Publication of JP6618395B2 publication Critical patent/JP6618395B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Closed-Circuit Television Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)

Description

本発明は、調査対象である物体を撮影して得られる時系列画像データといった、調査対象における刻々の実際の位置に関係するデータである位置情報実データを解析して、当該調査対象の位置情報を予測する位置情報予測技術に関する。
監視やマーケティング等の目的をもって、カメラで撮影され生成された時系列の画像データを解析し、移動する物体の実空間での位置を追跡する技術が開発されている。追跡する物体としては、人物や乗り物等、撮影可能な様々なものが対象となる。
ここで、解析対象の画像において、追跡対象物体を含め複数の物体が映っている場合を考える。この場合、画像上で、追跡対象物体同士が交差したり、追跡対象物体が静止物体等の他の物体と重なったり、さらには他の物体の背後に隠れたりする現象が生じ、結果として追跡を失敗してしまう事態も起こり得る。このように、追跡対象物体の画像領域が他の物体の領域と重畳してしまう現象は、オクルージョンと呼ばれる。
このオクルージョンが発生すると、本来継続して追跡すべき物体とは別の物体を追跡対象物体として認識してしまうID(識別子)スイッチングが起きたり、追跡対象物体を見失って追跡が継続できなったり(ロストしたり)することがある。また、オクルージョンの終了後に、本来継続して追跡すべき物体を、新たな追跡対象であるとみなして新規のIDを割り当てるといったID間違いが生じることもある。
そこで、オクルージョンが発生しても正確な物体追跡を行えるようにするため、数多くの技術が考案されてきた。例えば、特許文献1には、対象物体をリアルタイムで追跡することができ、画像フレーム内に新たな被追跡物体が出現しても、動画像による追跡をリアルタイムで続行可能にする技術が開示されている。この技術では、フレーム間で対応のつく被追跡物体の次フレームでの位置は、被追跡物体移動位置推定手段で推定され、一方、対応の付かない被追跡物体の位置は、現フレームの被追跡物体の明るさの分布と、先フレームの被追跡物体の明るさの分布とから推定される。
また、特許文献2には、追跡対象物体を複数のパーツとして捉え、MHT(Multiple Hypotheses Tracking,多重仮説追跡)アルゴリズムを利用して、複数のパーツ仮説をキープし、曖昧さを保ったままで追跡を行うべく、各パーツについて、複数のパーツ仮説の各々をノードとする軌跡木(部分仮説木)を時間的に成長させる技術が開示されている。
さらに、特許文献3には、時系列の画像データにおいて複数のフレームに含まれる複数の移動物体を検出し、同一の移動物体同士をフレーム間で対応付けることによって、移動物体の追跡を行う技術が開示されている。この技術では、現在の時刻の検出結果と次の時刻の検出結果とをつなげるパスを推定していくことで物体を追跡する。具体的には、両検出結果の対応がつく確率、対応がつかない確率、消滅する確率、検出できなかった物体が再び出現する確率を算出し、全時刻における組み合わせのパスとその確率とから、最適となるパスを決定している。
上述した特許文献2及び特許文献3に記載されたような技術は、基本的に、全時刻分のデータを全て使用するオフライン処理によって最適なパス、すなわち追跡結果を算出している。これに対し、全シーケンスを複数のサブシーケンスに分割し、サブシーケンスの組み合わせのみから最適パスを算出し、これらのサブシーケンスの結果をつなぐことによって全体の追跡結果を生成するミニバッチ処理を実施することによって、逐次的な追跡結果を生成することも可能となる。
また、非特許文献1では、強化学習を用いて複数の人物を追跡する技術が開示されている。この技術では、各人物の状態(Tracked,Active,Inactive,Lost)の切り替えを、強化学習(reinforcement learning)アルゴリズムを用いて学習し、この学習によって得られた方策に基づいて複数人物の追跡を実施している。ここで、強化学習とは、「環境」中に置かれた「エージェント」が、「環境」との相互作用を通して最適な方策(行動を決定する決まり)を得るための機械学習の一手法である。
この非特許文献1に記載された技術では、強化学習の中でもQ学習(Q-Learning)と呼ばれる手法を用いてステータスの学習のみを行っており、LK法をベースとしたTLD(Tracking-Learning-Detection)と呼ばれるアルゴリズムを追跡処理のために利用し、1人ずつ個別に人物を追跡している。なお、TLDの参考文献としては、例えば、Z. Kalal,J. Matas,and K. Mikolajczyk,"P-N Learning: Bootstrapping Binary Classifiers by Structural Constraints",Conference on Computer Vision and Pattern Recognition,2010年が挙げられる。
特開平02−196382号公報 特開2014−191393号公報 特開2011−170711号公報
Yu Xiang,Alexandre Alahi,and Silvio Savarese,"Learning to Track: Online Multi-Object Tracking by Decision Making",International Conference on Computer Vision (ICCV),2015年,4705〜4713頁
しかしながら、以上に述べたような従来の複数物体の追跡技術では、解決できない問題が依然として存在する。
例えば、特許文献1に記載されたような従来技術では、オプティカルフローと呼ばれる画像上の特徴点の移動ベクトルを求める手法を用い、物体が次時刻で画像上に占める領域を推定している。このような技術では、複数の物体が互いに近い領域で同様の動きをした場合、それに対応して適切に処理を行うことが難しく、物体を見失いやすいという問題が生じる。
また、特許文献2に記載された技術では、新規に物体が追加される尤度や、物体を消滅させる(すなわち追跡を終了させる)尤度は、状況に応じた値ではなく、所定の固定値に設定される。その結果、物体がオクルージョン中であるか否か、また、他の物体が周囲に存在するか否かといった状況が反映されないので、新規の追加や追跡終了の判断を誤る可能性が生じてしまう。
さらに、特許文献3に記載された技術では、基本的に、複数時刻での物体の検出結果をつなげていくので、検出されなくなった際には一旦追跡を中断し、後に検出された際に追跡を復活させるという方法しかとることができない。また、フレーム毎に物体検出を行うので、誤った検出結果を導くこともあり、存在する物体を検出できなかったり、物体の大きさや位置がずれた状態で検出したりすることも少なくない。
このように、ノイズの乗った検出結果をつなげていくことで物体追跡を行う方法では、物体を追跡できない時刻帯が存在するだけでなく、物体の位置や物体領域の大きさを誤って判断する可能性が生じる。特に、画像の人物領域の足元位置を実空間へ射影することによって実空間での物体位置を推定する場合、画像内で推定誤差が生じた際に、画像内での移動が僅かであっても、対応する実空間での移動量が、実際にはほとんどあり得ない程度に急激に変化してしまうといった問題が生じ得る。
また、非特許文献1に記載された従来技術では、学習されるのは、各被追跡対象人物の状態(Tracked,Active,Inactive,Lost)と、追跡を継続するかロストさせるかといったような状態間での切り替えの有無についての関係のみである。実際、物体追跡そのものは、他の人物の位置を考慮せず、従来のシングルトラッキング(1つの物体を追跡する手法の総称)を用いて行われているにすぎない。
すなわち、非特許文献1に記載の技術は、特許文献2に記載の技術と同様、追跡を継続(Tracked)するか中断(Lost)するかといった判断を行う基準として、シングルトラッキングを実行した際の信頼度のみを用いており、周囲に他の物体が存在するか否かを考慮していない。その結果、被追跡対象人物を識別するIDのスイッチングが起こりやすいという問題が生じてしまう。これは、他の物体との間でオクルージョンが発生した際、特に人物同士のように見かけの近い物体同士が交差した場合に、本来追跡すべき対象ではない物体を追跡対象として信頼する誤りをおかしてしまうことによる。
そこで、本発明は、対象の見え方が変化したりオクルージョンが発生したりする場合でも、対象をより確実に識別しながらその位置を追うことができる装置、プログラム及び方法を提供することを目的とする。
本発明によれば、調査対象における刻々の実際の位置に関係するデータである位置情報実データに基づいて、当該調査対象の位置情報を予測する位置情報予測装置であって、
1つの時点における当該調査対象の複数の候補位置の各々に係る情報を含む「状態」と、当該1つの時点において当該調査対象がいずれの当該候補位置に移動するかの情報を含む「行動」とを変数とする価値関数を用いて、予測時点での「状態」から、当該予測時点での当該調査対象の「行動」を、当該予測時点での当該調査対象の位置情報として決定するテスト手段
を有する位置情報予測装置が提供される。
さらに、本発明による位置情報予測装置は、
決定された「行動」が、当該位置情報実データから導出される当該調査対象の正解の位置情報に該当するか否かに基づいて、「報酬」を生成する報酬生成手段と、
生成された「報酬」に基づいて、当該価値関数を更新する学習手段と
を更に有することも好ましい。
また、本発明による位置情報予測装置の一実施形態として、当該位置情報実データは、当該調査対象である物体を撮影可能な1つ以上のカメラから取得される時系列の画像群であり、
報酬生成手段は、決定された「行動」が、当該予測時点での当該画像から導出される当該調査対象の正解の位置情報に該当するか否かに基づいて「報酬」を生成することも好ましい。
さらに、この実施形態において、当該画像から調査対象の物体を含む物体を検出する物体検出手段を更に有し、テスト手段は、検出された当該調査対象の物体に係る情報から、予測時点での「状態」を決定することも好ましい。
本発明によれば、また、調査対象における刻々の実際の位置に関係するデータである位置情報実データに基づいて、当該調査対象の位置情報を予測する位置情報予測装置であって、
1つの時点における当該調査対象の複数の候補位置に係る情報を含む「状態」と、当該1つの時点において当該調査対象がいずれの当該候補位置に移動するかの情報を含む「行動」とを変数とする価値関数を用いて、予測時点での「状態」から、当該予測時点での当該調査対象の「行動」を、当該予測時点での当該調査対象の位置情報として決定するテスト手段を有し、
当該「状態」において、当該1つの時点における当該調査対象の複数の候補位置に係る情報は、当該1つの時点の前の時点において決定された位置情報に基づいて決定された当該複数の候補位置の各々について当該位置情報実データから算出される特徴量における、予め設定された当該調査対象のモデルに対する類似の度合いに係る情報である
ことを特徴とする位置情報予測装置が提供される。
また、本発明によれば、さらに、調査対象を撮影可能な1つ以上のカメラから取得される時系列の画像群であって当該調査対象における刻々の実際の位置に関係するデータである画像群に基づいて、当該調査対象の位置情報を予測する位置情報予測装置であって、
1つの時点における当該調査対象の複数の候補位置に係る情報を含む「状態」と、当該1つの時点において当該調査対象がいずれの当該候補位置に移動するかの情報を含む「行動」とを変数とする価値関数を用いて、予測時点での「状態」から、当該予測時点での当該調査対象の「行動」を、当該予測時点での当該調査対象の位置情報として決定するテスト手段と、
決定された「行動」が、当該予測時点での当該画像から導出される当該調査対象の正解の位置情報に該当するか否かに基づいて「報酬」を生成する報酬生成手段と、
生成された「報酬」に基づいて、当該価値関数を更新する学習手段と
を有し、
該価値関数の変数である「行動」のとり得る値は、当該物体を追跡対象から外すことを示す値と、当該物体を移動させないことを示す値と、当該物体を移動先としてのN個の候補位置にそれぞれ移動させることを示すN個の値とを含み、
報酬生成手段は、当該予測時点での当該画像から導出される当該物体の正解の位置情報に基づき、
当該物体が所定の追跡範囲外へ移動したと判断した場合、又は当該物体の画像領域が他の物体の画像領域によって所定以上の割合で遮蔽されていると判断した場合、決定された「行動」が当該物体を追跡対象から外すことであるならば、当該価値関数の値を大きくする方向の「報酬」を生成し、
当該物体が当該所定の追跡範囲外へ移動したとも、当該物体の画像領域が他の物体の画像領域によって所定以上の割合で遮蔽されているとも判断しなかった場合、決定された「行動」が当該物体を移動させない又は1つの候補位置に移動させることであって、当該正解の位置情報に係る位置と、当該物体の移動していない位置又は移動先である当該1つの候補位置との距離が所定未満であれば、当該価値関数の値を大きくする方向の「報酬」を生成す
を特徴とする位置情報予測装置が提供される
さらに、本発明によれば、また、調査対象を撮影可能な1つ以上のカメラから取得される時系列の画像群であって当該調査対象における刻々の実際の位置に関係するデータである画像群に基づいて、当該調査対象の位置情報を予測する位置情報予測装置であって、
1つの時点における当該調査対象の複数の候補位置に係る情報を含む「状態」と、当該1つの時点において当該調査対象がいずれの当該候補位置に移動するかの情報を含む「行動」とを変数とする価値関数を用いて、予測時点での「状態」から、当該予測時点での当該調査対象の「行動」を、当該予測時点での当該調査対象の位置情報として決定するテスト手段と、
決定された「行動」が、当該予測時点での当該画像から導出される当該調査対象の正解の位置情報に該当するか否かに基づいて「報酬」を生成する報酬生成手段と、
生成された「報酬」に基づいて、当該価値関数を更新する学習手段と
を有し、
該価値関数の変数である「状態」は、当該1つの時点における当該調査対象の複数の候補位置に係る情報として、
・当該1つの時点の前の時点において決定された位置情報に基づいて決定された当該複数の候補位置の各々について当該画像から算出される特徴量における、予め設定された当該調査対象のモデルに対する類似の度合いに係る情報
を含むことを特徴とする位置情報予測装置が提供される
さらに、上記の実施形態において、当該価値関数の変数である「状態」は、当該1つの時点における当該調査対象の複数の候補位置に係る情報として、
・当該1つの時点以前での当該物体において最後に確認された位置の変化分を変数とする当該複数の候補位置の各々に関する確率密度関数に係る情報と、
・当該複数の候補位置の各々における当該物体相当の画像領域と、当該1つの時点において検出された物体相当の画像領域との重畳の度合いに係る情報と、
・当該1つの時点における、当該物体と他の物体とを2値分類する識別器によって算出された類似度に係る情報と、
・当該1つの時点の前の時点で検出された当該物体相当の画像領域における特徴的な画素であるキーポイントが、移動(オプティカルフロー)した後の当該1つの時点において、当該複数の候補位置の各々における当該物体相当の画像領域に含まれている割合に係る情報と
の少なくとも1つを更に含むことも好ましい。
また、本発明によれば、さらに、調査対象を撮影可能な1つ以上のカメラから取得される時系列の画像群であって当該調査対象における刻々の実際の位置に関係するデータである画像群に基づいて、当該調査対象の位置情報を予測する位置情報予測装置であって、
1つの時点における当該調査対象の複数の候補位置に係る情報を含む「状態」と、当該1つの時点において当該調査対象がいずれの当該候補位置に移動するかの情報を含む「行動」とを変数とする価値関数を用いて、予測時点での「状態」から、当該予測時点での当該調査対象の「行動」を、当該予測時点での当該調査対象の位置情報として決定するテスト手段と、
決定された「行動」が、当該予測時点での当該画像から導出される当該調査対象の正解の位置情報に該当するか否かに基づいて「報酬」を生成する報酬生成手段と、
生成された「報酬」に基づいて、当該価値関数を更新する学習手段と
を有し、
該価値関数の変数である、当該1つの時点での「状態」は、
・当該物体がロストしてから当該1つの時点の前の時点までに経過した時間に係る情報と、
・当該1つの時点以前での当該物体の最終位置を中心とした周囲を区分する複数の所定角度範囲の各々における最近の物体までの距離に係る情報と、
・当該1つの時点以前での当該物体の最終位置であって、当該画像座標上での最終位置における当該物体相当の画像領域と、他の物体相当の画像領域との重畳の度合いに係る情報と
の少なくとも1つを更に含
を特徴とする位置情報予測装置が提供される
本発明によれば、また、調査対象における刻々の実際の位置に関係するデータである位置情報実データに基づいて、当該調査対象の位置情報を予測する装置に搭載されたコンピュータを機能させるプログラムであって、
1つの時点における当該調査対象の複数の候補位置の各々に係る情報を含む「状態」と、当該1つの時点において当該調査対象がいずれの当該候補位置に移動するかの情報を含む「行動」とを変数とする価値関数を用いて、予測時点での「状態」から、当該予測時点での当該調査対象の「行動」を、当該予測時点での当該調査対象の位置情報として決定するテスト手段と
としてコンピュータを機能させる位置情報予測プログラムが提供される。
本発明によれば、さらに、調査対象における刻々の実際の位置に関係するデータである位置情報実データに基づいて、当該調査対象の位置情報を予測する位置情報予測方法であって、
1つの時点における当該調査対象の複数の候補位置の各々に係る情報を含む「状態」と、当該1つの時点において当該調査対象がいずれの当該候補位置に移動するかの情報を含む「行動」とを変数とする価値関数を準備するステップと、
当該価値関数を用いて、予測時点での「状態」から、当該予測時点での当該調査対象の「行動」を、当該予測時点での当該調査対象の位置情報として決定するステップと
有する位置情報予測方法が提供される。
本発明の位置情報予測装置、プログラム及び方法によれば、対象の見え方が変化したりオクルージョンが発生したりする場合でも、対象をより確実に識別しながらその位置を追うことができる。
本発明による位置情報予測装置を含む位置情報予測システムの一実施形態を示す模式図である。 本発明による位置情報予測装置の一実施形態における処理の流れを概略的に示すフローチャートである。 本発明による物体追跡装置の一実施形態における機能構成を示す機能ブロック図である。 状態sの構成要素Dist(ri)を説明するための模式図である。 状態sの構成要素omaxを説明するための模式図である。 状態sの構成要素Φ(qi)における候補位置qiを説明するための模式図である。 Φ(qi)の構成要素α(P', P, qi)を説明するためのグラフである。 Φ(qi)の構成要素φ(qi)を説明するためのグラフである。 物体検出部における物体の高さh0を算出する方法の一実施形態を示す模式図である。
以下、本発明の実施形態について、図面を用いて詳細に説明する。
図1は、本発明による位置情報予測装置を含む位置情報予測システムの一実施形態を示す模式図である。
図1に示した、位置情報予測システムとしての物体追跡システムは、
(a)追跡対象の物体を撮影可能であり、撮影した画像の情報を、通信ネットワークを介して時系列で送信可能な1つ又は複数のカメラ2と、
(b)カメラ2から通信ネットワークを介して取得される時系列の画像群を用い、当該物体の位置情報を予測して当該物体を追跡可能な、位置情報予測装置としての物体追跡装置1と
を備えている。
ここで、追跡対象となる物体には、人物、動物、乗り物や、その他移動可能な物理対象等、撮影可能であれば様々なものが該当する。また、撮影される場所も、特に限定されるものではなく、例えば、追跡対象となる人物として、観客、通勤者、買い物客、労働者、歩行者や、ランナー等が映り得る屋外、さらには会社、学校、家庭や、店舗の内部といった屋内とすることもできる。特に、追跡対象となる物体(人物)が複数又は多数であって、同行したり互いにすれ違ったり、さらには撮影範囲の内外に移動したりし得る環境であってもよい。
また、画像情報の伝送路である通信ネットワークは、例えばWi−Fi(登録商標)等の無線LAN(Local Area Network)とすることができる。または、LTE(Long Term Evolution)、WiMAX(Worldwide Interoperability for Microwave Access)又は3G(3rd Generation)等の無線系アクセスネットワークを介し、インターネットを経由してカメラ2と物体追跡装置1とを通信接続させるものであってもよい。
さらに、光ファイバ網若しくはADSL(Asymmetric Digital Subscriber Line)等の固定系アクセスネットワークを介しインターネットを経由して、又はプライベートネットワークを介してカメラ2と物体追跡装置1とが通信接続されてもよい。また、変更態様として、カメラ2と物体追跡装置1とは直接有線で接続されてもよい。さらに、複数のカメラ2から出力される画像情報を取りまとめて物体追跡装置1に送信可能な(図示していない)カメラ制御装置が設けられていてもよい。
ここで、伝送される画像情報(時系列画像群)は、追跡対象(位置の調査対象)における刻々の実際の位置に関係するデータである位置情報実データとして捉えることができる。また、物体追跡装置1は、この位置情報実データ(時系列画像群)に基づいて、調査対象の位置情報を予測する位置情報予測装置として捉えることができる。
同じく図1に示すように、位置情報予測装置(物体追跡装置)1は、強化学習部113を有しており、この強化学習部113において、
(A1)1つの時点における調査対象(追跡対象)の複数の「候補位置」に係る情報を含む「状態」と、
(A2)当該1つの時点において調査対象(追跡対象)がいずれの「候補位置」に移動するかの情報を含む「行動」と
を変数とする価値関数を用いて、予測時点での「状態」から、当該予測時点での当該調査対象の「行動」を、当該予測時点での当該調査対象の位置情報として決定する。
このように、位置情報予測装置1は、「状態」及び「行動」を変数とする価値関数を用いてテスト、すなわち位置情報の予測を実施することができるのである。
また、本実施形態の位置情報予測装置1は、同じく強化学習部113において、さらに、
(B1)決定された「行動」が、位置情報実データ(画像データ)から導出される調査対象(追跡対象)の正解の位置情報に該当するか否かに基づいて、「報酬」を生成し、
(B2)生成された「報酬」に基づいて、価値関数を更新する
といった特徴も有している。
このように、位置情報予測装置(物体追跡装置)1は、「状態」及び「行動」を変数とする価値関数を用いてテスト及び学習を行う、いわゆる強化学習アルゴリズムを利用して、位置情報を予測し、追跡を行うのである。
ここで、特に、上記(A1)及び(A2)に示したように、複数の「候補位置」に係る事項を「状態」及び「行動」に含めており、さらに、上記(B1)に示したように、正解の位置情報そのものに基づいて「報酬」を決定している。その結果、予測時点での調査対象(追跡対象)の位置情報を、予測時点でのまさに「行動」という形で、強化学習ゆえのより高い信頼性をもって予測・決定することができる。これにより、後に詳しく説明するように、対象の見え方が変化したりオクルージョンが発生したりする場合でも、対象をより確実に識別しながらその位置を追うことが可能となるのである。
この点、強化学習においては通常、環境に関する完全な理解はない状況で学習が進行するが、位置情報予測装置1では、位置情報実データ(画像情報)をまさに正解に係る情報として取り扱い、効果的な「報酬」を決定している。その結果、より適切な「行動」を出力可能とする有効な学習を、効率良く実施することが可能となるのである。
なお、装置1で取り扱われる位置情報実データは、本実施形態のようなカメラ撮影によって生成された画像データに限定されるものではない。調査対象(追跡対象)の実際の位置に関係するデータであれば、様々なものが該当する。例えば、デプスカメラによって生成される(対象の各画素の)デプス値情報を、位置情報実データとして利用することも可能である。
同じく図1に示すように、物体追跡装置1では、追跡対象物体は、床又は地面での接地位置である物体位置に存在する3次元の物体モデルとして捉えられる。この物体モデルは、その物体の概形を表現した所定の標準的な形状を有し、モデル表面に位置する3次元空間内の点の集合となっている。 例えば、追跡対象物体が人物の場合、図1に示したような、サイズの異なる円柱を縦に重ねた形状の表面に位置する点の集合を3次元物体モデルとすることができる。
また、物体追跡装置1は、刻々と取得される画像内に張られた画像座標系u-vでの位置座標(u, v)を、実空間に張られた世界座標系Gx-Gy-Gzでの位置座標(gx, gy, gz)へ変換する座標変換操作を用いて、追跡対象物体の映った画像情報から、実空間での位置の変化分Δp等の位置情報を算出している。
例えば、追跡対象物体の画像内における前時刻(T−1)での位置(u, v)が、現時刻Tでの位置(u', v')へ変化した場合、この物体は、実空間(観測対象空間)において前時刻(T−1)での位置(gx, gy, gz)から現時刻Tでの位置(gx', gy', gz')へ移動したことが推定され、実空間での位置の前時刻(T−1)からの変化分を取得することができる。
ここで、使用する時刻は、単位時間を1としてこの単位時間経過毎に設定される時刻であり、時刻Tの1つ前となる前時刻はT-1となる。また、上記のような画像座標系から世界座標系への座標変換は、予めキャリブレーションにより各カメラ2についての設置位置及び撮影向きに係る外部パラメータを設定しておくことによって決定することが可能である。なお、複数のカメラ2のそれぞれから画像が取得される場合でも、これらの画像を統合して1つの画像空間を構築し、この画像空間に画像座標系を適用することができる。
このように、物体追跡装置1は、刻々と取得される画像情報(画像座標系u-vでの位置情報)に基づき、追跡対象物体の実空間での位置情報(世界座標系Gx-Gy-Gzでの位置情報)を、強化学習部113によって推定することができるのである。
さらに、本実施形態において、物体追跡装置1は、複数(又は多数)の物体を同時に追跡することができる。物体追跡装置1は、このような複数物体の追跡において、追跡対象の見え方が変化したりオクルージョンが発生したりする場合でも、強化学習に基づき、物体の状態に応じた最適な方策に従い追跡を行うことで、例えば対象固有の識別子IDを付与し続けながら、それらの位置を追跡することができる。
具体的には、後に詳しく説明するように、追跡対象物体の移動をエージェントの移動として捉え、強化学習によって画像情報と複数物体に係る最適な位置情報(移動分)との関係を学習し、物体の状態に応じた最適な方策(エージェントをどのように動かすと最適かという方策)に従うことによって、さらにその方策を自動的に学習することで、複数物体の同時追跡を可能とするのである。
さらに、物体追跡装置1は、強化学習部113において、カメラ2から取得した時系列の各画像を用いて即座に、すなわちオンラインで学習することができる。その結果、追跡対象物体の位置を即座に把握して追跡を行うことが可能となるのである。さらに、刻々と学習する強化学習部113を用いて追跡を行うので、対象の見え方が変化したりオクルージョンが発生したりする場合でも、同一の物体であると認識することができ、例えば当該物体に固有のIDを付与し続けながら、適切な追跡を続行することが容易になる。
図2は、本発明による位置情報予測装置の一実施形態における処理の流れを概略的に示すフローチャートである。
図2によれば、本実施形態の物体追跡装置(位置情報予測装置)1は、カメラ2から解析対象の画像を取得した際、追跡対象の複数の物体に対応した学習済みの強化学習部113に対して当該画像を入力し、当該物体の位置情報としての「行動a」を出力させて当該物体を追跡する。追跡対象である複数物体の各々には当該物体固有のIDが継続して付与される。
ここで、強化学習部113で実施される強化学習アルゴリズムについて説明する。強化学習とは、「環境」中に置かれた「エージェント」が、「環境」との相互作用を通して最適な方策(行動を決定する決まり)を得るように設計された機械学習の一手法である。この強化学習における「エージェント」は、行動主体であって、「環境」の「状態s」を計測し、方策に基づいて次にとる「行動a」を選択し出力する。この行動出力が、テスト(予測)に相当する。
その後、この「行動a」は「環境」によって評価され、「エージェント」は「環境」から「行動a」に応じた「報酬r」を受け取る。「報酬r」は行動の良し悪しを評価するものであり、「エージェント」は、適切な行動をとった場合に高い報酬(通常は正の報酬)を獲得し、適切でない行動をとった場合には低い報酬(通常は負の報酬)を受け取る。次いで、「エージェント」は、受け取った「報酬r」に基づいて、方策を更新する。この方策の更新が、学習に相当する。ここでは、この学習はオンラインで実施されることになる。
本実施形態では、追跡対象の複数の物体の各々に対応する3次元モデルを「エージェント」として捉える。そして、この「エージェント」を実空間上でどのように移動させるか又はロストさせるかといった状態変化を、強化学習の「行動a」として設定する。さらに、実際の物体の動きに係る情報(正解データ)との近さを、選択した「行動a」に対する「報酬r」とする。ここで、「エージェント」は、出力した「行動a」が正解データに近ければ近いほどより高い「報酬r」を取得するが、このような報酬に基づき、方策をより適切なものに更新していくのである。
同じく図2に示すように、物体追跡装置1は、上記の追跡処理と並行して、検出処理を行う。具体的には、新規の又は追跡されていない可能性のある物体が、取得された画像上に写っていないか否かを学習済みの検出用識別器を用いて判定し、このような物体の領域が当該画像上に出現した際に当該物体を検出したとする。
物体が検出された際、物体追跡装置1は、新規に追跡を開始する前に、検出された物体と過去に追跡していた物体との類似度を算出し、この類似度が所定値以上である場合に、一旦追跡が終了した物体が撮影可能な空間内に復帰したとみなす。この場合、類似度の高い過去の物体と同一の識別子IDを検出物体に付与して、すなわち識別子IDを統合して追跡を再開する。一方、算出した類似度が所定値よりも小さい場合、新規の物体が撮影可能な空間内に出現したとみなし、新規の識別子IDを検出物体に付与する。
物体追跡装置1は、次いで、時系列で再び新たな画像を取得して、図2に示したような処理のサイクルを繰り返す。
以上に説明したように、物体追跡装置1は、1つ以上のカメラ2からの時系列画像群を用いて追跡と同時に検出処理も行っているので、物体における様々の状況に合わせて、的確且つ統合的な追跡を実施することができる。
図3は、本発明による物体追跡装置の一実施形態における機能構成を示す機能ブロック図である。
図3によれば、物体追跡装置1は、1つ又は複数のカメラ2と通信接続可能な通信インタフェース101と、画像蓄積部102と、ID蓄積部103と、行動価値関数記憶部104と、追跡物体情報記憶部105と、プロセッサ・メモリとを有する。ここで、プロセッサ・メモリは、物体追跡装置1のコンピュータを機能させるプログラムを実行することによって、物体追跡機能(位置情報予測機能)を実現させる。
さらに、プロセッサ・メモリは、機能構成部として、物体検出部111と、ID(識別子)管理部112と、強化学習部113と、追跡物体管理部114と、通信制御部115とを有する。ここで、物体検出部111は、検出用識別器111aを有することも好ましい。また、ID管理部112は、既存物体状態更新部112aと、新規物体登録管理部112bとを有することも好ましい。さらに、強化学習部113は、テスト部113aと、報酬生成部113bと、学習部113cとを有することも好ましい。なお、図3における物体追跡装置1の機能構成部間を矢印で接続して示した処理の流れは、本発明による物体追跡方法(位置情報予測方法)の一実施形態としても理解される。
カメラ2は、例えば、CCDイメージセンサ、CMOSイメージセンサ等の固体撮像素子を備えた可視光、近赤外線又は赤外線対応の撮影デバイスである。なお、上述したように、カメラ2としてデプスカメラを用いることも可能である。また、カメラ2又は(図示していない)カメラ制御装置は、カメラ2で撮影された物体の画像を含む撮影画像データを生成し、当該データを時系列に又はバッチで物体追跡装置1に送信する機能を有する。また、カメラ2は、可動であって設置位置、撮影向きや高さを変更することができ、この変更のための制御信号を受信し処理する機能を有していることも好ましい。
通信インタフェース101は、カメラ2又はカメラ制御装置から時系列の画像群である撮影画像データを、通信ネットワークを介して受信する。通信インタフェース101を使用した送受信及び通信データ処理の制御は、通信制御部121によって行われ、取得された撮影画像データは、画像蓄積部102に蓄積される。ここで、この撮影画像データは、カメラ2又はカメラ制御装置から時系列順に呼び出されて取得されたものであってもよく、リアルタイムに一定時間間隔でキャプチャされた画像を順に取得したものであってもよい。
物体検出部111は、所定の特徴量を用いて学習を行った検出用識別器111aによって、物体識別対象の画像における出現した又は追跡されていない物体を検出可能な機能部である。この検出された物体に係る情報から、後述するテスト部113aにおいて予測時点での「状態」が決定される。
物体検出部111は、具体的には、画像蓄積部102に蓄積された画像において、追跡対象となる物体に対応する画像領域を検出する。ここで、人物を追跡対象とする場合、学習には人物検出に適した特徴量を用いる。物体検出のための特徴量としては、例えばHOG特徴量を使用することも好ましい。HOG特徴量は、画像の局所領域における輝度の勾配方向をヒストグラム化し、各度数を成分としたベクトル量である。HOG特徴量を用いた人物検出技術については、例えば、非特許文献であるDalal. N and Triggs. B,"Histograms of Oriented Gradients for Human Detection",proceedings of IEEE Computer Vision and Pattern Recognition (CVPR),2005年,886〜893頁に記載されている。
物体検出部111は、さらに、画像蓄積部102から入力した画像から物体を検出した際、新規登録の可能性がある検出した物体の情報をID管理部112へ通知し、登録を依頼する。
ID管理部112は、既存物体状態更新部112aと、新規物体登録管理部112bとを有する。既存物体状態更新部112aは、既に登録されている各物体に対応するエージェントの状態を更新するように強化学習部113へ依頼する。また、強化学習部113からこの状態更新の終了の通知を受けると、その更新情報をID蓄積部103へ登録する。ちなみに、強化学習部113は、既存物体状態更新部112aから物体の状態更新の依頼を受け取ると、後に詳しく説明するが、物体に対応する各エージェントの置かれている状態から、行動価値関数記憶部104に保持されている行動価値関数に従い、前時刻から現在の時刻においてエージェントを実空間上でいかに移動させるか、又はロストさせるかどうかを判断する。すなわち、強化学習部113は、時刻毎に既存物体状態更新部112aからリクエストを受けて、行動価値関数に従って行動を決定するのである。
一方、新規物体登録管理部112bは、既存物体の状態更新が終了すると、物体検出部111から出力される物体検出結果から新規物体が出現したかどうかを強化学習部113へ問い合わせる。新規物体があった場合、この新規物体に係る情報をID蓄積部103へ登録する。ちなみに、強化学習部113は、新規物体登録管理部112bからの依頼を受け取ると、これも後に詳しく説明するが、各物体検出結果について、他物体領域とのオーバーラップ率、検出結果の信頼度、及び物体の3次元モデルとの比較による物体らしさの評価結果を状態としてとらえ、新規に物体追跡を開始するかどうかを判断する。新規に物体追跡を行うとの判断を行った場合、この判断結果を新規物体登録管理部112bに通知する。
同じく図3において、強化学習部113は、テスト部113aと、報酬生成部113bと、学習部113cとを有する。このうち、テスト部113aは、
(a)「1つの時点における調査対象の複数の候補位置に係る情報」を含む「状態」と、
(b)この1つの時点において調査対象がいずれの候補位置に移動するかの情報を含む「行動」と
を変数とする行動価値関数を用いて、予測時点での「状態」から、この予測時点での調査対象の「行動」を、この予測時点での調査対象の位置情報として決定する。
ここで、上記(a)における「1つの時点における調査対象の複数の候補位置に係る情報」は、
(a4-1)この1つの時点の前の時点において決定された位置情報に基づいて決定された複数の候補位置の各々について画像データ(位置情報実データ)から算出される特徴量における、予め設定された調査対象のモデルに対する類似の度合いに係る情報φ(qi)
とすることができる。
このように、本実施形態の強化学習部113は、強化学習アルゴリズムのうち、行動価値関数を用いて最適方策を学習する、いわゆるQ学習を実施して、物体追跡のための処理を行っている。ここで、行動価値とは、図2に示したように、エージェントが、置かれた状態sで行動aをとることによるメリットである。Q学習において、この行動価値は、状態sと行動aとの全ての組(s, a)の各々に対し、1つ存在する。行動価値関数は、この全ての組(s, a)について行動価値を対応付けた関数であり、以後、Q(s, a)と表す。Q学習において最適方策を得るというのは、行動価値関数Q(s, a)を得ることと同意である。
また、行動価値関数Q(s, a)の変数である状態sは、1つの時点における調査対象の複数の候補位置に係る情報として、さらに、
(a4-2)1つの時点以前での追跡対象物体において、最後に確認された位置の変化分を変数とする複数の候補位置の各々に関する確率密度関数に係る情報α(P', P, qi)と、
(a4-3)複数の候補位置の各々における追跡対象物体相当の画像領域と、この1つの時点において検出された物体相当の画像領域との重畳の度合いに係る情報η(qi)と、
(a4-4)この1つの時点における、追跡対象物体と他の物体とを2値分類する識別器によって算出された類似度に係る情報π(qi)と、
(a4-5)この1つの時点の前の時点で検出された追跡対象物体相当の画像領域における特徴的な画素であるキーポイントが、移動(オプティカルフロー)した後のこの1つの時点において、複数の候補位置の各々におけるこの物体相当の画像領域に含まれている割合に係る情報γ(qi)と
の少なくとも1つを含むことも好ましい。
さらにまた、行動価値関数Q(s, a)の変数である状態sは、
(a1)追跡対象物体がロストしてから当該1つの時点の前の時点までに経過した時間に係る情報tlostと、
(a2)この1つの時点以前での追跡対象物体の最終位置を中心とした周囲を区分する複数の所定角度範囲の各々における最近の物体までの距離に係る情報Dist(ri)と、
(a3)この1つの時点以前での追跡対象物体の最終位置であって、画像座標上での最終位置におけるこの物体相当の画像領域と、他の物体相当の画像領域との重畳の度合いに係る情報omax
の少なくとも1つをさらに含むことも好ましい。
本実施形態では、時刻t=Tにおけるあるエージェントの状態sは、上記(a1)、(a2)、(a3)、及び(a4-1)〜(a4-5)の全てを含む好適な形態として、
(1) s=[tlost, Dist(r1),・・・Dist(rM), omax, ,Φ(q0),・・・, Φ(qn)]
と表される。ここで、
(2) Φ(qi)={[α(P', P, qi), η(qi), φ(qi), π(qi), γ(qi)]|α(P', P, qi)∈R2, η(qi),φ(qi),π(qi),γ(qi) ∈R, i=0,・・・,N}
である。
以後、(1)式及び(2)式で表された状態sの各構成要素について説明する。
[tlost
状態sの構成要素である上式(1)のtlostは、追跡対象の物体がロストした時点(見失われて追跡が継続できなくなった時点)から時刻T−1までに経過した時間である。ここで、時刻T−1までとしたのは、tlostを、ロストしたか否かの状態が確定した時刻T−1に係る情報とするためである。従って、時刻T−1で物体がロストしていない場合、tlost=0となり、時刻T−1でロストしていれば、ロストしてから時刻T−1までに経過した時間となる。tlostの単位は、秒であってもよく、また、例えばフレーム数とすることもできる。
[Dist(ri)]
図4は、状態sの構成要素Dist(ri)を説明するための模式図である。
図4に示すように、状態sの構成要素である上式(1)のDist(ri)は、実空間に張られた世界座標系Gx-Gy-Gzにおける、時刻T以前に追跡対象の物体が存在していたその最終位置Pを基準として、角度ri-1に係る向きと角度riに係る向きとの間となる向きに存在する他の物体までのユークリッド距離dであり、次式
(3) Dist(ri)={d|d∈R, d≧0, ri∈[0,360), i=1,・・・, M-1, rM=360}
で表される。ちなみに、図4では、1つの例としてDist(r2)が示されている。
ここで、追跡対象物体の最終位置Pは、ロストしていなければ時刻T−1における当該物体の位置となり、一方、ロストしていればロストする直前の位置となる。また、角度riは、最終位置Pとその直前の位置P'とから算出される最終移動ベクトルΔPの向きを基準(0度)として、位置Pを中心とした周囲360度をM個の「向き範囲」に分ける角度である。具体的に、M個の「向き範囲」はそれぞれ、[0, r1)、[r1, r2)、・・・、[rM-1, rM(=360))の角度範囲で規定される。例えば、他の物体が、角度範囲[0, r1)で規定される「向き範囲」内の向きに、位置Pから距離dだけ離隔した位置に存在していた場合、Dist(r1)=dとなる。なお、他の物体の存在が確認されなかった場合、Dist(r1)=∞とすることができる。
[omax
図5は、状態sの構成要素omaxを説明するための模式図である。
図5に示すように、状態sの構成要素である上式(1)のomaxは、
(a)時刻T以前に追跡対象物体が存在していた最終位置Pにおける、画像座標系u-vでの当該物体の画像領域PHI(P)と、
(b)時刻T−1に存在していた他の物体の画像領域PHI(C)と
のオーバーラップ率のうちの最大のものである最大オーバーラップ率である。ここで、画像領域PHI(P)とPHI(C)とのオーバーラップ率OVRは、
(4) OVR=(PHI(P)∩PHI(C))/PHI(P)
と定義される。
関数PHI(P)は、実空間に張られた世界座標系Gx-Gy-Gzでの位置Pに置かれた3次元モデルの表面をなす点集合を、画像座標系u-vでの領域(ピクセル集合)へ射影した結果としての、投影された全ての点を含む最小の非凸領域(物体画像領域)を定義する。なお、この定義される物体画像領域は、画像座標系u-vに投影された全ての点を含む最小の凸領域又は矩形であるとされてもよい。
[Φ(qi)]
状態sの構成要素である上式(1)のΦ(qi)は、時刻Tにおいて追跡対象物体(に対応するエージェント)が存在している可能性のある候補位置qiに関する状態情報を示す。
図6は、状態sの構成要素Φ(qi)における候補位置qiを説明するための模式図である。
図6に示したように、本実施形態において、候補位置qiは、最終位置Pを原点とした同心円のグリッドを用いたグリッドサンプリングによって得られる。すなわち、同心円グリッドにおける格子点、または、当該グリッドによって規定される面積範囲を代表する点を候補位置qiとすることができる。本実施形態では、i=0, ・・, Nであって、候補位置qiは、原点Pを含めてN+1個存在する。なお、当然に、候補位置qiの設定は、この実施形態に限定されるものではなく種々の形態が可能となる。例えば、最終位置Pを原点とした矩形グリッドの格子点のうち、原点Pから所定距離範囲内にある位置を候補位置としてもよい。
次に、Φ(qi)の構成要素について説明する。上式(2)に示したように、Φ(qi)は、速度の一貫性α(P', P, qi)、検出結果との最大オーバーラップ率η(qi)、追跡対象物体か背景かを分類する学習器が算出した当該物体との類似度φ(qi)、追跡対象物体か他の物体かを2値分類する学習器が算出した追跡対象物体との類似度π(qi)、及び画素の色変化との整合性γ(qi)で構成されている。以下、順次、これらの構成要素を説明する。
[α(P', P, qi)]
Φ(qi)の構成要素α(P', P, qi)は、最後に確認された位置変化分Δp=P−P'から求められた位置qiに関する確率密度関数(の値)である。具体的には、物体は前時刻と似た動きを行う確率が高いという仮説に基づいて算出される、位置変化分に関する確率密度となっている。
図7は、Φ(qi)の構成要素α(P', P, qi)を説明するためのグラフである。
図7によれば、α(P', P, qi)は、位置変化分(移動)Δpに関する確率密度関数であって、予め設定された分散共分散行列Σを用い、Δpを平均として規定された2変量正規分布N(Δp, Σ)として定義される。ここで、ロストの継続時間に応じて分散共分散行列Σの値を変化させ、ロスト時間が長くなるほど、最後に確認された位置変化分Δpと同じ動きをする確率をより小さくすることも好ましい。このような所定の確率モデルに基づく確率密度関数αをΦ(qi)の構成要素とすることによって、前時刻T−1での移動量から見て、起こり得る確率の十分に高い時刻Tでの移動量を、状態sに反映させることができるのである。
[η(qi)]
Φ(qi)の構成要素η(qi)は、
(a)画像上での(画像座標系u-vでの)候補位置における画像領域PHI(qi)と、
(b)時刻Tの画像上で(物体検出部111によって)検出された画像領域Bと
のオーバーラップ率のうちの最大のものである最大オーバーラップ率である。ここで、画像領域PHI(qi)と検出画像領域Bとのオーバーラップ率OVR'は、
(5) OVR'=(PHI(P)∩B)/(PHI(P)∪B)
と定義される。
[φ(qi)]
Φ(qi)の構成要素φ(qi)は、追跡対象物体である物体Aか背景かを分類する学習器が算出した、時刻Tにおける画像上での(画像座標系u-vでの)候補位置の画像領域PHI(qi)と、物体Aの見かけモデルとの類似度である。
図8は、Φ(qi)の構成要素φ(qi)を説明するためのグラフである。
図8によれば、構成要素φ(qi)は、物体Aか背景かを2値分類する識別器におけるスコア(類似度)、すなわち、(画像座標系u-vでの)候補位置における画像領域PHI(qi)の特徴量の、特徴空間における識別超平面からの符号付き距離dとして定義することができる。
また、ここで使用される識別器は、図8に示すように、画像上での領域を特徴量化し、この特徴量を用いて学習及び物体Aの識別を行う。具体的には、時刻T−1における物体Aの画像領域PHI(P)に対応付けられる特徴量を正のラベルとし、画像領域PHI(P)の周辺からサンプリングした背景領域に対応付けられる特徴量を負のラベルとして、オンラインで学習を行う。また、時刻t=0, ・・・, T−1までの学習によって更新された結果を用いて、時刻Tにおける候補位置の画像領域PHI(qi)の見かけをスコア化する。
このような識別器として、例えばサポートベクタマシン(SVM,Structured Support Vector Machine)を用いることができる。また特徴量としては、領域内の色ヒストグラムや、Haar-Like特徴を用いてもよい。なお、Haar-Like特徴については、例えば、非特許文献であるViola, P and Jones, M,"Rapid object detection using a boosted cascade of simple features",Proceedings of IEEE Computer Vision and Pattern Recognition (CVPR),vol.1,2001年,511〜518頁に記載されている。
[π(qi)]
Φ(qi)の構成要素π(qi)は、追跡対象の物体Aかそれ以外の物体かを2値分類する識別器が算出した物体Aとの類似度である。この類似度として、例えば、上記のΦ(qi)と同様に、2値分類する識別器におけるスコア、すなわち、(画像座標系u-vでの)候補位置における画像領域PHI(qi)の特徴量の、特徴空間における識別超平面からの符号付き距離dを用いることができる。
また、ここで使用される識別器においては、時刻T−1における物体Aの画像領域PHI(P)に対応付けられる特徴量を正のラベルとし、時刻T−1に存在していた他の物体に係る画像領域に対応付けられる特徴量を負のラベルとして学習を行う。その後、学習によって更新された結果を用いて、時刻Tにおける候補位置の画像領域PHI(qi)の見かけをスコア化する。
[γ(qi)]
Φ(qi)の構成要素γ(qi)は、画素の色変化との整合性を示す値である。γ(qi)を算出するには、最初に、時刻T-1における追跡対象の物体Aの画像領域PHI(P)内で、特徴的な画素(キーポイント)を検出し、そのキーポイントの時刻T-1から時刻Tにかけての移動(オプティカルフロー)を推定する。次いで、例えば、オプティカルフローの決定されたキーポイントのうち、移動先の画素位置が候補位置の画像領域PHI(qi)に含まれているものの割合をγ(qi)とすることができる。
ここで、上述したキーポイントの移動推定は、例えば、Lucas-Kanade法を用いて実施することができる。なお、Lucas-Kanade法については、例えば、非特許文献であるB. Lucas and T. Kanade,"An iterative image registration technique with an application to stereo vision",In Proc. Seventh International Conference on Artificial Intelligence,1981年,674〜679頁に記載されている。
以上、行動価値関数Q(s, a)の変数である状態sの構成要素について詳細に説明したが、次いで、同変数である行動aについて説明する。
本実施形態において、行動価値関数Q(s, a)の変数である行動aのとり得る値は、
(a)物体を追跡対象から外すことを示す値と、
(b)当該物体を移動させないことを示す値と、
(c)当該物体を移動先としてのN個の候補位置にそれぞれ移動させることを示すN個の値と
を含む。
具体的に、行動価値関数Q(s, a)の変数である行動aは、次式のように定義することができる。
(6) a∈{ロストさせる,Δpi移動させる||ΔPi|∈[0, R], ΔP0=0, i=1,・・・, N}
ここで、ΔP0はゼロベクトルであり、物体を移動させないことを意味している。なお、本実施形態において、「Δpi移動させる」ことには、追跡対象物体がロストから復帰することも含み、この場合、最終位置PからΔpiだけ移動した地点qiから追跡を再開することになる。
図3に戻って、強化学習部113の報酬生成部113bは、決定された「行動」が、画像データ(位置情報実データ)から導出される調査対象の正解の位置情報に該当するか否かに基づいて「報酬」を生成する。
具体的に、上述した行動aに係る実施形態において、報酬生成部113bは、予測時点での画像データから導出される追跡対象物体の正解の位置情報に基づき、
(a)当該物体が所定の追跡範囲外へ移動したと判断した場合、又は当該物体の画像領域が他の物体の画像領域によって所定以上の割合で遮蔽されていると判断した場合、決定された行動aが当該物体を追跡対象から外すことであるならば、行動価値関数Q(s, a)の値を大きくする方向の報酬rを生成し、
(b)当該物体が所定の追跡範囲外へ移動したとも、当該物体の画像領域が他の物体の画像領域によって所定以上の割合で遮蔽されているとも判断しなかった場合、決定された行動aが当該物体を移動させない又は1つの候補位置に移動させることであって、正解の位置情報に係る位置と、当該物体の移動していない位置又は移動先である1つの候補位置との距離が所定未満であれば、行動価値関数Q(s, a)の値を大きくする方向の「報酬」を生成する
ことも好ましい。
このように、報酬rは、実際の物体の動き(正解データ)と物体のとった行動との近さとして設定することができる。より具体的には、例えば、追跡対象物体の画像領域が、他の物体の画像領域とのオクルージョンによって、所定割合閾値θ以上の割合で遮蔽されている場合や、追跡範囲外、すなわちカメラ撮影範囲外の領域へ移動した場合にはロストを正解とする。その上で、実際にとった行動aが「ロストさせる」であった場合には報酬rとして1を、そうでない場合には報酬rとして−1を与えることができる。
一方、正解がロストでない場合には、例えば実空間上の実際の位置と推定位置とのユークリッド距離が下限閾値δlow未満であれば報酬1を、上限閾値δhighよりも大きければ報酬−1を、また、推定位置が取り違えて他の物体の位置となっていた場合(ドリフティングが発生した場合)にも報酬−1を与えてもよい。さらに、その他の場合には、報酬は与えない、若しくは報酬ゼロを与えることができる。
同じく図3において、強化学習部113の学習部113cは、生成された報酬rに基づいて、行動価値関数Q(s, a)を更新する。ここで、更新された行動価値関数Q(s, a)は、行動価値関数記憶部104に適宜保存され、また、必要時に行動価値関数記憶部104から読み出される。この学習部113cにおける、行動価値関数Q(s, a)の更新を含む学習フェーズとしての処理については、後に、詳細に説明する。
追跡物体管理部114は、強化学習部113において更新された行動価値関数Q(s, a)によって出力された行動aの値に基づき、1つ又は複数の追跡対象物体の各々について、時刻毎に(実空間に張られた)世界座標系Gx-Gy-Gzにおける位置(又はロストした事実)を対応付けた追跡履歴を含む情報を、追跡物体情報として生成し、管理する。生成された追跡物体情報は、生成・更新される毎に、又は適宜、追跡物体情報記憶部105に記憶されることも好ましい。また、通信制御部115及び通信インタフェースを介し、外部の情報処理装置に送信されてもよい。
[学習フェーズ・テストフェーズ]
本実施形態の物体追跡装置1(強化学習部113)は、「学習フェーズ」と「テストフェーズ」との2つのフェーズをとることができる。このうち、「学習フェーズ」は、追跡対象物体の正しい画像領域(又は実空間上の位置)を用い、強化学習によって、画像から得られる情報と実際の物体の動き(正解データ)とから物体の3次元モデル(エージェント)をどのように動かすと最適となるかという方策を学習する。
一方、「テストフェーズ」は、物体位置が未知である、すなわち正解データの存在しない映像(画像群)に対し、学習フェーズで学習された方策、すなわち更新された行動価値関数に基づき物体を追跡するフェーズである。ちなみに、本発明によれば、このテストフェーズでの物体追跡精度を高めることが可能となるのである。以下、両フェーズの理解を容易にするため、最初にテストフェーズについて説明したのちに、学習フェーズについて説明する。
[テストフェーズ:物体検出]
図3に示した物体検出部111は、画像蓄積部102から入力した画像上で所望の物体(例えば人物)を検出する。具体的には、画像上で、追跡対象物体が写っていると判断される画像領域を検出してもよい。このような物体検出には、例えばHOG特徴量を用いて学習された識別器を用いる。ここで、HOG特徴量は、画像の局所領域における輝度の勾配方向をヒストグラム化し、各度数を成分としたベクトル量である。HOG特徴量を用いた人物検出技術については、例えば、非特許文献であるDalal. N and Triggs. B,"Histograms of Oriented Gradients for Human Detection",Proceedings of IEEE Computer Vision and Pattern Recognition (CVPR),2005年,886〜893頁に記載されている。
[テストフェーズ:既存物体状態更新]
テストフェーズにおいては、エージェント(追跡対象物体の3次元モデル)と、エージェントの置かれる環境との間には、図2に示したやり取りのうち、環境からエージェントへ状態sが手渡され、さらに、エージェントから環境へ行動aが出力されるやり取りが存在する。すなわち、テストフェーズでは、環境がエージェントによって選択された行動aの評価を行って報酬rを算出し、さらに、エージェントがこの報酬rを受け取って行動価値関数を更新するといった学習処理は行われない。
このテストフェーズでは、図3において、ID管理部112の既存物体状態更新部112aから強化学習部113へ、既に追跡中である物体Aの状態更新のリクエストが出力された際、強化学習部113は、物体Aの置かれている現在の(時刻t=Tでの)状態sを観測する。具体的には、例えば、上式(1):s=[tlost, Dist(r1),・・・Dist(rM), omax, ,Φ(q0),・・・, Φ(qn)]を用いて状態sを算出する。
強化学習部113は、次いで、観測された(算出した)状態sを用い、行動価値関数Q(s, a)に従って、次にとる最適な行動a*を選択する。最適な行動a*は、次式
(7) a*=argmaxa Q(s, a)
を用いて決定することができる。上式(7)によれば、最適な行動a*は、与えられた状態sについて、行動価値関数Q(s, a)の値を最大にする行動aとして決定されることが理解される。
[テストフェーズ:新規物体登録]
また、物体検出部111は、新規物体管理部112bから、物体検出結果を受け取ると、各物体検出結果を新規の物体として当該物体の追跡を開始するかどうかを判断する。この際、検出の信頼度、他物体とのオーバーラップ率、標準的な3次元モデルとの整合性等から総合的に判断を行い、新規物体として登録するかどうかを判断する。例えば、特徴量fを、
(8) f=[f1, f2, f3, f4]
と規定し、新規物体か否か2値分類するSVM等の検出用識別器111aを用いて、検出物体に対応する特徴量が新規物体相当かどうかを判断する。ここで、式(8)において、
f1:検出の信頼値
f2:追跡中の他物体との最大オーバーラップ率
f3:標準的な物体の3次元モデルとの整合性
f4:検出された画像領域の足元位置を実空間の地面へ逆投影させた位置
である。
上記f3については、検出された画像領域の足元位置uを実空間の地面へ逆投影させた位置Pに、平均的な高さh0の物体の3次元モデルを置き、その3次元モデルを画像座標系u-vへ投影させた領域PHI(P)と検出画像領域Bとのオーバーラップ率OVRを、次式
(9) OVR=(PHI(P)∩B)/(PHI(P)∪B)
を用いて算出し、整合性の度合いとすることができる。
ここで、新規の物体検出は、物体が標準的な形状であり、且つ画像内で床(地面)に接している箇所が明確に判断される場合に実施されるとしてもよい。この場合、例えば、人物であれば直立している人物のみが検出される。新規に物体を登録する際、エージェントの初期化を行う。エージェントの初期化では、最初に、実空間における標準形状としての物体の高さを推定する。以下、実空間における物体の高さの算出について説明する。
図9は、物体検出部111における物体の高さh0を算出する方法の一実施形態を示す模式図である。
図9には、画像座標系u-v及び世界座標系Gx-Gy-Gzにおける対象物体に係る座標が示されている。予めのキャリブレーションによって各カメラ2の内部パラメータ及び外部パラメータを取得しておくことによって、カメラ2の設置位置や姿勢が変わらない限り、画像座標系u-vにおける座標(u, v)と世界座標系Gx-Gy-Gzにおける座標(gx, gy, gz)には下記のような関係が成立する。
Figure 0006618395
ここで、行列Pは予め決定された透視投影行列であり、sは未知のスカラ変数である。この際、各カメラ2の内部パラメータ及び外部パラメータをキャリブレーションによって予め設定しておけば、カメラ2の位置・姿勢が変わらない限り、透視投影行列Pは当初設定された値をとり続ける。
上式(10)を用いて、2次元の画像座標系での座標から3次元の世界座標系での座標を求める際、画像座標系での座標(u, v)及び透視投影行列Pが定まっているだけでは、未知パラメータの数(4つ)が観測方程式の数(3つ)よりも多いので、世界座標系での座標(gx, gy, gz)を一意に決定することはできない。
しかしながら、本実施形態では、図9に示したように、検出された物体について画像内で床や地面に接している接地位置(ub 0, vb 0)が取得される。従って、この接地位置(ub 0, vb 0)及びgz=0を上式(10)に代入することによって、接地位置(ub 0, vb 0)に対応する実空間上の位置(gx 0, gy 0, 0)を一意に取得することができる。ここで、実空間での物体の高さをh0とすると、取得された実空間の床面又は地面での位置座標gx 0及びgy 0と、画面座標系での物体の最上部の点(uh 0, vh 0)との間に、次式の関係が成立する。
Figure 0006618395
上式(11)において、未知のパラメータはs及びh0の2つのみであり、一方、観測方程式の数は3つであることから、この式を用いて実空間での高さh0を求めることが可能となる。なお、この際、s及びh0の値を、最終的に最小二乗法を用いて決定することも好ましい。このようにして、物体の高さh0を求め、エージェントの3次元モデルを初期化する。
[学習フェーズ]
次に、学習フェーズについて説明する。学習フェーズは、映像(時系列画像群、学習用シーケンス)と、それに対応する正解データとが用意されていることを前提として実施される。学習フェーズにおいて学習する対象は、本実施形態において、
(a)新規物体であるか否かの2値分類を行う新規物体識別器としての検出用識別器111a、及び
(b)行動価値関数Q(s, a)
である。
[学習フェーズ:検出用識別器]
物体検出部111(図3)は、全ての学習用シーケンス(時系列画像群)から物体検出を行い、各検出結果について上式(8)の特徴量fを算出する。次いで、当該検出結果に対し、新規物体であれば正のラベルを、そうでなければ負のラベルを付与して、2値分類を行うSVM等の検出用識別器(新規物体識別器)111aを生成する。
[学習フェーズ:行動価値関数]
強化学習部113(図3)は、学習用シーケンス(時系列画像群)の開始時刻から終了時刻まで、上述したテストフェーズと同様にして複数物体の追跡を実施する。ここで、行動価値関数Q(s, a)を当初、初期値Q0で初期化し、その後、状態sにおいて行動aを実行して、この行動aに対応する報酬rを、学習部113c(図3)に受け取らせる。学習部113cは、状態、行動及び報酬のセット(s, a, r)を用いて、行動価値関数Q(s, a)を更新する。
具体的に、行動価値関数Q(s, a)の更新方法として、状態sと行動aとの組に対し、テーブル関数Q(s, a)を作成し、全ての要素を任意の値に初期化した後、毎回(時刻毎)のデータ(s, a, r, s')に対し、次式を用いて更新を行う方法が挙げられる。
(12) Q(s, a)←(1−α)・Q(s, a)+α(r+γ・maxa'Q(s', a'))
ここで、rは、状態sで行動a を選択した後に環境から受け取った報酬である。また、s'は、同様に状態 s で行動 a を選択した後、次の時刻で受け取った状態を表す。αは、学習率であり、事前に定められる固定パラメータである。αとして、通常、1未満の例えば0.1や0.01といった小さい値が使用される。γは、割引率であり、同じく事前に定められる固定パラメータである。γとして、通常、0以上であって1未満の値が使用され、多くの場合0.99といった1に近い値に設定される。
しかしながら、上記の更新方法では、状態の次元数が非常に大きくなり、テーブル関数を乗せるためのメモリ容量も膨大となってしまう。そのため、行動価値関数Q(s, a)の学習(更新)の別の方法として、例えば、下記の文献に紹介されている、Q値の更新にディープラーニングを利用する方法を用いることも好ましい。
行動価値関数Qの学習方法に関する参考文献:Long-ji Lin,"Self-improving reactive agents based on reinforcement learning, planning and teaching",Machine Learning,vol.8(3),1992年,293〜322頁、及びMnih, Volodymyr, et al.,"Human-level control through deep reinforcement learning",Nature 518.7540,2015年,529〜533頁
以上詳細に説明したように、本発明によれば、「状態」及び「行動」を変数とする価値関数を用いて、すなわち強化学習アルゴリズムを利用して、位置情報を予測し、追跡を行う。ここで、複数の候補位置に係る事項を「状態」及び「行動」に含めているので、予測時点での調査対象(追跡対象)の位置情報を、予測時点でのまさに「行動」という形で、強化学習ゆえのより高い信頼性をもって予測・決定することができる。これにより、対象の見え方が変化したりオクルージョンが発生したりする場合でも、対象をより確実に識別しながらその位置を追うことが可能となるのである。
また、本発明による位置情報予測装置1では、各物体の状態(移動又はロスト)の変化を、他物体の実空間上での位置や画像上に現れている領域をも考慮して決定する。ここで、物体同士の位置が近接する場合や画像空間において他物体と重畳して見えづらくなるといったオクルージョンが発生する場合、追跡に失敗する可能性が高いので、意図的にロストさせるように方策の学習を行う。すなわち、追跡に失敗しやすい状況では意図的にロストさせ、一旦追跡を中断させることによって、各物体の見かけ情報にノイズが乗り難くなるようにする。また、この場合、再びオクルージョンが解消される等、追跡し易くなってから追跡を再開するので、結果的に、正確な追跡を継続することが可能となるのである。
さらに、位置情報予測装置1での物体追跡においては、物体検出結果をつないでいくのではなく、物体検出結果を、あくまで次時刻での移動先を決定する1つの要素として取り扱っている。ここで、次時刻での移動先は、前時刻での位置を基準とした周囲を探索し、物体検出結果を含む様々な状況に基づいて学習された方策に従い、複合的に判断している。これにより、ノイズの乗った物体検出結果のみに依存する場合と比較して、より安定した物体追跡を実施することができるのである。
また、本発明の構成及び方法は、例えば、人物が移動・滞留したり出入りしたりする場を監視する監視システム、及び商店街や商業・サービス施設内での人物の入店、休憩、観戦・イベント参加や、移動の状況を調査するためのマーケティング調査システム等、様々な系に適用可能である。
以上に述べた本発明の種々の実施形態において、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
1 物体追跡装置(位置情報予測装置)
101 通信インタフェース
102 画像蓄積部
103 ID蓄積部
104 行動価値関数記憶部
105 追跡物体情報記憶部
111 物体検出部
111a 検出用識別器
112 ID管理部
112a 既存物体状態更新部
112b 新規物体登録管理部
113 強化学習部
113a テスト部
113b 報酬生成部
113c 学習部
114 追跡物体管理部
115 通信制御部
2 カメラ

Claims (11)

  1. 調査対象における刻々の実際の位置に関係するデータである位置情報実データに基づいて、当該調査対象の位置情報を予測する位置情報予測装置であって、
    1つの時点における当該調査対象の複数の候補位置の各々に係る情報を含む「状態」と、当該1つの時点において当該調査対象がいずれの当該候補位置に移動するかの情報を含む「行動」とを変数とする価値関数を用いて、予測時点での「状態」から、当該予測時点での当該調査対象の「行動」を、当該予測時点での当該調査対象の位置情報として決定するテスト手段
    を有することを特徴とする位置情報予測装置。
  2. 決定された「行動」が、当該位置情報実データから導出される当該調査対象の正解の位置情報に該当するか否かに基づいて、「報酬」を生成する報酬生成手段と、
    生成された「報酬」に基づいて、当該価値関数を更新する学習手段と
    を更に有することを特徴とする請求項1に記載の位置情報予測装置。
  3. 当該位置情報実データは、当該調査対象である物体を撮影可能な1つ以上のカメラから取得される時系列の画像群であり、
    前記報酬生成手段は、決定された「行動」が、当該予測時点での当該画像から導出される当該調査対象の正解の位置情報に該当するか否かに基づいて「報酬」を生成する
    ことを特徴とする請求項に記載の位置情報予測装置。
  4. 当該画像から調査対象の物体を含む物体を検出する物体検出手段を更に有し、
    前記テスト手段は、検出された当該調査対象の物体に係る情報から、予測時点での「状態」を決定する
    ことを特徴とする請求項に記載の位置情報予測装置。
  5. 調査対象における刻々の実際の位置に関係するデータである位置情報実データに基づいて、当該調査対象の位置情報を予測する位置情報予測装置であって、
    1つの時点における当該調査対象の複数の候補位置に係る情報を含む「状態」と、当該1つの時点において当該調査対象がいずれの当該候補位置に移動するかの情報を含む「行動」とを変数とする価値関数を用いて、予測時点での「状態」から、当該予測時点での当該調査対象の「行動」を、当該予測時点での当該調査対象の位置情報として決定するテスト手段を有し、
    当該「状態」において、当該1つの時点における当該調査対象の複数の候補位置に係る情報は、当該1つの時点の前の時点において決定された位置情報に基づいて決定された当該複数の候補位置の各々について当該位置情報実データから算出される特徴量における、予め設定された当該調査対象のモデルに対する類似の度合いに係る情報であ
    とを特徴とする位置情報予測装置。
  6. 調査対象を撮影可能な1つ以上のカメラから取得される時系列の画像群であって当該調査対象における刻々の実際の位置に関係するデータである画像群に基づいて、当該調査対象の位置情報を予測する位置情報予測装置であって、
    1つの時点における当該調査対象の複数の候補位置に係る情報を含む「状態」と、当該1つの時点において当該調査対象がいずれの当該候補位置に移動するかの情報を含む「行動」とを変数とする価値関数を用いて、予測時点での「状態」から、当該予測時点での当該調査対象の「行動」を、当該予測時点での当該調査対象の位置情報として決定するテスト手段と、
    決定された「行動」が、当該予測時点での当該画像から導出される当該調査対象の正解の位置情報に該当するか否かに基づいて「報酬」を生成する報酬生成手段と、
    生成された「報酬」に基づいて、当該価値関数を更新する学習手段と
    を有し、
    当該価値関数の変数である「行動」のとり得る値は、当該物体を追跡対象から外すことを示す値と、当該物体を移動させないことを示す値と、当該物体を移動先としてのN個の候補位置にそれぞれ移動させることを示すN個の値とを含み、
    前記報酬生成手段は、当該予測時点での当該画像から導出される当該物体の正解の位置情報に基づき、
    当該物体が所定の追跡範囲外へ移動したと判断した場合、又は当該物体の画像領域が他の物体の画像領域によって所定以上の割合で遮蔽されていると判断した場合、決定された「行動」が当該物体を追跡対象から外すことであるならば、当該価値関数の値を大きくする方向の「報酬」を生成し、
    当該物体が当該所定の追跡範囲外へ移動したとも、当該物体の画像領域が他の物体の画像領域によって所定以上の割合で遮蔽されているとも判断しなかった場合、決定された「行動」が当該物体を移動させない又は1つの候補位置に移動させることであって、当該正解の位置情報に係る位置と、当該物体の移動していない位置又は移動先である当該1つの候補位置との距離が所定未満であれば、当該価値関数の値を大きくする方向の「報酬」を生成する
    ことを特徴とする位置情報予測装置。
  7. 調査対象を撮影可能な1つ以上のカメラから取得される時系列の画像群であって当該調査対象における刻々の実際の位置に関係するデータである画像群に基づいて、当該調査対象の位置情報を予測する位置情報予測装置であって、
    1つの時点における当該調査対象の複数の候補位置に係る情報を含む「状態」と、当該1つの時点において当該調査対象がいずれの当該候補位置に移動するかの情報を含む「行動」とを変数とする価値関数を用いて、予測時点での「状態」から、当該予測時点での当該調査対象の「行動」を、当該予測時点での当該調査対象の位置情報として決定するテスト手段と、
    決定された「行動」が、当該予測時点での当該画像から導出される当該調査対象の正解の位置情報に該当するか否かに基づいて「報酬」を生成する報酬生成手段と、
    生成された「報酬」に基づいて、当該価値関数を更新する学習手段と
    を有し、
    当該価値関数の変数である「状態」は、当該1つの時点における当該調査対象の複数の候補位置に係る情報として、
    当該1つの時点の前の時点において決定された位置情報に基づいて決定された当該複数の候補位置の各々について当該画像から算出される特徴量における、予め設定された当該調査対象のモデルに対する類似の度合いに係る情報
    を含むことを特徴とする位置情報予測装置。
  8. 当該価値関数の変数である「状態」は、当該1つの時点における当該調査対象の複数の候補位置に係る情報として、
    当該1つの時点以前での当該物体において最後に確認された位置の変化分を変数とする当該複数の候補位置の各々に関する確率密度関数に係る情報と、
    当該複数の候補位置の各々における当該物体相当の画像領域と、当該1つの時点において検出された物体相当の画像領域との重畳の度合いに係る情報と、
    当該1つの時点における、当該物体と他の物体とを2値分類する識別器によって算出された類似度に係る情報と、
    当該1つの時点の前の時点で検出された当該物体相当の画像領域における特徴的な画素であるキーポイントが、移動(オプティカルフロー)した後の当該1つの時点において、当該複数の候補位置の各々における当該物体相当の画像領域に含まれている割合に係る情報と
    の少なくとも1つを更に含むことを特徴とする請求項に記載の位置情報予測装置。
  9. 調査対象を撮影可能な1つ以上のカメラから取得される時系列の画像群であって当該調査対象における刻々の実際の位置に関係するデータである画像群に基づいて、当該調査対象の位置情報を予測する位置情報予測装置であって、
    1つの時点における当該調査対象の複数の候補位置に係る情報を含む「状態」と、当該1つの時点において当該調査対象がいずれの当該候補位置に移動するかの情報を含む「行動」とを変数とする価値関数を用いて、予測時点での「状態」から、当該予測時点での当該調査対象の「行動」を、当該予測時点での当該調査対象の位置情報として決定するテスト手段と、
    決定された「行動」が、当該予測時点での当該画像から導出される当該調査対象の正解の位置情報に該当するか否かに基づいて「報酬」を生成する報酬生成手段と、
    生成された「報酬」に基づいて、当該価値関数を更新する学習手段と
    を有し、
    当該価値関数の変数である、当該1つの時点での「状態」は、
    当該物体がロストしてから当該1つの時点の前の時点までに経過した時間に係る情報と、
    当該1つの時点以前での当該物体の最終位置を中心とした周囲を区分する複数の所定角度範囲の各々における最近の物体までの距離に係る情報と、
    当該1つの時点以前での当該物体の最終位置であって、当該画像座標上での最終位置における当該物体相当の画像領域と、他の物体相当の画像領域との重畳の度合いに係る情報と
    の少なくとも1つを更に含むことを特徴とする位置情報予測装置。
  10. 調査対象における刻々の実際の位置に関係するデータである位置情報実データに基づいて、当該調査対象の位置情報を予測する装置に搭載されたコンピュータを機能させるプログラムであって、
    1つの時点における当該調査対象の複数の候補位置の各々に係る情報を含む「状態」と、当該1つの時点において当該調査対象がいずれの当該候補位置に移動するかの情報を含む「行動」とを変数とする価値関数を用いて、予測時点での「状態」から、当該予測時点での当該調査対象の「行動」を、当該予測時点での当該調査対象の位置情報として決定するテスト手段
    としてコンピュータを機能させることを特徴とする位置情報予測プログラム。
  11. 調査対象における刻々の実際の位置に関係するデータである位置情報実データに基づいて、当該調査対象の位置情報を予測する位置情報予測方法であって、
    1つの時点における当該調査対象の複数の候補位置の各々に係る情報を含む「状態」と、当該1つの時点において当該調査対象がいずれの当該候補位置に移動するかの情報を含む「行動」とを変数とする価値関数を準備するステップと、
    当該価値関数を用いて、予測時点での「状態」から、当該予測時点での当該調査対象の「行動」を、当該予測時点での当該調査対象の位置情報として決定するステップと
    有することを特徴とする位置情報予測方法。
JP2016055005A 2016-03-18 2016-03-18 行動価値によって調査対象の位置を予測する装置、プログラム及び方法 Active JP6618395B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016055005A JP6618395B2 (ja) 2016-03-18 2016-03-18 行動価値によって調査対象の位置を予測する装置、プログラム及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016055005A JP6618395B2 (ja) 2016-03-18 2016-03-18 行動価値によって調査対象の位置を予測する装置、プログラム及び方法

Publications (2)

Publication Number Publication Date
JP2017168029A JP2017168029A (ja) 2017-09-21
JP6618395B2 true JP6618395B2 (ja) 2019-12-11

Family

ID=59909076

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016055005A Active JP6618395B2 (ja) 2016-03-18 2016-03-18 行動価値によって調査対象の位置を予測する装置、プログラム及び方法

Country Status (1)

Country Link
JP (1) JP6618395B2 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7035734B2 (ja) 2018-03-30 2022-03-15 富士通株式会社 強化学習プログラム、強化学習方法、および強化学習装置
JP7167625B2 (ja) * 2018-10-25 2022-11-09 大日本印刷株式会社 状態推移予測装置、コンピュータプログラム及び学習装置
CN113111678B (zh) * 2019-12-25 2024-05-24 华为技术有限公司 一种用户的肢体节点的位置确定方法、装置、介质及系统
GB2598758B (en) 2020-09-10 2023-03-29 Toshiba Kk Task performing agent systems and methods
WO2022202178A1 (ja) * 2021-03-23 2022-09-29 株式会社日立国際電気 機械学習用の学習データ生成装置、学習データ生成システム及び学習データ生成方法
CN112957740B (zh) * 2021-03-26 2023-09-29 南京大学 一种适配分层强化学习的自动分解游戏环境的方法
CN113686240B (zh) * 2021-07-13 2024-05-03 广州粤能电力科技开发有限公司 基于电力杆塔的定位方法、装置、计算机设备和存储介质
JP7287430B2 (ja) * 2021-09-27 2023-06-06 日本電気株式会社 魚検出装置、魚検出方法及びプログラム
US20240020964A1 (en) 2022-07-18 2024-01-18 42Dot Inc. Method and device for improving object recognition rate of self-driving car
WO2024053041A1 (ja) * 2022-09-08 2024-03-14 三菱電機株式会社 移動予測装置、移動予測方法、及び、移動予測プログラム
GB2628671A (en) * 2023-03-31 2024-10-02 Bertrand Lucas Method, system and device for analysing placement of digital assets in a user interface

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004227208A (ja) * 2003-01-22 2004-08-12 Matsushita Electric Ind Co Ltd ユーザ適応型行動決定装置および行動決定方法
US20080243425A1 (en) * 2007-03-28 2008-10-02 Eliazar Austin I D Tracking target objects through occlusions
US20090197582A1 (en) * 2008-02-01 2009-08-06 Lewis Robert C Platform for mobile advertising and microtargeting of promotions
JP2011059898A (ja) * 2009-09-08 2011-03-24 Fujifilm Corp 画像解析装置、画像解析方法およびプログラム

Also Published As

Publication number Publication date
JP2017168029A (ja) 2017-09-21

Similar Documents

Publication Publication Date Title
JP6618395B2 (ja) 行動価値によって調査対象の位置を予測する装置、プログラム及び方法
JP6614611B2 (ja) 画像間類似度を考慮して物体を追跡する装置、プログラム及び方法
JP6598746B2 (ja) 他の物体の画像領域も考慮して物体を追跡する装置、プログラム及び方法
TWI677825B (zh) 視頻目標跟蹤方法和裝置以及非易失性電腦可讀儲存介質
JP6628494B2 (ja) 実空間情報によって学習する識別器を用いて物体を追跡する装置、プログラム及び方法
EP3191989B1 (en) Video processing for motor task analysis
Sock et al. Multi-view 6D object pose estimation and camera motion planning using RGBD images
Choi et al. A general framework for tracking multiple people from a moving camera
US11443454B2 (en) Method for estimating the pose of a camera in the frame of reference of a three-dimensional scene, device, augmented reality system and computer program therefor
Tang et al. Cross-camera knowledge transfer for multiview people counting
US11361468B2 (en) Systems and methods for automated recalibration of sensors for autonomous checkout
JP6377533B2 (ja) オクルージョン発生時に専用の識別器を用いて物体を追跡する装置、プログラム及び方法
JP2013210968A (ja) 物体検出装置及びその方法、プログラム
Rhinehart et al. First-person activity forecasting from video with online inverse reinforcement learning
JP6789876B2 (ja) 画素変更処理画像を用いて対象を追跡する装置、プログラム及び方法
AU2015203666A1 (en) Methods and systems for controlling a camera to perform a task
US11544926B2 (en) Image processing apparatus, method of processing image, and storage medium
JP2018077807A (ja) 変化点で複数候補を考慮して物体を追跡する装置、プログラム及び方法
Acharya et al. Real-time detection and tracking of pedestrians in CCTV images using a deep convolutional neural network
US20220262069A1 (en) Systems and methods for extrinsic calibration of sensors for autonomous checkout
JP2018120283A (ja) 情報処理装置、情報処理方法及びプログラム
Linder et al. Towards a robust people tracking framework for service robots in crowded, dynamic environments
JP6103765B2 (ja) 行動認識装置、方法及びプログラム並びに認識器構築装置
Murwantara et al. Initial rtab-map navigation analysis for service robot
Wei et al. Subject centric group feature for person re-identification

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180306

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190304

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190422

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190605

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191112

R150 Certificate of patent or registration of utility model

Ref document number: 6618395

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150