JP6618395B2 - 行動価値によって調査対象の位置を予測する装置、プログラム及び方法 - Google Patents
行動価値によって調査対象の位置を予測する装置、プログラム及び方法 Download PDFInfo
- Publication number
- JP6618395B2 JP6618395B2 JP2016055005A JP2016055005A JP6618395B2 JP 6618395 B2 JP6618395 B2 JP 6618395B2 JP 2016055005 A JP2016055005 A JP 2016055005A JP 2016055005 A JP2016055005 A JP 2016055005A JP 6618395 B2 JP6618395 B2 JP 6618395B2
- Authority
- JP
- Japan
- Prior art keywords
- time point
- position information
- prediction
- information
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000009471 action Effects 0.000 title claims description 93
- 238000000034 method Methods 0.000 title claims description 47
- 230000006870 function Effects 0.000 claims description 85
- 238000001514 detection method Methods 0.000 claims description 60
- 230000006399 behavior Effects 0.000 claims description 40
- 238000012360 testing method Methods 0.000 claims description 32
- 238000011835 investigation Methods 0.000 claims description 31
- 230000033001 locomotion Effects 0.000 claims description 24
- 230000008859 change Effects 0.000 claims description 17
- 230000003287 optical effect Effects 0.000 claims description 6
- 230000002787 reinforcement Effects 0.000 description 44
- 239000003795 chemical substances by application Substances 0.000 description 27
- 238000007726 management method Methods 0.000 description 16
- 238000004891 communication Methods 0.000 description 14
- 238000012545 processing Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 12
- 238000004422 calculation algorithm Methods 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 238000003909 pattern recognition Methods 0.000 description 4
- 238000009434 installation Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 240000006829 Ficus sundaica Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000003331 infrared imaging Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000000284 resting effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Landscapes
- Closed-Circuit Television Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Image Analysis (AREA)
Description
1つの時点における当該調査対象の複数の候補位置の各々に係る情報を含む「状態」と、当該1つの時点において当該調査対象がいずれの当該候補位置に移動するかの情報を含む「行動」とを変数とする価値関数を用いて、予測時点での「状態」から、当該予測時点での当該調査対象の「行動」を、当該予測時点での当該調査対象の位置情報として決定するテスト手段
を有する位置情報予測装置が提供される。
決定された「行動」が、当該位置情報実データから導出される当該調査対象の正解の位置情報に該当するか否かに基づいて、「報酬」を生成する報酬生成手段と、
生成された「報酬」に基づいて、当該価値関数を更新する学習手段と
を更に有することも好ましい。
報酬生成手段は、決定された「行動」が、当該予測時点での当該画像から導出される当該調査対象の正解の位置情報に該当するか否かに基づいて「報酬」を生成することも好ましい。
さらに、この実施形態において、当該画像から調査対象の物体を含む物体を検出する物体検出手段を更に有し、テスト手段は、検出された当該調査対象の物体に係る情報から、予測時点での「状態」を決定することも好ましい。
1つの時点における当該調査対象の複数の候補位置に係る情報を含む「状態」と、当該1つの時点において当該調査対象がいずれの当該候補位置に移動するかの情報を含む「行動」とを変数とする価値関数を用いて、予測時点での「状態」から、当該予測時点での当該調査対象の「行動」を、当該予測時点での当該調査対象の位置情報として決定するテスト手段を有し、
当該「状態」において、当該1つの時点における当該調査対象の複数の候補位置に係る情報は、当該1つの時点の前の時点において決定された位置情報に基づいて決定された当該複数の候補位置の各々について当該位置情報実データから算出される特徴量における、予め設定された当該調査対象のモデルに対する類似の度合いに係る情報である
ことを特徴とする位置情報予測装置が提供される。
また、本発明によれば、さらに、調査対象を撮影可能な1つ以上のカメラから取得される時系列の画像群であって当該調査対象における刻々の実際の位置に関係するデータである画像群に基づいて、当該調査対象の位置情報を予測する位置情報予測装置であって、
1つの時点における当該調査対象の複数の候補位置に係る情報を含む「状態」と、当該1つの時点において当該調査対象がいずれの当該候補位置に移動するかの情報を含む「行動」とを変数とする価値関数を用いて、予測時点での「状態」から、当該予測時点での当該調査対象の「行動」を、当該予測時点での当該調査対象の位置情報として決定するテスト手段と、
決定された「行動」が、当該予測時点での当該画像から導出される当該調査対象の正解の位置情報に該当するか否かに基づいて「報酬」を生成する報酬生成手段と、
生成された「報酬」に基づいて、当該価値関数を更新する学習手段と
を有し、
当該価値関数の変数である「行動」のとり得る値は、当該物体を追跡対象から外すことを示す値と、当該物体を移動させないことを示す値と、当該物体を移動先としてのN個の候補位置にそれぞれ移動させることを示すN個の値とを含み、
報酬生成手段は、当該予測時点での当該画像から導出される当該物体の正解の位置情報に基づき、
当該物体が所定の追跡範囲外へ移動したと判断した場合、又は当該物体の画像領域が他の物体の画像領域によって所定以上の割合で遮蔽されていると判断した場合、決定された「行動」が当該物体を追跡対象から外すことであるならば、当該価値関数の値を大きくする方向の「報酬」を生成し、
当該物体が当該所定の追跡範囲外へ移動したとも、当該物体の画像領域が他の物体の画像領域によって所定以上の割合で遮蔽されているとも判断しなかった場合、決定された「行動」が当該物体を移動させない又は1つの候補位置に移動させることであって、当該正解の位置情報に係る位置と、当該物体の移動していない位置又は移動先である当該1つの候補位置との距離が所定未満であれば、当該価値関数の値を大きくする方向の「報酬」を生成する
ことを特徴とする位置情報予測装置が提供される。
1つの時点における当該調査対象の複数の候補位置に係る情報を含む「状態」と、当該1つの時点において当該調査対象がいずれの当該候補位置に移動するかの情報を含む「行動」とを変数とする価値関数を用いて、予測時点での「状態」から、当該予測時点での当該調査対象の「行動」を、当該予測時点での当該調査対象の位置情報として決定するテスト手段と、
決定された「行動」が、当該予測時点での当該画像から導出される当該調査対象の正解の位置情報に該当するか否かに基づいて「報酬」を生成する報酬生成手段と、
生成された「報酬」に基づいて、当該価値関数を更新する学習手段と
を有し、
当該価値関数の変数である「状態」は、当該1つの時点における当該調査対象の複数の候補位置に係る情報として、
・当該1つの時点の前の時点において決定された位置情報に基づいて決定された当該複数の候補位置の各々について当該画像から算出される特徴量における、予め設定された当該調査対象のモデルに対する類似の度合いに係る情報
を含むことを特徴とする位置情報予測装置が提供される。
・当該1つの時点以前での当該物体において最後に確認された位置の変化分を変数とする当該複数の候補位置の各々に関する確率密度関数に係る情報と、
・当該複数の候補位置の各々における当該物体相当の画像領域と、当該1つの時点において検出された物体相当の画像領域との重畳の度合いに係る情報と、
・当該1つの時点における、当該物体と他の物体とを2値分類する識別器によって算出された類似度に係る情報と、
・当該1つの時点の前の時点で検出された当該物体相当の画像領域における特徴的な画素であるキーポイントが、移動(オプティカルフロー)した後の当該1つの時点において、当該複数の候補位置の各々における当該物体相当の画像領域に含まれている割合に係る情報と
の少なくとも1つを更に含むことも好ましい。
1つの時点における当該調査対象の複数の候補位置に係る情報を含む「状態」と、当該1つの時点において当該調査対象がいずれの当該候補位置に移動するかの情報を含む「行動」とを変数とする価値関数を用いて、予測時点での「状態」から、当該予測時点での当該調査対象の「行動」を、当該予測時点での当該調査対象の位置情報として決定するテスト手段と、
決定された「行動」が、当該予測時点での当該画像から導出される当該調査対象の正解の位置情報に該当するか否かに基づいて「報酬」を生成する報酬生成手段と、
生成された「報酬」に基づいて、当該価値関数を更新する学習手段と
を有し、
当該価値関数の変数である、当該1つの時点での「状態」は、
・当該物体がロストしてから当該1つの時点の前の時点までに経過した時間に係る情報と、
・当該1つの時点以前での当該物体の最終位置を中心とした周囲を区分する複数の所定角度範囲の各々における最近の物体までの距離に係る情報と、
・当該1つの時点以前での当該物体の最終位置であって、当該画像座標上での最終位置における当該物体相当の画像領域と、他の物体相当の画像領域との重畳の度合いに係る情報と
の少なくとも1つを更に含む
ことを特徴とする位置情報予測装置が提供される
1つの時点における当該調査対象の複数の候補位置の各々に係る情報を含む「状態」と、当該1つの時点において当該調査対象がいずれの当該候補位置に移動するかの情報を含む「行動」とを変数とする価値関数を用いて、予測時点での「状態」から、当該予測時点での当該調査対象の「行動」を、当該予測時点での当該調査対象の位置情報として決定するテスト手段と
としてコンピュータを機能させる位置情報予測プログラムが提供される。
1つの時点における当該調査対象の複数の候補位置の各々に係る情報を含む「状態」と、当該1つの時点において当該調査対象がいずれの当該候補位置に移動するかの情報を含む「行動」とを変数とする価値関数を準備するステップと、
当該価値関数を用いて、予測時点での「状態」から、当該予測時点での当該調査対象の「行動」を、当該予測時点での当該調査対象の位置情報として決定するステップと
有する位置情報予測方法が提供される。
(a)追跡対象の物体を撮影可能であり、撮影した画像の情報を、通信ネットワークを介して時系列で送信可能な1つ又は複数のカメラ2と、
(b)カメラ2から通信ネットワークを介して取得される時系列の画像群を用い、当該物体の位置情報を予測して当該物体を追跡可能な、位置情報予測装置としての物体追跡装置1と
を備えている。
(A1)1つの時点における調査対象(追跡対象)の複数の「候補位置」に係る情報を含む「状態」と、
(A2)当該1つの時点において調査対象(追跡対象)がいずれの「候補位置」に移動するかの情報を含む「行動」と
を変数とする価値関数を用いて、予測時点での「状態」から、当該予測時点での当該調査対象の「行動」を、当該予測時点での当該調査対象の位置情報として決定する。
(B1)決定された「行動」が、位置情報実データ(画像データ)から導出される調査対象(追跡対象)の正解の位置情報に該当するか否かに基づいて、「報酬」を生成し、
(B2)生成された「報酬」に基づいて、価値関数を更新する
といった特徴も有している。
(a)「1つの時点における調査対象の複数の候補位置に係る情報」を含む「状態」と、
(b)この1つの時点において調査対象がいずれの候補位置に移動するかの情報を含む「行動」と
を変数とする行動価値関数を用いて、予測時点での「状態」から、この予測時点での調査対象の「行動」を、この予測時点での調査対象の位置情報として決定する。
(a4-1)この1つの時点の前の時点において決定された位置情報に基づいて決定された複数の候補位置の各々について画像データ(位置情報実データ)から算出される特徴量における、予め設定された調査対象のモデルに対する類似の度合いに係る情報φ(qi)
とすることができる。
(a4-2)1つの時点以前での追跡対象物体において、最後に確認された位置の変化分を変数とする複数の候補位置の各々に関する確率密度関数に係る情報α(P', P, qi)と、
(a4-3)複数の候補位置の各々における追跡対象物体相当の画像領域と、この1つの時点において検出された物体相当の画像領域との重畳の度合いに係る情報η(qi)と、
(a4-4)この1つの時点における、追跡対象物体と他の物体とを2値分類する識別器によって算出された類似度に係る情報π(qi)と、
(a4-5)この1つの時点の前の時点で検出された追跡対象物体相当の画像領域における特徴的な画素であるキーポイントが、移動(オプティカルフロー)した後のこの1つの時点において、複数の候補位置の各々におけるこの物体相当の画像領域に含まれている割合に係る情報γ(qi)と
の少なくとも1つを含むことも好ましい。
(a1)追跡対象物体がロストしてから当該1つの時点の前の時点までに経過した時間に係る情報tlostと、
(a2)この1つの時点以前での追跡対象物体の最終位置を中心とした周囲を区分する複数の所定角度範囲の各々における最近の物体までの距離に係る情報Dist(ri)と、
(a3)この1つの時点以前での追跡対象物体の最終位置であって、画像座標上での最終位置におけるこの物体相当の画像領域と、他の物体相当の画像領域との重畳の度合いに係る情報omaxと
の少なくとも1つをさらに含むことも好ましい。
(1) s=[tlost, Dist(r1),・・・Dist(rM), omax, ,Φ(q0),・・・, Φ(qn)]
と表される。ここで、
(2) Φ(qi)={[α(P', P, qi), η(qi), φ(qi), π(qi), γ(qi)]|α(P', P, qi)∈R2, η(qi),φ(qi),π(qi),γ(qi) ∈R, i=0,・・・,N}
である。
状態sの構成要素である上式(1)のtlostは、追跡対象の物体がロストした時点(見失われて追跡が継続できなくなった時点)から時刻T−1までに経過した時間である。ここで、時刻T−1までとしたのは、tlostを、ロストしたか否かの状態が確定した時刻T−1に係る情報とするためである。従って、時刻T−1で物体がロストしていない場合、tlost=0となり、時刻T−1でロストしていれば、ロストしてから時刻T−1までに経過した時間となる。tlostの単位は、秒であってもよく、また、例えばフレーム数とすることもできる。
図4は、状態sの構成要素Dist(ri)を説明するための模式図である。
(3) Dist(ri)={d|d∈R, d≧0, ri∈[0,360), i=1,・・・, M-1, rM=360}
で表される。ちなみに、図4では、1つの例としてDist(r2)が示されている。
図5は、状態sの構成要素omaxを説明するための模式図である。
(a)時刻T以前に追跡対象物体が存在していた最終位置Pにおける、画像座標系u-vでの当該物体の画像領域PHI(P)と、
(b)時刻T−1に存在していた他の物体の画像領域PHI(C)と
のオーバーラップ率のうちの最大のものである最大オーバーラップ率である。ここで、画像領域PHI(P)とPHI(C)とのオーバーラップ率OVRは、
(4) OVR=(PHI(P)∩PHI(C))/PHI(P)
と定義される。
状態sの構成要素である上式(1)のΦ(qi)は、時刻Tにおいて追跡対象物体(に対応するエージェント)が存在している可能性のある候補位置qiに関する状態情報を示す。
Φ(qi)の構成要素α(P', P, qi)は、最後に確認された位置変化分Δp=P−P'から求められた位置qiに関する確率密度関数(の値)である。具体的には、物体は前時刻と似た動きを行う確率が高いという仮説に基づいて算出される、位置変化分に関する確率密度となっている。
Φ(qi)の構成要素η(qi)は、
(a)画像上での(画像座標系u-vでの)候補位置における画像領域PHI(qi)と、
(b)時刻Tの画像上で(物体検出部111によって)検出された画像領域Bと
のオーバーラップ率のうちの最大のものである最大オーバーラップ率である。ここで、画像領域PHI(qi)と検出画像領域Bとのオーバーラップ率OVR'は、
(5) OVR'=(PHI(P)∩B)/(PHI(P)∪B)
と定義される。
Φ(qi)の構成要素φ(qi)は、追跡対象物体である物体Aか背景かを分類する学習器が算出した、時刻Tにおける画像上での(画像座標系u-vでの)候補位置の画像領域PHI(qi)と、物体Aの見かけモデルとの類似度である。
Φ(qi)の構成要素π(qi)は、追跡対象の物体Aかそれ以外の物体かを2値分類する識別器が算出した物体Aとの類似度である。この類似度として、例えば、上記のΦ(qi)と同様に、2値分類する識別器におけるスコア、すなわち、(画像座標系u-vでの)候補位置における画像領域PHI(qi)の特徴量の、特徴空間における識別超平面からの符号付き距離dを用いることができる。
Φ(qi)の構成要素γ(qi)は、画素の色変化との整合性を示す値である。γ(qi)を算出するには、最初に、時刻T-1における追跡対象の物体Aの画像領域PHI(P)内で、特徴的な画素(キーポイント)を検出し、そのキーポイントの時刻T-1から時刻Tにかけての移動(オプティカルフロー)を推定する。次いで、例えば、オプティカルフローの決定されたキーポイントのうち、移動先の画素位置が候補位置の画像領域PHI(qi)に含まれているものの割合をγ(qi)とすることができる。
(a)物体を追跡対象から外すことを示す値と、
(b)当該物体を移動させないことを示す値と、
(c)当該物体を移動先としてのN個の候補位置にそれぞれ移動させることを示すN個の値と
を含む。
(6) a∈{ロストさせる,Δpi移動させる||ΔPi|∈[0, R], ΔP0=0, i=1,・・・, N}
ここで、ΔP0はゼロベクトルであり、物体を移動させないことを意味している。なお、本実施形態において、「Δpi移動させる」ことには、追跡対象物体がロストから復帰することも含み、この場合、最終位置PからΔpiだけ移動した地点qiから追跡を再開することになる。
(a)当該物体が所定の追跡範囲外へ移動したと判断した場合、又は当該物体の画像領域が他の物体の画像領域によって所定以上の割合で遮蔽されていると判断した場合、決定された行動aが当該物体を追跡対象から外すことであるならば、行動価値関数Q(s, a)の値を大きくする方向の報酬rを生成し、
(b)当該物体が所定の追跡範囲外へ移動したとも、当該物体の画像領域が他の物体の画像領域によって所定以上の割合で遮蔽されているとも判断しなかった場合、決定された行動aが当該物体を移動させない又は1つの候補位置に移動させることであって、正解の位置情報に係る位置と、当該物体の移動していない位置又は移動先である1つの候補位置との距離が所定未満であれば、行動価値関数Q(s, a)の値を大きくする方向の「報酬」を生成する
ことも好ましい。
本実施形態の物体追跡装置1(強化学習部113)は、「学習フェーズ」と「テストフェーズ」との2つのフェーズをとることができる。このうち、「学習フェーズ」は、追跡対象物体の正しい画像領域(又は実空間上の位置)を用い、強化学習によって、画像から得られる情報と実際の物体の動き(正解データ)とから物体の3次元モデル(エージェント)をどのように動かすと最適となるかという方策を学習する。
図3に示した物体検出部111は、画像蓄積部102から入力した画像上で所望の物体(例えば人物)を検出する。具体的には、画像上で、追跡対象物体が写っていると判断される画像領域を検出してもよい。このような物体検出には、例えばHOG特徴量を用いて学習された識別器を用いる。ここで、HOG特徴量は、画像の局所領域における輝度の勾配方向をヒストグラム化し、各度数を成分としたベクトル量である。HOG特徴量を用いた人物検出技術については、例えば、非特許文献であるDalal. N and Triggs. B,"Histograms of Oriented Gradients for Human Detection",Proceedings of IEEE Computer Vision and Pattern Recognition (CVPR),2005年,886〜893頁に記載されている。
テストフェーズにおいては、エージェント(追跡対象物体の3次元モデル)と、エージェントの置かれる環境との間には、図2に示したやり取りのうち、環境からエージェントへ状態sが手渡され、さらに、エージェントから環境へ行動aが出力されるやり取りが存在する。すなわち、テストフェーズでは、環境がエージェントによって選択された行動aの評価を行って報酬rを算出し、さらに、エージェントがこの報酬rを受け取って行動価値関数を更新するといった学習処理は行われない。
(7) a*=argmaxa Q(s, a)
を用いて決定することができる。上式(7)によれば、最適な行動a*は、与えられた状態sについて、行動価値関数Q(s, a)の値を最大にする行動aとして決定されることが理解される。
また、物体検出部111は、新規物体管理部112bから、物体検出結果を受け取ると、各物体検出結果を新規の物体として当該物体の追跡を開始するかどうかを判断する。この際、検出の信頼度、他物体とのオーバーラップ率、標準的な3次元モデルとの整合性等から総合的に判断を行い、新規物体として登録するかどうかを判断する。例えば、特徴量fを、
(8) f=[f1, f2, f3, f4]
と規定し、新規物体か否か2値分類するSVM等の検出用識別器111aを用いて、検出物体に対応する特徴量が新規物体相当かどうかを判断する。ここで、式(8)において、
f1:検出の信頼値
f2:追跡中の他物体との最大オーバーラップ率
f3:標準的な物体の3次元モデルとの整合性
f4:検出された画像領域の足元位置を実空間の地面へ逆投影させた位置
である。
(9) OVR=(PHI(P)∩B)/(PHI(P)∪B)
を用いて算出し、整合性の度合いとすることができる。
次に、学習フェーズについて説明する。学習フェーズは、映像(時系列画像群、学習用シーケンス)と、それに対応する正解データとが用意されていることを前提として実施される。学習フェーズにおいて学習する対象は、本実施形態において、
(a)新規物体であるか否かの2値分類を行う新規物体識別器としての検出用識別器111a、及び
(b)行動価値関数Q(s, a)
である。
物体検出部111(図3)は、全ての学習用シーケンス(時系列画像群)から物体検出を行い、各検出結果について上式(8)の特徴量fを算出する。次いで、当該検出結果に対し、新規物体であれば正のラベルを、そうでなければ負のラベルを付与して、2値分類を行うSVM等の検出用識別器(新規物体識別器)111aを生成する。
強化学習部113(図3)は、学習用シーケンス(時系列画像群)の開始時刻から終了時刻まで、上述したテストフェーズと同様にして複数物体の追跡を実施する。ここで、行動価値関数Q(s, a)を当初、初期値Q0で初期化し、その後、状態sにおいて行動aを実行して、この行動aに対応する報酬rを、学習部113c(図3)に受け取らせる。学習部113cは、状態、行動及び報酬のセット(s, a, r)を用いて、行動価値関数Q(s, a)を更新する。
(12) Q(s, a)←(1−α)・Q(s, a)+α(r+γ・maxa'Q(s', a'))
ここで、rは、状態sで行動a を選択した後に環境から受け取った報酬である。また、s'は、同様に状態 s で行動 a を選択した後、次の時刻で受け取った状態を表す。αは、学習率であり、事前に定められる固定パラメータである。αとして、通常、1未満の例えば0.1や0.01といった小さい値が使用される。γは、割引率であり、同じく事前に定められる固定パラメータである。γとして、通常、0以上であって1未満の値が使用され、多くの場合0.99といった1に近い値に設定される。
行動価値関数Qの学習方法に関する参考文献:Long-ji Lin,"Self-improving reactive agents based on reinforcement learning, planning and teaching",Machine Learning,vol.8(3),1992年,293〜322頁、及びMnih, Volodymyr, et al.,"Human-level control through deep reinforcement learning",Nature 518.7540,2015年,529〜533頁
101 通信インタフェース
102 画像蓄積部
103 ID蓄積部
104 行動価値関数記憶部
105 追跡物体情報記憶部
111 物体検出部
111a 検出用識別器
112 ID管理部
112a 既存物体状態更新部
112b 新規物体登録管理部
113 強化学習部
113a テスト部
113b 報酬生成部
113c 学習部
114 追跡物体管理部
115 通信制御部
2 カメラ
Claims (11)
- 調査対象における刻々の実際の位置に関係するデータである位置情報実データに基づいて、当該調査対象の位置情報を予測する位置情報予測装置であって、
1つの時点における当該調査対象の複数の候補位置の各々に係る情報を含む「状態」と、当該1つの時点において当該調査対象がいずれの当該候補位置に移動するかの情報を含む「行動」とを変数とする価値関数を用いて、予測時点での「状態」から、当該予測時点での当該調査対象の「行動」を、当該予測時点での当該調査対象の位置情報として決定するテスト手段
を有することを特徴とする位置情報予測装置。 - 決定された「行動」が、当該位置情報実データから導出される当該調査対象の正解の位置情報に該当するか否かに基づいて、「報酬」を生成する報酬生成手段と、
生成された「報酬」に基づいて、当該価値関数を更新する学習手段と
を更に有することを特徴とする請求項1に記載の位置情報予測装置。 - 当該位置情報実データは、当該調査対象である物体を撮影可能な1つ以上のカメラから取得される時系列の画像群であり、
前記報酬生成手段は、決定された「行動」が、当該予測時点での当該画像から導出される当該調査対象の正解の位置情報に該当するか否かに基づいて「報酬」を生成する
ことを特徴とする請求項2に記載の位置情報予測装置。 - 当該画像から調査対象の物体を含む物体を検出する物体検出手段を更に有し、
前記テスト手段は、検出された当該調査対象の物体に係る情報から、予測時点での「状態」を決定する
ことを特徴とする請求項3に記載の位置情報予測装置。 - 調査対象における刻々の実際の位置に関係するデータである位置情報実データに基づいて、当該調査対象の位置情報を予測する位置情報予測装置であって、
1つの時点における当該調査対象の複数の候補位置に係る情報を含む「状態」と、当該1つの時点において当該調査対象がいずれの当該候補位置に移動するかの情報を含む「行動」とを変数とする価値関数を用いて、予測時点での「状態」から、当該予測時点での当該調査対象の「行動」を、当該予測時点での当該調査対象の位置情報として決定するテスト手段を有し、
当該「状態」において、当該1つの時点における当該調査対象の複数の候補位置に係る情報は、当該1つの時点の前の時点において決定された位置情報に基づいて決定された当該複数の候補位置の各々について当該位置情報実データから算出される特徴量における、予め設定された当該調査対象のモデルに対する類似の度合いに係る情報である
ことを特徴とする位置情報予測装置。 - 調査対象を撮影可能な1つ以上のカメラから取得される時系列の画像群であって当該調査対象における刻々の実際の位置に関係するデータである画像群に基づいて、当該調査対象の位置情報を予測する位置情報予測装置であって、
1つの時点における当該調査対象の複数の候補位置に係る情報を含む「状態」と、当該1つの時点において当該調査対象がいずれの当該候補位置に移動するかの情報を含む「行動」とを変数とする価値関数を用いて、予測時点での「状態」から、当該予測時点での当該調査対象の「行動」を、当該予測時点での当該調査対象の位置情報として決定するテスト手段と、
決定された「行動」が、当該予測時点での当該画像から導出される当該調査対象の正解の位置情報に該当するか否かに基づいて「報酬」を生成する報酬生成手段と、
生成された「報酬」に基づいて、当該価値関数を更新する学習手段と
を有し、
当該価値関数の変数である「行動」のとり得る値は、当該物体を追跡対象から外すことを示す値と、当該物体を移動させないことを示す値と、当該物体を移動先としてのN個の候補位置にそれぞれ移動させることを示すN個の値とを含み、
前記報酬生成手段は、当該予測時点での当該画像から導出される当該物体の正解の位置情報に基づき、
当該物体が所定の追跡範囲外へ移動したと判断した場合、又は当該物体の画像領域が他の物体の画像領域によって所定以上の割合で遮蔽されていると判断した場合、決定された「行動」が当該物体を追跡対象から外すことであるならば、当該価値関数の値を大きくする方向の「報酬」を生成し、
当該物体が当該所定の追跡範囲外へ移動したとも、当該物体の画像領域が他の物体の画像領域によって所定以上の割合で遮蔽されているとも判断しなかった場合、決定された「行動」が当該物体を移動させない又は1つの候補位置に移動させることであって、当該正解の位置情報に係る位置と、当該物体の移動していない位置又は移動先である当該1つの候補位置との距離が所定未満であれば、当該価値関数の値を大きくする方向の「報酬」を生成する
ことを特徴とする位置情報予測装置。 - 調査対象を撮影可能な1つ以上のカメラから取得される時系列の画像群であって当該調査対象における刻々の実際の位置に関係するデータである画像群に基づいて、当該調査対象の位置情報を予測する位置情報予測装置であって、
1つの時点における当該調査対象の複数の候補位置に係る情報を含む「状態」と、当該1つの時点において当該調査対象がいずれの当該候補位置に移動するかの情報を含む「行動」とを変数とする価値関数を用いて、予測時点での「状態」から、当該予測時点での当該調査対象の「行動」を、当該予測時点での当該調査対象の位置情報として決定するテスト手段と、
決定された「行動」が、当該予測時点での当該画像から導出される当該調査対象の正解の位置情報に該当するか否かに基づいて「報酬」を生成する報酬生成手段と、
生成された「報酬」に基づいて、当該価値関数を更新する学習手段と
を有し、
当該価値関数の変数である「状態」は、当該1つの時点における当該調査対象の複数の候補位置に係る情報として、
当該1つの時点の前の時点において決定された位置情報に基づいて決定された当該複数の候補位置の各々について当該画像から算出される特徴量における、予め設定された当該調査対象のモデルに対する類似の度合いに係る情報
を含むことを特徴とする位置情報予測装置。 - 当該価値関数の変数である「状態」は、当該1つの時点における当該調査対象の複数の候補位置に係る情報として、
当該1つの時点以前での当該物体において最後に確認された位置の変化分を変数とする当該複数の候補位置の各々に関する確率密度関数に係る情報と、
当該複数の候補位置の各々における当該物体相当の画像領域と、当該1つの時点において検出された物体相当の画像領域との重畳の度合いに係る情報と、
当該1つの時点における、当該物体と他の物体とを2値分類する識別器によって算出された類似度に係る情報と、
当該1つの時点の前の時点で検出された当該物体相当の画像領域における特徴的な画素であるキーポイントが、移動(オプティカルフロー)した後の当該1つの時点において、当該複数の候補位置の各々における当該物体相当の画像領域に含まれている割合に係る情報と
の少なくとも1つを更に含むことを特徴とする請求項7に記載の位置情報予測装置。 - 調査対象を撮影可能な1つ以上のカメラから取得される時系列の画像群であって当該調査対象における刻々の実際の位置に関係するデータである画像群に基づいて、当該調査対象の位置情報を予測する位置情報予測装置であって、
1つの時点における当該調査対象の複数の候補位置に係る情報を含む「状態」と、当該1つの時点において当該調査対象がいずれの当該候補位置に移動するかの情報を含む「行動」とを変数とする価値関数を用いて、予測時点での「状態」から、当該予測時点での当該調査対象の「行動」を、当該予測時点での当該調査対象の位置情報として決定するテスト手段と、
決定された「行動」が、当該予測時点での当該画像から導出される当該調査対象の正解の位置情報に該当するか否かに基づいて「報酬」を生成する報酬生成手段と、
生成された「報酬」に基づいて、当該価値関数を更新する学習手段と
を有し、
当該価値関数の変数である、当該1つの時点での「状態」は、
当該物体がロストしてから当該1つの時点の前の時点までに経過した時間に係る情報と、
当該1つの時点以前での当該物体の最終位置を中心とした周囲を区分する複数の所定角度範囲の各々における最近の物体までの距離に係る情報と、
当該1つの時点以前での当該物体の最終位置であって、当該画像座標上での最終位置における当該物体相当の画像領域と、他の物体相当の画像領域との重畳の度合いに係る情報と
の少なくとも1つを更に含むことを特徴とする位置情報予測装置。 - 調査対象における刻々の実際の位置に関係するデータである位置情報実データに基づいて、当該調査対象の位置情報を予測する装置に搭載されたコンピュータを機能させるプログラムであって、
1つの時点における当該調査対象の複数の候補位置の各々に係る情報を含む「状態」と、当該1つの時点において当該調査対象がいずれの当該候補位置に移動するかの情報を含む「行動」とを変数とする価値関数を用いて、予測時点での「状態」から、当該予測時点での当該調査対象の「行動」を、当該予測時点での当該調査対象の位置情報として決定するテスト手段
としてコンピュータを機能させることを特徴とする位置情報予測プログラム。 - 調査対象における刻々の実際の位置に関係するデータである位置情報実データに基づいて、当該調査対象の位置情報を予測する位置情報予測方法であって、
1つの時点における当該調査対象の複数の候補位置の各々に係る情報を含む「状態」と、当該1つの時点において当該調査対象がいずれの当該候補位置に移動するかの情報を含む「行動」とを変数とする価値関数を準備するステップと、
当該価値関数を用いて、予測時点での「状態」から、当該予測時点での当該調査対象の「行動」を、当該予測時点での当該調査対象の位置情報として決定するステップと
有することを特徴とする位置情報予測方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016055005A JP6618395B2 (ja) | 2016-03-18 | 2016-03-18 | 行動価値によって調査対象の位置を予測する装置、プログラム及び方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016055005A JP6618395B2 (ja) | 2016-03-18 | 2016-03-18 | 行動価値によって調査対象の位置を予測する装置、プログラム及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017168029A JP2017168029A (ja) | 2017-09-21 |
JP6618395B2 true JP6618395B2 (ja) | 2019-12-11 |
Family
ID=59909076
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016055005A Active JP6618395B2 (ja) | 2016-03-18 | 2016-03-18 | 行動価値によって調査対象の位置を予測する装置、プログラム及び方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6618395B2 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7035734B2 (ja) | 2018-03-30 | 2022-03-15 | 富士通株式会社 | 強化学習プログラム、強化学習方法、および強化学習装置 |
JP7167625B2 (ja) * | 2018-10-25 | 2022-11-09 | 大日本印刷株式会社 | 状態推移予測装置、コンピュータプログラム及び学習装置 |
CN113111678B (zh) * | 2019-12-25 | 2024-05-24 | 华为技术有限公司 | 一种用户的肢体节点的位置确定方法、装置、介质及系统 |
GB2598758B (en) | 2020-09-10 | 2023-03-29 | Toshiba Kk | Task performing agent systems and methods |
WO2022202178A1 (ja) * | 2021-03-23 | 2022-09-29 | 株式会社日立国際電気 | 機械学習用の学習データ生成装置、学習データ生成システム及び学習データ生成方法 |
CN112957740B (zh) * | 2021-03-26 | 2023-09-29 | 南京大学 | 一种适配分层强化学习的自动分解游戏环境的方法 |
CN113686240B (zh) * | 2021-07-13 | 2024-05-03 | 广州粤能电力科技开发有限公司 | 基于电力杆塔的定位方法、装置、计算机设备和存储介质 |
JP7287430B2 (ja) * | 2021-09-27 | 2023-06-06 | 日本電気株式会社 | 魚検出装置、魚検出方法及びプログラム |
US20240020964A1 (en) | 2022-07-18 | 2024-01-18 | 42Dot Inc. | Method and device for improving object recognition rate of self-driving car |
WO2024053041A1 (ja) * | 2022-09-08 | 2024-03-14 | 三菱電機株式会社 | 移動予測装置、移動予測方法、及び、移動予測プログラム |
GB2628671A (en) * | 2023-03-31 | 2024-10-02 | Bertrand Lucas | Method, system and device for analysing placement of digital assets in a user interface |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004227208A (ja) * | 2003-01-22 | 2004-08-12 | Matsushita Electric Ind Co Ltd | ユーザ適応型行動決定装置および行動決定方法 |
US20080243425A1 (en) * | 2007-03-28 | 2008-10-02 | Eliazar Austin I D | Tracking target objects through occlusions |
US20090197582A1 (en) * | 2008-02-01 | 2009-08-06 | Lewis Robert C | Platform for mobile advertising and microtargeting of promotions |
JP2011059898A (ja) * | 2009-09-08 | 2011-03-24 | Fujifilm Corp | 画像解析装置、画像解析方法およびプログラム |
-
2016
- 2016-03-18 JP JP2016055005A patent/JP6618395B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017168029A (ja) | 2017-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6618395B2 (ja) | 行動価値によって調査対象の位置を予測する装置、プログラム及び方法 | |
JP6614611B2 (ja) | 画像間類似度を考慮して物体を追跡する装置、プログラム及び方法 | |
JP6598746B2 (ja) | 他の物体の画像領域も考慮して物体を追跡する装置、プログラム及び方法 | |
TWI677825B (zh) | 視頻目標跟蹤方法和裝置以及非易失性電腦可讀儲存介質 | |
JP6628494B2 (ja) | 実空間情報によって学習する識別器を用いて物体を追跡する装置、プログラム及び方法 | |
EP3191989B1 (en) | Video processing for motor task analysis | |
Sock et al. | Multi-view 6D object pose estimation and camera motion planning using RGBD images | |
Choi et al. | A general framework for tracking multiple people from a moving camera | |
US11443454B2 (en) | Method for estimating the pose of a camera in the frame of reference of a three-dimensional scene, device, augmented reality system and computer program therefor | |
Tang et al. | Cross-camera knowledge transfer for multiview people counting | |
US11361468B2 (en) | Systems and methods for automated recalibration of sensors for autonomous checkout | |
JP6377533B2 (ja) | オクルージョン発生時に専用の識別器を用いて物体を追跡する装置、プログラム及び方法 | |
JP2013210968A (ja) | 物体検出装置及びその方法、プログラム | |
Rhinehart et al. | First-person activity forecasting from video with online inverse reinforcement learning | |
JP6789876B2 (ja) | 画素変更処理画像を用いて対象を追跡する装置、プログラム及び方法 | |
AU2015203666A1 (en) | Methods and systems for controlling a camera to perform a task | |
US11544926B2 (en) | Image processing apparatus, method of processing image, and storage medium | |
JP2018077807A (ja) | 変化点で複数候補を考慮して物体を追跡する装置、プログラム及び方法 | |
Acharya et al. | Real-time detection and tracking of pedestrians in CCTV images using a deep convolutional neural network | |
US20220262069A1 (en) | Systems and methods for extrinsic calibration of sensors for autonomous checkout | |
JP2018120283A (ja) | 情報処理装置、情報処理方法及びプログラム | |
Linder et al. | Towards a robust people tracking framework for service robots in crowded, dynamic environments | |
JP6103765B2 (ja) | 行動認識装置、方法及びプログラム並びに認識器構築装置 | |
Murwantara et al. | Initial rtab-map navigation analysis for service robot | |
Wei et al. | Subject centric group feature for person re-identification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180306 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190304 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190422 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190605 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20191108 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191112 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6618395 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |