JP2013191163A

JP2013191163A - 情報処理装置、情報処理方法、及び、プログラム

Info

Publication number: JP2013191163A
Application number: JP2012058679A
Authority: JP
Inventors: Kuniaki Noda; 邦昭野田; Kenta Kawamoto; 献太河本; Duerr Peter; ペータードゥール; Kotaro Sabe; 浩太郎佐部
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2012-03-15
Filing date: 2012-03-15
Publication date: 2013-09-26
Also published as: US9111172B2; US20130243331A1; CN103337063A

Abstract

【課題】環境中の物体等の学習を、容易に行う。
【解決手段】前景状態推定部は、実際に観測される実画像を用いて、画像の前景の状態を推定する。見えモデル更新部１４は、前景の状態の推定結果を用いて、画像の背景の見えの背景見えモデル、及び、前景の見えの前景見えモデルを更新する。本技術は、例えば、物体を操作するエージェントの学習を行う場合等に適用できる。
【選択図】図２１

Description

本技術は、情報処理装置、情報処理方法、及び、プログラムに関し、特に、例えば、ロボット等の、アクションを行うことが可能なエージェントがアクションを行う環境中の物体等の学習を、容易に行うことができるようにする情報処理装置、情報処理方法、及び、プログラムに関する。

従来、ある環境をカメラで撮影することによって得られる画像を用いて、その環境中の物体の学習（や認識）を行うには、学習対象（や認識対象）の画像領域の切り出しを行う必要がある。

学習対象の画像領域を切り出す方法としては、主に学習対象の外見に関する事前知識を用いるアプローチ（特許文献１）と、対象物体の運動を利用するアプローチ（特許文献２,３，４）がある。

外見に関する事前知識を用いるアプローチでは、物体を特定するためのマーキングや、あらかじめ学習対象（対象物体）に関して学習を行うことで認識モデルを作っておくことが行われる。

対象物体の運動を利用するアプローチでは、画像差分やオプティカルフローなどを用いて運動している画像領域のみが抽出される。

ところで、例えば、ロボットが物体を操作する物体操作タスクでは、操作対象の物体と、ロボットが物体を操作する（ロボット自体の）ハンドとを区別する必要がある。

このため、外見に関する事前知識を用いるアプローチでは、物体とハンドに、それぞれを区別するためのラベルをマーキングしておき、ロボットが、そのラベルを識別する必要がある。また、対象物体の運動を利用するアプローチでは、カメラで撮影された画像から切り出した画像領域が、物体の画像領域かどうかを認識する必要がある。

さらに、カメラで撮影された画像から切り出した画像領域が、対象物体の画像領域であるかどうかを認識するにあたっては、その認識を行う認識器に、ハンドと物体とを区別することができるように、ハンドを指定しておく（ハンドの知識を与えておく）必要がある。

また、特許文献４に記載の技術では、カメラで撮像された画像中で、ハンドを含むロボットアームがどのように写るかや、ロボットアームに対してどのようなコマンドを出力すると、ロボットアームの手先位置（ハンド）がどこに移動するか等といった幾何モデルが、あらかじめ作成され、その幾何モデルに従って物体操作が行われる。

特許文献４に記載の技術では、以上のような幾何モデルに従って物体操作が行われるため、カメラとロボットアームの相対位置を変化させた場合や、カメラのレンズを交換した場合、ロボットアームのサイズを変化させた場合等には、そのつど、幾何モデルを、人手によって修正する必要がある。

特開平7-88791号公報特開平5-282275号公報特開平7-29081号公報特開2005-128959号公報

ロボット等の、アクションを行うことが可能なエージェントがアクションを行う環境中の物体の学習を行う場合、物体を特定するためのマーキングや、運動している画像領域の抽出を行う必要があり、面倒であった。

本技術は、このような状況に鑑みてなされたものであり、ロボット等の、アクションを行うことが可能なエージェントがアクションを行う環境中の物体等の学習を、容易に行うことができるようにするものである。

本技術の一側面の情報処理装置、又は、プログラムは、実際に観測される画像である実画像を用いて、画像の前景の状態を推定する前景状態推定部と、前記前景の状態の推定結果を用いて、画像の背景の見えの背景見えモデル、及び、前記前景の見えの前景見えモデルを更新する見えモデル更新部とを備える情報処理装置、又は、情報処理装置として、コンピュータを機能させるためのプログラムである。

本技術の一側面の情報処理方法は、実際に観測される画像である実画像を用いて、画像の前景の状態を推定し、前記前景の状態の推定結果を用いて、画像の背景の見えの背景見えモデル、及び、前記前景の見えの前景見えモデルを更新するステップを含む情報処理方法である。

本技術の一側面においては、実際に観測される画像である実画像を用いて、画像の前景の状態が推定され、前記前景の状態の推定結果を用いて、画像の背景の見えの背景見えモデル、及び、前記前景の見えの前景見えモデルが更新される。

なお、情報処理装置は、独立した装置であっても良いし、１つの装置を構成している内部ブロックであっても良い。

また、プログラムは、伝送媒体を介して伝送することにより、又は、記録媒体に記録して、提供することができる。

本技術の一側面によれば、環境中の物体等の学習を、容易に行うことができる。

本技術の概要を説明する図である。本技術が適用される環境の例を説明する図である。前景モデル#i、及び、背景モデル、並びに、前景モデル#i、及び、背景モデルを用いて生成される観測画像x_tの例を示す図である。前景#iの状態zⁱ _tを説明する図である。前景#iの運動モデルaⁱを説明する図である。前景#iのアクションuⁱ _tを説明する図である。前景モデル#i、及び、背景モデルを用いて、観測画像を生成する生成モデルのグラフィカルモデルの例を示す図である。 EMアルゴリズムを説明するフローチャートである。モデルθのグラフィカルモデルの例を示す図である。パーティクルフィルタを説明する図である。ルーレット法を説明する図である。等間隔サンプリングを説明する図である。前景モデル#i、及び、背景モデルを用いて、観測画像を生成する生成モデルθの実装の例を示す図である。パーティクルの重みw^i(l) _tを用いた前景テクスチャモデルτⁱの更新を説明する図である。背景テクスチャモデルτ^wの更新を説明する図である。エージェントによる物体操作を説明する図である。操作対象の物体の現在の状態と、目標状態とを示す図である。物体の並進運動を説明する図である。物体の回転運動を説明する図である。ハンドの初期位置を説明する図である。本技術を適用したエージェントの一実施の形態の構成例を示すブロック図である。前景状態推定部１３の構成例を示すブロック図である。運動モデル推定部１８の構成例を示すブロック図である。アクション生成部２２の構成例を示すブロック図である。エージェントが行う、前景モデル、背景モデル、及び、運動モデルの学習処理の概要を説明するフローチャートである。エージェントが行う、前景モデル、背景モデル、及び、運動モデルの学習処理の詳細を説明するフローチャートである。エージェントが物体操作のために行うアクション制御処理の概要を説明するフローチャートである。エージェントが物体操作のために行うアクション制御処理の詳細を説明するフローチャートである。シミュレーションの結果を、模式的に示す図である。本技術を適用したコンピュータの一実施の形態の構成例を示すブロック図である。

［第0章本技術の概要］

図１は、本技術の概要を説明する図である。

本技術は、環境中の物体を操作することが可能なマニピュレータとしてのハンド等と、環境を観測（撮影）することが可能なカメラ等とを具備したロボット等の、アクション可能なエージェントによって、実環境下での物体操作を実現する際に必要な環境、物体、及び、ハンド等の身体（エージェントの可動部分）のモデルを、カメラで観測される画像から学習し、そのモデルを用いて状態認識を行うためのアルゴリズムに関する技術である。

本技術では、特に、環境中の物体に関するモデル（操作対象とする物体の外観や、加えられた加速度によって、その物体が環境下でどのように運動するかを決定する動力学パラメータ等）を、設計者が、あらかじめ作り込むことなく、エージェントが環境とのインタラクションを通じて得た経験から、学習により自己組織的に獲得する。

さらに、本技術では、例えば、カメラで観測される画像が、高解像度の画像になった場合や、環境中の物体の姿勢が変化すること等により、表現すべき状態変数の粒度が細かくなった場合、次元が増加した場合であっても、高速に学習を行う。

本技術では、エージェントと環境とのインタラクションを通じて得られた物体操作の経験は、エージェントに搭載されたカメラを通じて、画像時系列として、学習器に入力される。

ここで、ハンドや物体に明示的なマーカが添付されておらず、ハンドや物体の外観に関する事前知識が何も与えられない状態から学習を開始し、ハンドや物体が混在して運動している様子が映っている画像から、ハンドや物体の外観や運動に関するモデルを学習することは、一般に困難である。また、表現すべき状態変数の粒度が細かくなった場合や、次元が増加した場合に、学習のための計算量が飛躍的に増大するのでは、実環境下でのエージェントの制御のような実時間性を求められる条件下での実用性に問題が生じる。

本技術では、カメラで観測される画像を、エージェントのハンドや、操作対象の物体（前景）の外観や運動に関するモデルと、物体操作を行う環境（背景）のモデルとに分離して表現し、画像の観測系列（画像の観測値の系列）を説明するためのフレームワークを用意する。

さらに、本技術では、物体操作の経験等が映った画像の観測系列に基づき、確率モデルの最尤推定の手法（EM(Expectation Maximization)アルゴリズム）を用いて、逐次的にモデルのパラメータを推定することで、経験から自己組織的にモデルを学習する。

なお、画像の観測系列としては、例えば、ビデオカメラで撮影した動画や、コンピュータゲームの画面をキャプチャした動画等を採用することができる。

また、本技術では、観測モデル（後述する前景見えモデル、背景見えモデル）のフレームワークを拡張することにより、３次元の環境から観測された画像の観測系列を用いて、モデルの学習を行うことができるが、以下では、説明を簡単にするために、２次元の環境から観測された画像の観測系列をモデルの学習に用いることとして、説明を行う。

さらに、以下の説明では、観測モデルの実装として、画像のテンプレートを用いるが、観測モデルとしては、その他、例えば、画像の局所特徴量等を採用することが可能である。

［第1章環境設定］

図２は、本技術が適用される環境の例を説明する図である。

図２では、２次元平面としての環境に、Ｌ字型の物体と、エージェントのハンドとが置かれている。

エージェントのハンドは、腕に相当するアームの先端に取り付けられており、エージェントが、アームを動かすことによって、そのアームの先端に取り付けられたハンドも動く。したがって、ハンドは、エージェントが自律的に動かすことができる。

一方、Ｌ字型の物体は、自律的に動くことはなく、ハンド等の外部から力が加えられたときに、その加えられた力に従って動く。

エージェントでは、カメラによって環境が撮影され、背景として、環境が映り、その背景に重なる前景として、位置や姿勢を変化させながら動くＬ字型の物体、及び、ハンドが映った画像が観測される。

なお、図２では、２次元の環境を図示してあるが、上述したように、本技術は、３次元の環境にも適用することができる。

また、図２では、エージェントにおいて観測される画像には、Ｌ字型の物体に対応する前景と、ハンドに対応する前景との２つの前景が存在するが、画像に存在する前景は、１つであってもよいし、３つ以上であってもよい。

本技術では、画像に存在する前景のうちのi番目の前景#iについて、時刻tでの重心（慣性質量の重心）の位置や姿勢等の状態をzⁱ _tと、運動モデルをaⁱと、移動等のために時刻tに前景が行ったアクション、又は、前景に加えられたアクションをuⁱ _tと、それぞれ表す。

また、画像の背景を表すモデルを、背景モデルというとともに、画像の前景#iを表すモデルを、前景モデル#iともいう。

前景モデル#iは、前景#iの見えのモデルである前景見えモデルμⁱを含む。

前景見えモデルμⁱは、前景#iのテクスチャを表す前景テクスチャモデルτⁱと、前景#iの形状を表す前景形状モデルσⁱとを含み、式（１）で表現される。

・・・（１）

背景モデルは、背景の見えのモデルである背景見えモデルμ^wを含む。

背景見えモデルμ^wは、背景全体のテクスチャを表す背景テクスチャモデルτ^wを含み、式（２）で表現される。

・・・（２）

本技術では、画像の観測値を生成する生成モデルが、以上のような前景モデル#i、及び、背景モデルを含み、各時刻tの画像の観測値（以下、観測画像ともいう）x_tを生成する。

図３は、前景モデル#i、及び、背景モデル、並びに、前景モデル#i、及び、背景モデルを含む生成モデルにおいて生成される観測画像x_tの例を示す図である。

前景モデル#iにおいて、前景見えモデルμⁱの前景テクスチャモデルτⁱと前景形状モデルσⁱとは、例えば、同一のサイズの画像であり、そのサイズとしては、前景のサイズとして想定される最大のサイズを採用することができる。

前景テクスチャモデルτⁱとしての画像は、前景#iのテクスチャとしての値（例えば、RGB等）を、各画素（ピクセル、ボクセル）の画素値として有する。

前景形状モデルσⁱとしての画像は、例えば、0ないし1の範囲の連続値を、各画素の画素値として有する。前景形状モデルσⁱの各画素の画素値は、その画素が、前景（が映っている画素）である確率を表す。

いま、同一位置の画素の画素値どうしの積を、*で表すこととすると、前景見えモデルμⁱに含まれる前景テクスチャモデルτⁱと、前景形状モデルσⁱとの同一位置の画素の画素値どうしの積τⁱ*σⁱによって、前景#iの見えが表現される。

図３では、２つの前景見えモデルμ¹及びμ²が、背景見えモデルμ^w＝τ^wに重畳され、観測画像x_tが生成されている。

図４は、前景#iの状態zⁱ _tを説明する図である。

前景#iの状態zⁱ _tについては、環境（背景）における前景#iの、いわば絶対的な状態を表現するための座標系としての世界座標系Oと、世界座標系O上での前景#iの状態によらず、前景モデル（前景見えモデル）における前景の状態を表現するための座標系としてのローカル座標系O'が定義される。ローカル座標系O'は、前景モデルごとに定義される。

世界座標系Oとしては、例えば、背景見えモデルμ^w＝τ^wの上から下方向をs₁軸とし、左から右方向をs₂軸とするとともに、背景見えモデルμ^w＝τ^wの左上の点を原点とする２次元座標系を採用することができる。

ローカル座標系O'としては、例えば、前景見えモデルμ（前景テクスチャモデルτⁱ、前景形状モデルσⁱ）の上から下方向をr₁軸とし、左から右方向をr₂軸とするとともに、前景見えモデルμの左上の点を原点とする２次元座標系を採用することができる。

なお、ローカル座標系O'は、デフォルト（例えば、t=0）では、例えば、r₁軸がs₁軸と平行で、r₂軸がs₂軸と平行になっていることとする。図４において、点線の２次元座標系は、デフォルトのローカル座標系O'を表している。

前景#iの状態zⁱ _tは、例えば、時刻tの前景#i（前景見えモデルμⁱ）の質量重心の世界座標系O上の位置sⁱ _t、位置sⁱ _tの変化の速度s^・i _t、前景#iの姿勢qⁱ _t、姿勢qⁱ _tの変化の速度q^・i _tを含み、式（３）で表現される。

・・・（３）

ここで、前景#iの姿勢qⁱ _tとしては、例えば、世界座標系Oの軸s₁(s₂)に対して、ローカル座標系O'の軸r₁(r₂)がなす角度（回転角）を採用することができる。

図５は、前景#iの運動モデルaⁱを説明する図である。

運動モデルaⁱは、前景#iの質量重心のローカル座標系O'上の位置rⁱ _c、前景#iの並進成分の運動（並進運動）の性質を決定する質量（慣性質量）mⁱ、及び、前景の回転成分の運動（回転運動）の性質を決定する重心回りの慣性モーメンIⁱ _cを含み、式（４）で表現される。

・・・（４）

図６は、前景#iのアクションuⁱ _tを説明する図である。

前景#iのアクションuⁱ _tは、時刻tにおいて、前景#iに力が加えられたローカル座標系O'上の位置（作用点）rⁱ _Fと、その位置rⁱ _Fに加えられた力Fⁱとを含み、式（５）で表現される。

・・・（５）

なお、時刻tに前景#iとして観測される画像の観測値xⁱ _tは、時刻tに生成モデルにおいて観測される画像の期待値λ_tを用いて、式（６）で表現される。

・・・（６）

［第2章前景モデル、及び、背景モデルの学習］

［第2.1節生成モデルのフレームワーク］

図７は、本技術の、観測画像を生成する生成モデルのグラフィカルモデルの例を示す図である。

図７は、２つの前景#1及び#2が存在する画像の生成モデルのグラフィカルモデルを示している。

図７の生成モデルによれば、前景#1の時刻tの状態z¹ _tが、前景#1の運動モデルa¹、直前の時刻t-1の状態z¹ _t-1、及び、直前の時刻t-1の前景#1のアクションu¹ _t-1によって決定される。

同様に、前景#2の時刻tの状態z² _tが、前景#2の運動モデルa²、直前の時刻t-1の状態z² _t-1、及び、直前の時刻t-1の前景#2のアクションu² _t-1によって決定される。

そして、生成モデルでは、前景見えモデルμ¹（としての画像）が、前景#1の時刻tの状態z¹ _tに従って、背景見えモデルμ^w（としての画像）に重畳されるとともに、前景見えモデルμ²（としての画像）が、前景#2の時刻tの状態z² _tに従って、背景見えモデルμ^wに重畳されることで、時刻tに観測される観測画像x_tが生成される。

図７において、関数f()は、前景見えモデルμ¹、前景#1の時刻tの状態z¹ _t、前景見えモデルμ²、前景#2の時刻tの状態z² _t、及び、背景見えモデルμ^wを用いて、観測画像x_tを生成する関数であり、生成モデルを表す。

ここで、生成モデルにおいて生成される時刻tの観測画像x_tは、確率変数（観測値の期待値）であり、観測画像x_tの尤度は、実際に観測される画像の観測値x~_tとの比較によって求めることができる。

また、前景#iのアクションuⁱ _tは、エージェントにおいて観測可能な決定的パラメータであることとする。前景#iがエージェントのハンドである場合には、エージェントは、自分の身体の一部であるハンドのアクションは知覚できるべきであるし、前景#iが、操作対象の物体である場合には、エージェントは、ハンドに接触する操作対象の物体のアクションを反作用として知覚することができるべきであるからである。

前景見えモデルμⁱ、背景見えモデルμ^w、及び、前景#iの状態zⁱ、さらには、必要に応じて、運動モデルaⁱが、本技術において、画像の観測値を生成する生成モデルのパラメータであり、学習によって求められる。

また、前景#iの状態zⁱは、時々刻々変化する潜在変数であり、運動モデルaⁱ、前景見えモデルμⁱ、及び、背景見えモデルμ^wは、時刻によらない恒久的なパラメータ（モデルパラメータ）である。

なお、前景の総数をNで表すこととする。図７では、前景の総数Nを、2としてあるが、前景の総数Nとしては、1や3以上の値を採用することができる。

生成モデルにおいて生成される観測画像x_tは、潜在変数としての前景#iの状態zⁱ _t、並びに、モデルパラメータとしての前景見えモデルμⁱ _t、及び、背景見えモデルμ^wによって決定されるので、生成モデルとしての関数f()を用いた式（７）で表現することができる。

・・・（７）

［第2.2節 EMアルゴリズム］

図８は、EMアルゴリズムを説明するフローチャートである。

図７で示した生成モデルのような、潜在変数（zⁱ _t）を有するモデルについて、実際に観測される観測値を用いて、モデルパラメータの最尤解を求める方法としては、例えば、EM(Expectation-Maximization)アルゴリズムがある。

いま、すべての観測値の集合をXと、潜在（隠れ）変数の集合をZと、それぞれ表すこととする。

観測値Xの観測において、潜在変数Zは観測することができないが、これらの観測値Xと潜在変数Zの集合{X,Z}は、完全データと呼ばれ、観測値Xは、不完全データと呼ばれる。

完全データ{X,Z}は、確率分布であるモデルによってモデル化することができることとし、そのモデル（のモデルパラメータ）を、 θと表すこととする。

モデルθにおいて、観測値Xが観測される対数尤度ln（p(X|θ))は、モデルθにおいて、完全データ{X,Z}が観測される尤度p(X,Z|θ)を、潜在変数Zで周辺化し、対数をとることにより求めることができ、式（８）で表される。

・・・（８）

ここで、lnは、自然対数を表す。

また、以降において、潜在変数Zについての総和（Σ）を、積分に置き換えることで、潜在変数Zが連続値である場合についても、同一の議論が成立する。

観測することができるのは、不完全データXだけであり、完全データ{X,Z}のすべてを観測することはできない。したがって、完全データ{X,Z}の尤度（関数）p(X,Z|θ)を用いることはできないため、EMアルゴリズムでは、代わりに、潜在変数Zに関する事後確率の期待値を考える。

潜在変数Zに関する事後確率の期待値を考えるプロセスが、EMアルゴリズムのEステップである。

EMアルゴリズムでは、モデルθにおいて、観測値Xが観測されたときの、潜在変数Zの事後分布p(Z|X,θ)の計算に、現在のモデルパラメータθ^oldが用いられ、この事後分布p(Z|X,θ^old)が、任意のモデルパラメータθにおいて、完全データ{X,Z}が観測される対数尤度（以下、完全データ対数尤度ともいう）ln(p(X,Z|θ))の期待値Q(θ，θ^old)の計算に用いられる。

したがって、期待値Q(θ，θ^old)は、式（９）で表される。

・・・（９）

式（９）では、完全データ対数尤度ln(p(X,Z|θ))の期待値Q(θ，θ^old)が、完全データ対数尤度ln(p(X,Z|θ))の確率分布として、事後分布p(Z|X,θ^old)を用いて計算される。

EMアルゴリズムでは、Eステップで、以上のようにして、期待値Q(θ，θ^old)が求められた後、Mステップにおいて、式（１０）に従い、期待値Q(θ，θ^old)を最大化するように、モデルパラメータθが、現在のモデルパラメータθ^oldから新しいモデルパラメータθ^newに更新される。

・・・（１０）

ここで、式（１０）argmaxは、Q(θ，θ^old)を最大にするモデルパラメータθを表す。

なお、最初のEステップが行われる前に、モデルパラメータθ＝θ^oldは、例えば、乱数等によって適当な値に初期化される。

図８を参照して、EMアルゴリズムについて、さらに説明する。

EMアルゴリズムでは、ステップＳ１１において、モデルパラメータθが、適当な初期値θ^oldに初期化され、処理は、ステップＳ１２に進む。

ステップＳ１２では、Eステップの処理が行われ、処理は、ステップＳ１３に進む。すなわち、ステップＳ１２では、不完全データXを用いて、事後分布p(Z|X,θ^old)が求められる。

ステップＳ１３では、Mステップの処理が行われ、処理は、ステップＳ１４に進む。すなわち、ステップＳ１３では、事後分布p(Z|X,θ^old)を用いて求められる、完全データ対数尤度ln(p(X,Z|θ))の期待値Q(θ，θ^old)を最大化するように、新たなモデルパラメータθ^newが求められる。

ステップＳ１４では、EMアルゴリズムを終了する所定の収束条件が満たされているかどうかが判定される。

ここで、EMアルゴリズムを終了する収束条件としては、例えば、Eステップ及びMステップを、所定回数だけ繰り返したことや、新たなモデルパラメータθ^newが、直前のモデルパラメータθ^oldからほとんど変化しなくなったこと、新たなモデルパラメータθ^newにおいて観測される観測値Xの尤度が、直前のモデルパラメータθ^oldにおいて観測される観測値Xの尤度からほとんど変化しなくなったこと等を採用することができる。

ステップＳ１４において、収束条件が満たされていないと判定された場合、処理は、ステップＳ１５に進み、モデルパラメータθが、現在のモデルパラメータθ^oldから新しいモデルパラメータθ^newに更新される。

そして、処理は、ステップＳ１５からステップＳ１２に戻り、以下、同様の処理が繰り返される。

また、ステップＳ１４において、収束条件が満たされていると判定された場合、処理は終了する。

［第2.3節パーティクルフィルタによる近似］

図９は、完全データ{X,Z}を表現するモデルθのグラフィカルモデルの例を示す図である。

図９では、観測値Xの系列x₁,x₂,・・・,x_t+1が、潜在変数Zの連鎖z₁,z₂,・・・,z_t+1で表されている。そして、各観測値x_tは、対応する潜在変数z_tの値（状態）によって条件付けられる。

モデルθが、EMアルゴリズムのEステップを解析的に計算することが困難なモデルである場合には、数値的サンプリング（モンテカルロサンプリング）に基づく近似推論法を用いてEステップを計算することができる。

モンテカルロサンプリングについては、例えば、C.M. ビショップ, パターン認識と機械学習下ベイズ理論による統計的予測, シュプリンガー・ジャパン, 2008, pp.364-365や、Michael Isard and Andrew Blake, CONDENSATION - conditional density propagation for visual tracking, Int. J. Computer Vision, 29, 1, 5-28, 1998等に記載されている。

潜在変数Zが連続値である場合の、完全データ対数尤度ln(p(X,Z|θ))の期待値Q(θ，θ^old)は、式（９）のサメーション（Σ）を積分に置き換えた式（１１）で表される。

・・・（１１）

式（１１）の期待値Q(θ，θ^old)は、サンプリング法を用い、現在の事後分布p(Z|X,θ^old)からサンプリングされた潜在変数ZのL個のサンプルZ^(l)（l＝1,2,・・・,L）の有限和によって、式（１２）に示すように近似することができる。

・・・（１２）

式（１２）に従って求められる期待値Q(θ，θ^old)については、通常のMステップで最適化することができる（期待値Q(θ，θ^old)を最大化するモデルパラメータθ＝θ^newを求めることができる）。

以上のように、式（１２）に従って求められる期待値Q(θ，θ^old)を最大化するモデルパラメータθ＝θ^newを求めるEMアルゴリズムは、モンテカルロEMアルゴリズムと呼ばれる。

一方、観測値Xの系列x₁,x₂,・・・,x_tに対して、逐次的にサンプリングを行う手法として、パーティクルフィルタと呼ばれる逐次モンテカルロアルゴリズムがある。

図１０は、パーティクルフィルタを説明する図である。

パーティクルフィルタでは、例えば、図９で示されるグラフィカルモデルで表現されるモデルθにおいて、時刻t-1までに、観測値Xの系列X_t＝{x₁,x₂,・・・,x_t-1}が観測され、時刻tに、状態z_tにいる（状態z_tになっている）事後分布p(z_t|X_t-1)から、L個の状態z^(l) _t（z⁽¹⁾ _t,z⁽²⁾ _t,・・・,z^(L) _t）がサンプリングされる。このサンプリングされたサンプル（ここでは、状態z^(l) _t）が、パーティクルと呼ばれる。

時刻tの状態z_tにおいて、図７及び式（７）の生成モデルとしての関数f()に従って観測される観測値x_t＝f(z_t)の期待値E[f(z_t)]は、状態z_tのパーティクル（状態パーティクル）z^(l) _tを用いて、式（１３）で近似することができる。

・・・（１３）

ここで、w^(l) _tは、パーティクルz^(l) _tの重みを表す。重みw^(l) _tは、（パーティクルとしての）状態z^(l) _tにおいて、観測値x_tが観測される（観測）尤度p(x_t|z^(l) _t)に対応する値であり、式（１４）で定義される。

・・・（１４）

なお、重みw^(l) _tは、式0≦w^(l) _t≦1で表される範囲内の値であり、式w⁽¹⁾ _t＋w⁽²⁾ _t＋・・・＋w^(L) _t＝1を満たす。

いま、時刻tに、L個のパーティクルz⁽¹⁾ _tないしz^(L) _tと、重みw⁽¹⁾ _tないしw^(L) _tとが得られている場合において、時刻t+1に、観測値x_t+1を観測したとき、時刻tまでに、観測値の系列X_t＝{x₁,x₂,・・・,x_t}が観測され、時刻t+1に、状態z_t+1にいる事後分布p(z_t+1|X_t)は、時刻tに状態z^(l) _tにいて、時刻t+1に状態z_t+1に遷移する遷移確率p(z_t+1|z^(l) _t)と、パーティクルz^(l) _tの重みw^(l) _tとを用い、式（１５）で求めることができる。

・・・（１５）

式（１５）の事後分布p(z_t+1|X_t)は、重みw^(l) _tを、混合係数とする混合分布であり、パーティクルフィルタでは、混合係数としての重みw^(l) _tに対応する確率で、パーティクルz^(l) _tを選択するリサンプリングが行われる。

図１０を参照して、パーティクルフィルタについて、さらに説明する。

パーティクルフィルタでは、時刻t-1までに、観測値Xの系列X_t-1＝{x₁,x₂,・・・,x_t-1}が観測され、時刻tに、状態z_tにいる事後分布p(z_t|X_t-1)が、L個のパーティクルz⁽¹⁾ _t-1ないしz^(L) _t-1、及び、重みz⁽¹⁾ _t-1ないしz^(L) _t-1によってサンプル表現される。

ここで、図１０では、パーティクルz^(l) _tの個数Lが、5個になっている。

パーティクルフィルタでは、次の時刻tのサンプル表現を求めるために、式（１５）の混合分布（事後分布）p(z_t|X_t-1)の遷移確率(z_t|z^(l) _t-1)）に基づき、時刻t-1のL個のパーティクルz⁽¹⁾ _t-1ないしz^(L) _t-1の次の時刻tの遷移先を算出すること、すなわち、次の時刻tのL個のパーティクルz⁽¹⁾ _tないしz^(L) _tを予測（生成）することが行われる。

ここで、図１０において、丸印は、パーティクルを表している。また、パーティクルを表す丸印の中の数字は、そのパーティクルとしての状態z^(l) _tの値の例を示している。

図１０では、例えば、時刻t-1のパーティクルとしての状態z⁽⁵⁾ _t-1を表す丸印の数字は、5.0になっているが、その時刻t-1のパーティクルとしての状態z⁽⁵⁾ _t-1から、遷移確率p(z_t|z⁽⁵⁾ _t-1)に基づいて予測された時刻tのパーティクルとしての状態z⁽⁵⁾ _tを表す丸印の数字は、5.4になっている。

次の時刻tのL個のパーティクルz⁽¹⁾ _tないしz^(L) _tが予測された後、パーティクルフィルタでは、時刻tの観測値x_tを用い、パーティクルz^(l) _tにおいて、観測値x_tが観測される観測尤度p(x_t|z^(l) _t)が計算される。

さらに、パーティクルフィルタでは、観測尤度p(x_t|z^(l) _t)を用い、式（１４）に従って、パーティクルz^(l) _tの重みw^(l) _tが求められる。図１０では、重みw^(l) _tを表す丸印が、その重みw^(l) _tの値に相当する大きさで、図示されている。

その後、パーティクルフィルタでは、重みw^(l) _tに対応する確率で、パーティクルz^(l) _tがリサンプリングされる。

そして、パーティクルフィルタでは、そのリサンプリングされたパーティクルz^(l) _tを、重みw^(l) _tとともに、時刻tまでに観測値Xの系列X_t＝{x₁,x₂,・・・,x_t}が観測され、時刻t+1に状態z_t+1にいる事後分布p(z_t+1|X_t)のサンプル表現として用いて、同様の処理が繰り返される。

なお、リサンプリングでは、重みw^(l) _tに対応する確率で、パーティクルz^(l) _tがサンプリングされるので、重みw^(l) _tが小さいために、一度もサンプリングされないパーティクルz^(l) _tは消滅する。

また、リサンプリングでは、重みw^(l) _tが大きいパーティクルz^(l) _tは、複数回、サンプリングされることがあるが、その場合、パーティクルz^(l) _tと同一の値（状態）のパーティクルが、サンプリングの回数と同一の個数だけ複製される。

以上のように、リサンプリングでは、パーティクルz^(l) _tと同一の値Vの複数のパーティクルが生じることがあるが、その複数のパーティクルそれぞれの値は、式（１５）の遷移確率p(z_t+1|z^(l) _t)に基づいて、次の時刻tのパーティクルの予測（遷移先の算出）が行われるときに、同一の値Vの周辺に散らばって、異なる値となる。

ここで、重みw^(l) _tに対応する確率で、パーティクルz^(l) _tをサンプリングするリサンプリングの方法としては、例えば、ルーレット法や、等間隔サンプリングと呼ばれる方法等がある。

図１１は、ルーレット法を説明する図である。

ルーレット法では、0ないし1の範囲が、L個の重みw⁽¹⁾ _t,w⁽²⁾ _t,・・・,w^(L) _tに、順番に割り当てられる。重みw^(l) _tには、0ないし1の範囲のうちの、重みw^(l) _tの大きさに比例する幅が割り当てられる。

そして、ルーレット法では、0ないし1の範囲内の値を、乱数によってサンプリングし、そのサンプリングされた値が割り当てられている重みw^(l) _tに対応するパーティクルを複製することが、サンプリングの回数がパーティクルの総数Lと同一になるまで繰り返される。

図１２は、等間隔サンプリングを説明する図である。

等間隔サンプリングでは、ルーレット法と同様に、0ないし1の範囲が、L個の重みw⁽¹⁾ _t,w⁽²⁾ _t,・・・,w^(L) _tに割り当てられる。

そして、等間隔サンプリングでは、0ないし1の範囲内の値が、乱数によってサンプリングされ、そのサンプリングされた値が割り当てられている重みw^(l) _tに対応するパーティクルが複製される。

その後、等間隔サンプリングでは、0ないし1の範囲内の値のうちの、直前にサンプリングされた値に所定の値を加算した値をサンプリングし、そのサンプリングされた値が割り当てられている重みw^(l) _tに対応するパーティクルを複製することが、サンプリングの回数がパーティクルの総数Lと同一になるまで繰り返される。

なお、直前にサンプリングされた値に所定の値を加算した値が、1を超える場合には、その値の小数点以下の値がサンプリングされる。

ルーレット法では、L個の乱数を計算する必要があるのに対して、等間隔サンプリングでは、1個の乱数を計算するだけで済むので、等間隔サンプリングは、ルーレット法に比較して、乱数の計算コストが小さい。

［第3章具体的な実装］

［第3.1節生成モデルの実装］

図１３は、前景モデル#i、及び、背景モデルを用いて、観測画像を生成する生成モデルθ、すなわち、式（７）の関数f()の実装の例を示す図である。

生成モデルでは、背景見えモデルμ^w上に、状態z¹ _tが表す位置sⁱ _tと姿勢qⁱ _tで、前景見えモデルμⁱが重畳される。

背景見えモデルμ^wへの前景見えモデルμⁱ _tの重畳では、背景見えモデルμ^wとしての背景テクスチャモデルτ^w（が表すテクスチャ）と、前景見えモデルμⁱの前景テクスチャモデルτⁱとが、前景見えモデルμⁱの前景形状モデルσⁱを、α値として用いて、αブレンディングされる。

例えば、いま、1番目の前景#1だけが、観測画像x_tに存在することとすると、モデルパラメータ（前景見えモデルμⁱ、背景見えモデルμ^w、及び、前景#iの状態zⁱ、並びに、必要な運動モデルaⁱ）が求められた生成モデルにおいて観測される、１つの前景#1だけが存在する観測画像x_tの期待値λ¹(z¹ _t，μ¹，μ^w)は、式（１６）で表される。

・・・（１６）

ここで、σ¹(r¹)は、前景形状モデルσ¹のローカル座標系O'上の点r¹の画素値を表し、τ¹(r¹)は、前景テクスチャモデルτ¹のローカル座標系O'上の点r¹の画素値を表す。さらに、τ^w(r'¹ _t)は、背景テクスチャモデルτ^wの世界座標系O上の点r'¹ _tの画素値を表す。

また、ローカル座標系O'上の点rⁱに、ダッシュ(')と、時刻のインデクスtを付した点r'ⁱ _tは、時刻tのローカル座標系O'上の点rⁱに対応する世界座標系O上の点（対応点）を表す。

例えば、世界座標系Oの原点回りに、ローカル座標系O'を、角度Bだけ回転した場合の、ローカル座標系O'上の点Aを、世界座標系O上の対応点に写像する写像関数を、R(A,B)と表すこととすると、ローカル座標系O'上の点rⁱの、世界座標系O上の対応点r'ⁱ _tは、写像関数R()を用いて、式（１７）で表される。

・・・（１７）

式（１６）によれば、ローカル座標系O'上の点r¹が、前景見えモデルμ¹（前景テクスチャモデルτ¹、又は、前景形状モデルσ¹としての画像）上の点である場合（r¹∈μ¹）、その点r¹の対応点r'¹ _tの画素値λ¹ _t(r'¹)としては、背景テクスチャモデルτ^wの対応点r'¹ _tの画素値τ^w(r'¹ _t)と、前景テクスチャモデルτ¹の点r¹の画素値τ¹(r¹)とを、前景形状モデルσ¹の点r¹の画素値σ¹(r¹)を、α値として用いてαブレンディングした値(1-σ¹(r¹))τ^w(r'¹ _t)＋σ¹(r¹)τ¹(r¹)が採用される。

さらに、式（１６）によれば、ローカル座標系O'上の点r¹が、前景見えモデルμ¹上の点でない場合、その点r¹の対応点r'¹ _tの画素値λ¹ _t(r'¹ _t)としては、背景テクスチャモデルτ^wの対応点r'ⁱ _tの画素値τ^w(r'¹ _t)が採用される。

観測画像x_tに、複数の前景が存在する場合（前景モデルが複数存在する場合）、複数の前景それぞれについて、1番目の前景#1だけが観測画像x_tに存在する場合と同様の処理を繰り返し行うことにより、生成モデルにおいて観測される、複数の前景が存在する観測画像x_tの期待値を求めることができる。

但し、観測画像x_tに、複数の前景が存在する場合、2番目以降の前景については、背景テクスチャモデルτ^w（背景見えモデルμ^w）に代えて、直前の前景について求められた観測画像x_tの期待値が用いられる。

したがって、例えば、いま、２つの前景#1及び#2が、観測画像x_tに存在することとすると、図１３に示すように、まず、生成モデルにおいて観測される、1番目の前景#1だけが存在する観測画像x_tの期待値λ¹(z¹ _t，μ¹，μ^w)が、式（１６）に従って求められる。

そして、1番目の前景#1、及び、2番目の前景#2が存在する観測画像x_tの期待値λ^1,2(z¹ _t，z² _t，μ¹，μ²，μ^w)が、図１３に示すように、背景テクスチャモデルτ^wに代えて、式（１６）の前景#1について求められた観測画像x_tの期待値λ¹(z¹ _t，μ¹，μ^w)を用い、観測画像x_tの期待値λ¹(z¹ _t，μ¹，μ^w)と同様にして求められる。

すなわち、1番目の前景#1、及び、2番目の前景#2が存在する観測画像x_tの期待値λ^1,2(z¹ _t，(z² _t，μ¹，μ²，μ^w)は、式（１８）に従って求められる。

・・・（１８）

ここで、λ^1,2 _t(r'² _t)は、1番目の前景#1、及び、2番目の前景#2が存在する観測画像x_tの期待値λ^1,2(z¹ _t，(z² _t，μ¹，μ²，μ^w)としての画像の画素値のうちの、（前景#2の）ローカル座標系O'上の点r²の、世界座標系O上の対応点r'² _tの画素値を表す。

3個以上のN個の前景が存在する場合も、同様にして、そのN個の前景が存在する観測画像x_tの期待値λ¹(z¹ _t,z² _t,・・・,z^N _t，μ¹，μ²，・・・，μ^N，μ^w)を求めることができる。

［第3.2節前景が１つだけ存在する場合の前景の状態の推定（Eステップ）］

前景が１つだけである場合の、第2.3節で説明したパーティクルフィルタを用いたEステップの具体的な実装について説明する。

なお、ここでは、前景が１つだけであるため、i番目の前景を表すインデクスiの記載は、省略する。

EMアルゴリズムのEステップでは、前回のMステップで更新されたモデルパラメータθ＝θ^oldを用いて、潜在変数Zの事後分布p(Z|X,θ^old)が求められ、この事後分布p(Z|X,θ^old)を用いて、完全データ対数尤度ln(p(X,Z|θ))の期待値Q(θ，θ^old)が、式（９）に従って計算される。

このEステップに、パーティクルフィルタを適用した場合には、時刻tまでに、観測値Xの系列X_t＝{x₁,x₂,・・・,x_t}が観測されたときの、時刻t+1の潜在変数z_t+1の事後分布p(z_t+1|X_t)は、式（１５）に従って計算することができる。

ここで、式（１４）によれば、式（１５）の重みw^(l) _tは、パーティクルとしての状態z^(l) _tにおいて、観測値x_tが観測される観測尤度p(x_t|z^(l) _t)に比例する。

したがって、重みw^(l) _tを求めるには、観測尤度p(x_t|z^(l) _t)を求める必要がある。

本技術では、前景の状態が、パーティクルとしての状態z^(l) _tになっていると仮定して、そのパーティクルとしての状態z^(l) _tに従って、生成モデルにおいて観測される観測画像x_tの期待値λ_tが生成される。

そして、本技術では、生成モデルにおいて観測される観測画像x_tの期待値λ_tの、実際に観測される画像λ~_tに対する誤差（期待値λ_tと画像λ~_tとの距離）が、観測尤度p(x_t|z^(l) _t)として求められる。

すなわち、本技術では、観測尤度p(x_t|z^(l) _t)は、例えば、式（１９）に従って求められる。

・・・（１９）

なお、λ_t(s)は、生成モデルθにおいて観測される時刻tの観測画像x_tの期待値λ_tである画像の、世界座標系O上の点sの画素値を表し、λ_t~(s)は、時刻tに実際に観測される画像λ~_tの、世界座標系O上の点sの画素値を表す。

また、式（１９）において、K及びσ²は、所定の定数であり、あらかじめ決定される。

一方、時刻tのパーティクルとしての状態z^(l) _tが、次の時刻t+1に、状態z_t+1になる確率、すなわち、パーティクルとしての状態z^(l) _tの遷移確率p(z_t+1|z^(l) _t)が、ガウス分布（正規分布）に従うこととすると、パーティクルとしての状態z^(l) _tの遷移モデルは、例えば、式（２０）で表すことができる。

・・・（２０）

ここで、△tは、時刻tと次の時刻t+1との間の間隔（時間）を表し、N(A,B)は、平均ベクトル（平均値）がAで、分散共分散行列（分散）がBのガウス分布を表す。

式（２０）では、ガウス分布N(0,Σ_s)，N(0,Σ_s・)，N(0,Σ_q)，N(0,Σ_q・)は、いずれも、平均ベクトルが0のガウス分布である。また、分散共分散行列Σ_s，Σ_s・，Σ_q，Σ_q・は、あらかじめ決定される。

式（２０）の遷移モデルによれば、パーティクルとしての状態が、1時刻前の時刻tの状態としての位置s_t及び姿勢q_t、並びに、その1回微分値（速度）s^・ _t及びq^・ _tに従って決定的に遷移する成分を有しつつ、平均ベクトルが0で、所定の分散共分散行列のガウス分布に従って、確率的に揺らぎながら遷移することとして、時刻t+1の状態z_t+1が求められる（予測される）（遷移先が算出される）。

ここで、式（２０）の遷移モデルは、前景の運動が、剛体運動の動力学モデルに従うことを考慮していない。

前景の運動が、剛体運動の動力学モデルに従うことを考慮する場合には、パーティクルとしての状態z^(l) _tの遷移モデルは、前景の運動モデルaと、前景のアクションu_tとを用い、例えば、式（２１）で表すことができる。

・・・（２１）

ここで、γ及びφは、それぞれ、前景のアクションu_t（式（５））のコンポーネントになっている力Fが、同じく、前景のアクションu_tのコンポーネントになっている前景の位置r_Fに加えられた場合の、前景の重心r_cの位置での並進力、及び、重心r_c回りのトルクを表す。

並進力γは、前景のアクションu_tのコンポーネントになっている力Fに等しい。トルクφは、前景のアクションu_tのコンポーネントになっている力F、前景のアクションu_tのコンポーネントになっている前景の位置r_F、及び、前景の運動モデルaのコンポーネントになっている前景の重心（の位置）r_cとを用い、式φ＝（r_F-r_c）×Fに従って求めることができる。

また、式（２１）において、m及びI_Cは、前景の運動モデルa（式（４））のコンポーネントになっている前景（に対応する物体の）質量m、及び、重心回りの慣性モーメントI_Cを表す。

式（２１）の遷移モデルは、前景の運動が、剛体運動の動力学モデルに従うことを考慮しているので、前景の状態の遷移（変化）を、厳密に表現することができる。

前景が背景上を連続的に移動することを、前提知識として仮定することができる場合、すなわち、前景の状態が環境中を連続的に変化することを仮定することができる場合には、前の時刻の情報を基に、運動モデルによって決定的に次の時刻の状態を予測しつつ、ガウス分布のノイズによって近傍をランダムに探索するという、式（２０）や式（２１）の遷移モデルが前提とする事前知識が有効に機能する。

その結果、パーティクルのリサンプリングの過程で、前景がなる可能性が低い状態に対する状態推定の計算を省くことができ、例えば、環境としての背景を格子状に区切って、すべての格子点について、その格子点の位置に、前景がいるかどうかを推定するような方法に比較して、スケーラビリティを大きくすることができる。

［第3.3節複数の前景が存在する場合の前景の状態の推定（Eステップ）］

複数の前景が存在する場合の、第2.3節で説明したパーティクルフィルタを用いたEステップの具体的な実装について説明する。

複数の前景が存在する場合、前景#iごとに、その前景#iの状態zⁱ _tが存在する。前景#iの状態zⁱ _tのl番目のパーティクルを、z^i(l) _tと表す。また、パーティクルz^i(l) _tの重みを、w^i(l) _tと表す。

本技術では、生成モデルで観測される観測画像x_t（の期待値λ_t）は、式（１６）ないし式（１８）で説明したように生成される。

パーティクルフィルタにおいてパーティクルの重みw^i(l) _tを求める式（１４）の計算に必要な観測尤度p(x_t|z^i(l) _t)を計算するためには、注目している前景#iについては、重みw^i(l) _tを求めようとするパーティクルとしての状態z^i(l) _tを用い、かつ、注目している前景#i以外の前景については、その前景の状態のパーティクルの分布と、各パーティクルの重みとを用い、生成モデルで観測される観測画像x_tの期待値λ_tを計算する必要がある。

しかしながら、注目している前景#iの状態zⁱ _tのパーティクルz^i(l) _tの他に、注目している前景#i以外の前景の状態のパーティクルの分布、及び、各パーティクルの重みをも用いて、生成モデルで観測される観測画像x_tの期待値λ_tを計算するのでは、計算コストが大になる。

そこで、本実施の形態では、複数の前景について、独立に、すなわち、注目している前景#i以外の前景を考慮せずに、注目している前景#iだけが、背景上に存在することと仮定することにより、実用上問題ない範囲で厳密性を犠牲にしつつ、計算の高速化を実現する。

注目している前景#iだけが、背景上に存在することを仮定した場合、注目している前景#iが、パーティクルとしての状態z^i(l) _tになっているときの観測尤度p(xⁱ _t|z^i(l) _t)は、式（２２）に従って計算することができる。

・・・（２２）

なお、λⁱ _t(s)は、注目している前景#iだけが、背景上に存在することを仮定した場合に生成モデルθにおいて観測される時刻tの観測画像x_tの期待値λⁱ _tである画像の、世界座標系O上の点sの画素値を表す。

また、式（２２）において、λ_t~(s)は、式（１９）の場合と同様に、時刻tに実際に観測される画像λ~_tの、世界座標系O上の点sの画素値を表す。

さらに、式（２２）において、K及びσ²は、式（１９）の場合と同様に、所定の定数であり、あらかじめ決定される。

注目している前景#iだけが、背景上に存在することを仮定した場合に生成モデルθにおいて観測される時刻tの観測画像x_tの期待値λⁱ _t＝λⁱ(zⁱ _t，μⁱ，μ^w)は、式（２３）に従って求めることができる。

・・・（２３）

ここで、σⁱ(rⁱ)は、前景形状モデルσⁱのローカル座標系O'上の点rⁱの画素値を表し、τⁱ(rⁱ)は、前景テクスチャモデルτⁱのローカル座標系O'上の点rⁱの画素値を表す。さらに、τ^w(r'ⁱ _t)は、背景テクスチャモデルτ^wの世界座標系O上の点r'ⁱ _tの画素値を表す。

また、ローカル座標系O'上の点rⁱに、ダッシュ(')と、時刻のインデクスtを付した点r'ⁱ _tは、式（１６）で説明したように、時刻tのローカル座標系O'上の点rⁱに対応する世界座標系O上の点（対応点）を表し、式（１７）に従って求められる。

［第3.4節前景テクスチャモデルの更新（Mステップ）］

第2.3節で説明したパーティクルフィルタを用いたEステップで行われる前景テクスチャモデルτⁱの更新の具体的な実装について説明する。

EMアルゴリズムのMステップでは、Eステップで潜在変数Zの事後分布p(Z|X,θ^old)を用いて計算される完全データ対数尤度ln(p(X,Z|θ)の期待値Q(θ，θ^old)を最大化するように、モデルパラメータθが、現在のモデルパラメータθ^oldから新しいモデルパラメータθ^newに更新される。

このMステップに、パーティクルフィルタを適用した場合には、モデルパラメータθは、Eステップで求められたパーティクルの重みw^i(l) _tを用いて更新される。

図１４は、パーティクルの重みw^i(l) _tを用いた前景テクスチャモデルτⁱの更新を説明する図である。

前景テクスチャモデルτⁱの更新では、時刻tにおいて、その時刻tの1時刻分の更新データτ~ⁱ _tを求めるために、図１４に示すように、前景#iの状態が、パーティクルとしての状態z^i(l) _tになっていることとして、その状態z^i(l) _tになっている前景#iと推定される領域の画像を、時刻tに実際に観測される画像（の観測値）λ~_tから切り出し、前景#iのローカル座標系O'上に射影する。

ここで、時刻tに実際に観測される画像（以下、実画像ともいう）λ~_tから切り出され、前景#iのローカル座標系O'上に射影された画像を、切り出し画像τ~^i(l) _tともいう。

切り出し画像τ~^i(l) _tは、前景テクスチャモデルτⁱ（及び、前景形状モデルσⁱ）と同一サイズの画像であり、式（２４）で表される。

・・・（２４）

ここで、τ~^i(l) _t(s'^i(l) _t)は、切り出し画像τ~^i(l) _tのローカル座標系O'上の点s'^i(l) _tの画素値を表し、λ~_t(s)は、実画像λ~_tの世界座標系O上の点sの画素値を表す。

また、世界座標系O上の点sに、ダッシュ(')、前景のインデクスi、パーティクルのインデクス(l)、及び、時刻のインデクスtを付した点s'^i(l) _tは、世界座標系O上の点sに対応する前景#iのローカル座標系O'上の点（対応点）を表す。

世界座標系O上の点sの、前景#iのローカル座標系O'上の対応点s'^i(l) _tは、式（１７）で説明した写像関数R(A,B)を用いることにより、式（２５）で表される。

・・・（２５）

なお、式（２５）では、パーティクルのインデクス(l)を省略してある。

式（２４）によれば、世界座標系O上の点sの、ローカル座標系O'上の対応点s'^i(l) _tが、時刻tにおいて、前景見えモデルμⁱ（前景テクスチャモデルτⁱ、又は、前景形状モデルσⁱとしての画像）上の点である場合（s'^i(l) _t∈μⁱ）、実画像λ~_tの点sの画素値λ~_t(s)が、切り出し画像τ~^i(l) _tの対応点s'^i(l) _tの画素値τ~^i(l) _t(s'^i(l) _t)として採用される。

前景テクスチャモデルτⁱの更新では、前景#iのL個のパーティクルzⁱ⁽¹⁾ _t，zⁱ⁽²⁾ _t，・・・，z^i(L) _tについて、切り出し画像τ~ⁱ⁽¹⁾ _t，τ~ⁱ⁽²⁾ _t，・・・，τ~^i(L) _tが求められる。そして、式（２６）に従い、パーティクルzⁱ⁽¹⁾ _tないしz^i(L) _tの重みwⁱ⁽¹⁾ _tないしw^i(L) _tを用いて、L個の切り出し画像τ~ⁱ⁽¹⁾ _tないしτ~^i(L) _tの重み付き平均値が、前景テクスチャモデルτⁱについての、時刻tの1時刻分の更新データτ~ⁱ _tとして求められる。

・・・（２６）

さらに、前景テクスチャモデルτⁱの更新では、現在時刻tから、過去T_FG-1時刻分の更新データτ~ⁱ _t，τ~ⁱ _t-1，・・・，τ~ⁱ _t-TFG+1の平均値（所定時間分の平均化）が、新しいモデルパラメータθ^newとしての新しい前景テクスチャモデルτ^i,newとして、式（２７）に従って求められる。

・・・（２７）

なお、ここでは、L個のパーティクルzⁱ⁽¹⁾ _tないしz^i(L) _tそれぞれについて得られる切り出し画像τ~ⁱ⁽¹⁾ _tないしτ~^i(L) _tの重み付き平均値を、時刻tの1時刻分の更新データτ~ⁱ _tとして求めることとしたが、その他、例えば、後述するようにして、L個のパーティクルzⁱ⁽¹⁾ _tないしz^i(L) _tから最尤状態zⁱ _tを求め、その最尤状態zⁱ _tについて得られる切り出し画像τ~ⁱ _tを、時刻tの1時刻分の更新データτ~ⁱ _tとして採用することができる。

［第3.5 背景テクスチャモデルの更新（Mステップ）］

第2.3節で説明したパーティクルフィルタを用いたEステップで行われる背景テクスチャモデルτ^wの更新の具体的な実装について説明する。

図１５は、背景テクスチャモデルτ^wの更新を説明する図である。

背景テクスチャモデルτ^wの更新処理では、すべての前景モデル#1ないし#Nそれぞれのすべてのパーティクルとしての状態z¹⁽¹⁾ _tないしz^1(L) _t，z²⁽¹⁾ _tないしz^2(L) _t，・・・，z^N(1) _tないしz^N(L) _tを用いて、時刻tの1時刻分の更新データτ~^w _tが求められる。

すなわち、背景テクスチャモデルτ^wの更新処理では、図１５に示すように、時刻tの実画像λ~_tのうちの、前景があると推定される領域の画素値を、現在の背景テクスチャモデルτ^w,oldで置き換えることを、各前景モデル#iの、各パーティクルとしての状態z^i(l) _tについて行い、その結果得られる画像が、時刻tの1時刻分の更新データτ~^w _tとされる。

具体的には、まず、前景#1が、注目する注目前景とされる。そして、注目前景である前景#1の状態が、パーティクルとしての状態z^1(l) _tになっていることとして、時刻tの実画像λ~_tのうちの、状態z^i(l) _tになっている前景#iと推定される領域から、前景モデル#i（前景見えモデルμⁱ）の画像成分を除去し、かつ、現在の背景モデル（現在の背景テクスチャモデルτ^w,old）の画像成分を加えた画像（以下、前景除去画像ともいう）τ~^w,1(l)が求められる。

前景#1の、パーティクルとしての状態z^1(l) _tについて得られる前景除去画像τ~^w,1(l)は、式（２８）で表される。

・・・（２８）

式（２８）によれば、世界座標系O上の点sの、前景#1のローカル座標系O'上の対応点s'^1(l) _tが、前景見えモデルμ¹（前景テクスチャモデルτ¹、又は、前景形状モデルσ¹としての画像）上の点である場合（s'^1(l) _t∈μ¹）、前景除去画像τ~^w,1(l)上の点sの画素値τ~^w,1(l)(s)としては、実画像上λ~_tの点sの画素値λ~_t(s)に対して、前景テクスチャモデルτ¹上の対応点s'^1(l) _tの画素値τ¹(s'^1(l) _t)をσ¹(s'^1(l) _t)倍して減算し、かつ、現在の背景テクスチャモデルτ^w,old上の点sの画素値τ^w,old(s)を、(1-σ¹(s'^1(l) _t))倍して加算した値λ~_t(s)−σ¹(s'^1(l) _t)τ¹(s'^1(l) _t)＋(1-σ¹(s'^1(l) _t))τ^w,old(s)が採用される。

さらに、式（２８）によれば、世界座標系O上の点sの、前景#1のローカル座標系O'上の対応点s'^1(l) _tが、前景見えモデルμ¹上の点でない場合、実画像上λ~_tの点sの画素値λ~_t(s)が採用される。

その結果、前景除去画像τ~^w,1(l)としては、実画像上λ~_tから、パーティクルとしての状態z^1(l) _tになっている前景#1が除去され、その除去された前景#1に隠れていた背景が見えるようになったような画像が得られる。

背景テクスチャモデルτ^wの更新処理では、前景＃1のL個のパーティクルz¹⁽¹⁾ _tないしz^1(L) _tそれぞれについて、前景除去画像τ~^w,1(1)ないしτ~^w,1(L)が求められる。

そして、前景＃1のL個のパーティクルz¹⁽¹⁾ _tないしz^1(L) _tそれぞれの重みw¹⁽¹⁾ _tないしw^1(L) _tを用いて、前景除去画像τ~^w,1(1)ないしτ~^w,1(L)の重み付き平均値τ~^w,1が、実画像上λ~_tから前景#1を除去した最終的な画像（以下、前景#1についての最終除去画像ともいう）として求められる。

前景#1についての最終除去画像τ~^w,1は、式（２９）で表される。

・・・（２９）

背景テクスチャモデルτ^wの更新処理では、他の前景#2ないし#Nを、順次、注目前景として、同様の処理が行われる。

但し、前景#2以降の前景#iについては、実画像上λ~_tに代えて、直前に注目前景であった前景#(i-1)についての最終除去画像τ~^w,i-1が用いられる。

したがって、前景#iの、パーティクルとしての状態z^i(l) _tについて得られる前景除去画像τ~^w,i(l)は、式（２８）の実画像上λ~_tを、前景#(i-1)についての最終除去画像τ~^w,i-1に代えた式（３０）に従って求められる。

・・・（３０）

そして、前景#iについての最終除去画像τ~^w,iは、前景除去画像τ~^w,i(l)を用い、式（２９）と同様に式（３１）に従って求められる。

・・・（３１）

前景#Nについての最終除去画像τ~^w,Nは、実画像λ~_tから、N個の前景#1ないし#Nすべてを除去し、かつ、前景#1ないし#Nそれぞれがあった領域に、現在の背景テクスチャモデルτ^w,oldの対応する領域を足し込んだ画像になっている。式（３２）に示すように、この画像τ~^w,Nが、背景テクスチャモデルτ^wについての、時刻tの1時刻分の更新データτ~^w _tとされる。

・・・（３２）

図１５には、前景の数Nが２つである場合の、背景テクスチャモデルτ^wについての、時刻tの1時刻分の更新データτ~^w _tの算出の様子が示されている。

その後、背景テクスチャモデルτ^wの更新では、現在時刻tから、過去T_BG-1時刻分の更新データτ~^w _t，τ~^w _t-1，・・・，τ~^w _t-TBG+1の平均値（所定時間分の平均化）が、新しいモデルパラメータθ^newとしての新しい背景テクスチャモデルτ^w,newとして、式（３３）に従って求められる。

・・・（３３）

背景テクスチャモデルτ^wの更新においては、前景#2以降の前景#iについては、実画像上λ~_tに代えて、直前に注目前景であった前景#(i-1)についての最終除去画像τ~^w,i-1を用いて、前景除去画像τ~^w,i(l)が求められることで、複数の前景モデルによって、同時に、同一の前景がモデル化（獲得）されないようにする排他制御が行われる。

［第3.6節前景形状モデルの更新（Mステップ）］

前景形状モデルσⁱの更新では、更新後の前景テクスチャモデルτⁱ（新しい前景テクスチャモデルτ^i,new）としての画像について、どの領域が前景#iに属し、どの領域が前景#iに属さないのかの評価が、例えば、画素単位で行われる。

すなわち、前景形状モデルσⁱの更新では、更新後の前景テクスチャモデルτⁱとしての画像の各画素について、その画素が、前景#iの画素であるかどうかの評価が行われる。

前景テクスチャモデルτⁱとしての画像の画素が前景#iの画素であるかどうかの評価では、前景テクスチャモデルτⁱとしての画像の各画素について、その画素が、前景#iの画素であることの尤度（以下、前景尤度ともいう）が求められる。

前景尤度としては、例えば、前景テクスチャモデルτⁱとしての画像が、前景#iの期待値としての、式（２６）の前景テクスチャモデルτⁱについての、時刻tの1時刻分の更新データτ~ⁱ _tとして観測される観測される観測尤度を採用することができる。

この場合、前景尤度としての観測尤度は、例えば、式（３４）に従って求めることができる。

・・・（３４）

ここで、τⁱ(rⁱ)は、前景テクスチャモデルτⁱのローカル座標系O'上の点rⁱの画素値を表し、τⁱ(rⁱ)は、前景テクスチャモデルτⁱについての、時刻tの1時刻分の更新データτ~ⁱ _tとしての画像のローカル座標系O'上の点rⁱの画素値を表す。

さらに、L(FG|τⁱ(rⁱ))は、前景テクスチャモデルτⁱの点rⁱの画素値τⁱ(rⁱ)が、前景#iの画素であることの尤度（前景尤度）を表す。

また、式（３４）において、K及びσ²は、所定の定数であり、あらかじめ決定される。

前景テクスチャモデルτⁱとしての画像の画素が前景#iの画素であるかどうかの評価では、以上のような、前景尤度L(FG|τⁱ(rⁱ))の他、前景テクスチャモデルτⁱとしての画像の各画素について、その画素が、背景の画素であることの尤度（以下、背景尤度ともいう）が求められる。

背景尤度としては、例えば、前景テクスチャモデルτⁱとしての画像が、背景の期待値としての、式（３１）の前景#iについての最終除去画像τ~^w,i _tとして観測される観測される観測尤度を採用することができる。

この場合、背景尤度としての観測尤度は、例えば、式（３５）に従って求めることができる。

・・・（３５）

ここで、前景#iについての最終除去画像を表すτ~^w,i _tにダッシュ(')を付したτ~'^w,i _tは、前景#iについての最終除去画像τ~^w,i _tから、前景見えモデルμⁱの領域を切り出し、前景#iのローカル座標系に射影した射影画像（の期待値）を表す。

式（３５）において、τ~^w,i _t(rⁱ)は、射影画像τ~'^w,i _tのローカル座標系O'上の点rⁱの画素値を表す。

さらに、L(BG|τⁱ(rⁱ))は、前景テクスチャモデルτⁱの点rⁱの画素値τⁱ(rⁱ)が、背景の画素であることの尤度（背景尤度）を表す。

また、式（３５）において、K及びσ²は、所定の定数であり、あらかじめ決定される。

射影画像τ~^w,iは、式（３１）の前景#iについての最終除去画像τ~^w,i _tを求めるのに用いられる、式（３０）（式（２８））の前景除去画像τ~^w,i(l) _tを用い、式（３６）及び式（３７）に従って求めることができる。

・・・（３６）

・・・（３７）

ここで、τ~^w,i(l) _tは、前景#iが、パーティクルとしての状態z^i(l) _tになっていると仮定した場合の射影画像を表し、τ~^w,i(l) _t(s'^i(l) _t)は、パーティクルz^i(l) _tに対する射影画像τ~^w,i(l) _tの対応点s'^i(l) _tの画素値を表す。

式（３６）によれば、世界座標系O上の点sの、前景#iのローカル座標系O'上の対応点s'^i(l) _tが、前景見えモデルμⁱ上の点であれば、前景除去画像τ~^w,i(l) _tの点sの画素値τ~^w,i(l) _t(s)が、パーティクルz^i(l) _tに対する射影画像τ~^w,i(l) _tの対応点s'^i(l) _tの画素値τ~^w,i(l) _t(s'^i(l) _t)として採用される。

そして、式（３７）によれば、パーティクルの重みw^i(l) _tを用いた、各パーティクルz^i(l) _tに対する射影画像τ~^w,i(l) _tの重み付き平均値が、射影画像τ~^w,i _tとして求められる。

前景形状モデルσⁱの更新では、式（３４）の前景尤度L(FG|τⁱ(rⁱ))と、式（３５）の背景尤度L(BG|τⁱ(rⁱ))とを用いて、式（３８）に従い、前景テクスチャモデルτⁱとしての画像の各画素について、その画素が前景#iの画素である確率が求められる。

・・・（３８）

ここで、p(FG|τⁱ(rⁱ))は、前景形状モデルσⁱの、前景#iのローカル座標系O'上の点（画素）rⁱが、前景#iの画素である確率を表す。前景形状モデルσⁱの更新では、点rⁱの画素値σⁱ(rⁱ)が、確率p(FG|τⁱ(rⁱ))に更新される。

［第4章運動モデル（動力学パラメータ）の更新］

時刻t+1に、観測値x_t+1を観測したとき、時刻tまでに、観測値の系列X_t＝{x₁,x₂,・・・,x_t}が観測され、時刻t+1に、状態z_t+1になっている事後分布p(z_t+1|X_t)は、式（１５）に従って求めることができる。

前景#iが時刻t+1になっている可能性が最も高い最尤状態zⁱ _t+1は、時刻t+1の事後分布p(zⁱ _t+1|X_t)が最大の状態であるから、式（３９）に従って求めることができる。

・・・（３９）

運動モデルの更新では、各時刻tの、前景#iの最尤状態zⁱ _tが、逐次的に求められ、その最尤状態zⁱ _tの系列（最尤系列）Zⁱ _t＝{zⁱ ₁，zⁱ ₂，・・・，zⁱ _t}を、エージェントが観測可能な観測値として用いて、最尤推定を行うことにより、前景#iの運動モデルaⁱとしての式（４）の剛体運動の動力学パラメータrⁱ _c，mⁱ，Iⁱ _cが更新される。

最尤推定では、現在時刻tから過去に一定時間だけ遡った時刻から、現在時刻までの状態を推定し、その結果得られる状態系列の、最尤系列Zⁱ _tに対する誤差が、運動モデルaⁱにおいて、時刻tに、状態zⁱ _tが観測される観測尤度として採用される。

すなわち、本技術では、現在時刻tから、一定時間T_DYNだけ遡った時刻t-T_DYNの最尤状態zⁱ _t-TDYNを初期値として、運動モデルaⁱと、時刻t-T_DYNから時刻t-1までの前景#iのアクションの系列Uⁱ _t-1＝{uⁱ _t-TDYN，uⁱ _t-TDYN+1，・・・，uⁱ _t-1}とを用い、式（４０）の時間発展方程式に従って、前景#iの時刻t-TDYN+1から現在時刻tまでの状態系列Z^ⁱ _t-TDYN+1:t＝{z^ⁱ _t-TDYN+1，z^ⁱ _t-TDYN+2，・・・，z^ⁱ _t}が推定される。

・・・（４０）

式（４０）の時間発展方程式としては、例えば、式（４１）及び式（４２）の剛体の運動方程式を採用することができる。

・・・（４１）

・・・（４２）

式（４１）及び式（４２）の運動方程式については、例えば、オイラー法やルンゲクッタ法を用いて数値計算を行うことにより、式（４１）及び式（４２）の運動方程式に従って運動する前景#iの状態系列Z^ⁱ _t-TDYN+1:t＝{z^ⁱ _t-TDYN+1，z^ⁱ _t-TDYN+2，・・・，z^ⁱ _t}を求めることができる。

本技術では、現在時刻tから時間T_DYN-1だけ遡った時刻t-T_DYN+1から現在時刻tまでの最尤系列Zⁱ _t＝{zⁱ _t-TDYN+1，zⁱ _t-TDYN+2，・・・，zⁱ _t}と、式（４１）及び式（４２）の運動方程式に従って求められる前景#iの状態系列Z^ⁱ _t-TDYN+1:t＝{z^ⁱ _t-TDYN+1，z^ⁱ _t-TDYN+2，・・・，z^ⁱ _t}との誤差に対応する値が、運動モデルaⁱにおいて、時刻tに、状態zⁱ _tが観測される観測尤度（運動モデルaⁱの前景#iの状態として、時刻tに、状態zⁱ _tが観測される観測尤度）p(zⁱ _t|aⁱ)として求められる。

すなわち、観測尤度p(zⁱ _t|aⁱ)は、式（４３）に従って求められる。

・・・（４３）

なお、式（４３）において、K及びσ²は、所定の定数であり、あらかじめ決定される。

本技術では、運動モデルa_iをパーティクルとして採用し、前景モデル及び背景モデルのモデルパラメータの更新と並行して、パーティクルフィルタを用いて逐次的に、運動モデルa_iの更新が行われる。

運動モデルa_iをパーティクルとして採用した場合のパーティクルフィルタの基本的な計算方法は、第2章で説明した通りである。

但し、運動モデルa_iのパーティクルの重みw^i(l) _tは、式（４３）に従って求められる観測尤度p(zⁱ _t|aⁱ)を用い、式（１４）と同様にして求められる。

また、本技術では、時刻tのパーティクルとしての運動モデルa^i(l) _tが、次の時刻t+1に、運動モデルaⁱ _t+1に遷移する確率、すなわち、パーティクルとしての運動モデルa^i(l) _tの遷移確率p(aⁱ _t+1|a^i(l) _t)が、ガウス分布（正規分布）に従うことと仮定し、パーティクルとしての運動モデルa^i(l) _tの遷移モデルを、例えば、式（４４）で表す。

・・・（４４）

ここで、式（２０）で説明したように、N(A,B)は、平均ベクトル（平均値）がAで、分散共分散行列（分散）がBのガウス分布を表す。

式（４４）では、ガウス分布N(0,Σ_rc)，N(0,σ² _m)，N(0,Σ_Ic)は、いずれも、平均ベクトルが0のガウス分布である。また、分散共分散行列（共分散）Σ_rc，σ² _m，Σ_Icは、あらかじめ決定される。

式（４４）の遷移モデルによれば、パーティクルとしての運動モデルは、平均ベクトルが0で、所定の分散共分散行列のガウス分布に従って、確率的に揺らぎながら遷移することとして、遷移先である時刻t+1の運動モデルaⁱ _t+1が求められる（予測される）。

また、本技術では、運動モデルaⁱについては、時刻tのパーティクルとしての運動モデルa^i(l) _tと、その重みw^i(l) _tとの重み付け平均値が、式（４５）に従って求められ、時刻t+1の運動モデルaⁱ _t+1は、その重み付け平均値に更新される。

・・・（４５）

［第5章推定したモデルを用いた物体操作］

図１６は、エージェントによる物体操作を説明する図である。

前景モデル（前景見えモデルμⁱ）、背景モデル（背景見えモデルμ^w）、及び、前景#iの運動モデルaⁱが得られると、エージェントは、それらの前景モデル、背景モデル、及び、運動モデルaⁱを用いて、環境中の物体を操作するマニピュレータとして機能することができる。

図１６では、２次元平面としての環境に、Ｌ字型の物体が、操作対象の物体として置かれており、操作対象の物体は、円形で示すエージェントのハンドが接触することにより移動する。

ここで、図１６において、実線で示すＬ字型が、操作対象の物体の現在の状態を表しており、点線で示すＬ字型が、操作対象の物体の目標の状態（目標状態）を表している。

なお、操作対象の物体については、環境中で剛体の運動方程式に従って運動することとするが、外力を加えなければ、環境との摩擦によって時間とともに運動エネルギーが失われ、速度は減少することとする。すなわち、操作対象の物体は、停止させる力を加えなくても、外力を加えることをやめれば、すぐに停止することとする。

また、操作対象の物体は、それ自体、自律的に動かず、人間が手を使って物を搬送する場合と同様に、円形のハンドが接触することによってのみ動く。

さらに、ハンドについては、エージェントが、位置と速度を、任意に指定することができることとする。

図１７は、操作対象の物体の現在の状態と、目標状態とを示す図である。

図１７において、s^obj _tは、世界座標系O上の現在時刻tの物体の重心の位置（現在の位置）を表し、q^obj _tは、世界座標系O上の現在時刻tの物体の姿勢（現在の姿勢）を表す。

また、図１７において、s_tgtは、世界座標系O上の物体の目標の重心の位置（目標位置）を表し、q_tgtは、世界座標系O上の物体の目標の姿勢（目標姿勢）を表す。

剛体の運動は、並進運動と回転運動とに分けることができる。本技術では、操作対象の物体を、必要に応じて、並進運動させるとともに、回転運動させることで、目標状態に遷移させる。

具体的には、本技術では、例えば、まず、操作対象の物体を、並進運動させ、目標状態に対する物体の位置の誤差が十分小さくなった後に、回転運動させる。そして、回転運動中に、目標状態に対する物体の位置の誤差が大きくなった場合には、再び、物体を並進運動させ、以下、同様の処理が行われる。

一方、回転運動中に、目標状態に対する物体の位置及び姿勢の誤差が十分小さくなった場合には、物体が、目標状態に遷移したこととして、エージェントは、物体操作を終了する。

なお、上述の物体操作では、並進運動を優先的に行い、その後、回転運動を行うこととしたが、その他、例えば、回転運動を優先的に行い、その後、並進運動を行うことが可能である。

図１８は、物体の並進運動を説明する図である。

物体を並進運動させるにあたり、エージェントは、物体を、なるべく回転させないで、並進させるために、剛体である物体に対して、トルクを生じさせないように、力を加える。

図１８は、以上のように、物体にトルクを生じさせないように、力を加える場合の、その力の作用点を決定する方法と、その力のベクトル（力ベクトル）を決定する方法とを示している。

まず、力の作用点は、物体の目標状態の位置s^tgtと、現在の位置（重心）s^obj _tとを結ぶ直線L1と、現在の物体の縁との交点に決定される。

ここで、物体の縁は、例えば、その物体に対応する前景の前景形状モデルに対して、エッジを検出する画像処理を行うことによって求めることができる。

また、図１８では、直線L1と、現在の物体の縁との交点として、２つの点s^contact,0、及び、s^contact,1が存在する。

このように、直線L1と、現在の物体の縁との交点として、複数の点が存在する場合、例えば、物体を、ハンドで押して操作するときには、直線L1と、現在の物体の縁との交点としての複数の点のうちの、物体の目標状態の位置s^tgtから最も遠い点が、力の作用点に決定される。

図１８の２つの点s^contact,0、及び、s^contact,1については、点s^contact,0が、物体の目標状態の位置s^tgtから最も遠い点であるため、力の作用点に決定される。

なお、物体を、ハンドで引っ張って操作するときには、直線L1と、現在の物体の縁との交点としての複数の点のうちの、物体の目標状態の位置s^tgtから最も近い点が、力の作用点に決定される。

時刻tに物体に加える力ベクトルF^control _tの方向は、作用点s^contact,0から目標状態の位置s^tgtに向かう方向に決定される。

さらに、力ベクトルF^control _tは、物体の現在位置s^obj _tから目標状態の位置s^tgtまでの距離|s^tgt-s^obj _t|が大であるほど大になり、かつ、物体の現在の速度s^・obj _tが大であるほど小さくなるように、例えば、式（４６）に従って決定される。

・・・（４６）

ここで、式（４６）において、K₀及びK₁は、所定の定数であり、あらかじめ決定される。

図１９は、物体の回転運動を説明する図である。

物体を回転運動させるにあたり、エージェントは、物体を、なるべく並進させないで、回転させるために、剛体である物体に対して、なるべく、重心回りのトルクが生じるように、力を加える。

図１９は、以上のように、なるべく重心回りのトルクを生じさせるように、力を加える場合の、その力の作用点を決定する方法と、その力のベクトル（力ベクトル）を決定する方法とを示している。

まず、力の作用点は、物体の現在の状態の位置（重心）s^obj _tを通る１以上の直線と、現在の物体の縁との交点に決定される。

ここで、図１９では、物体の現在の状態の位置s^obj _tを通る１以上の直線として、３本の直線L₁，L₂，L₃が存在する。

また、直線L₁と、現在の物体の縁との交点として、２つの点s^contact,0、及び、s^contact,3が、直線L₂と、現在の物体の縁との交点として、２つの点s^contact,1、及び、s^contact,4が、直線L₃と、現在の物体の縁との交点として、２つの点s^contact,2、及び、s^contact,5が、それぞれ存在する。

いま、例えば、図１８で説明した並進運動の場合と同様に、例えば、物体を、ハンドで押して、回転運動させることとすると、物体の現在の位置s^obj _tを通る直線と、現在の物体の縁との交点として、複数の点が存在する場合、その複数の点の中から、物体の縁を押すように力を加えたときに生じるトルクの方向が、物体を回転したい方向と一致する点を、作用点の候補として選択する。

ここで、物体を回転したい方向としては、例えば、物体の重心回りの回転方向のうちの、物体を目標状態と一致する姿勢に回転するときに、回転角が少ない方向を採用することができる。図１９では、反時計回りの方向が、物体を回転したい方向になっている。

作用点の候補が選択された後、その作用点の候補のうちの、物体の現在の位置s^obj _tから最も遠い候補が、作用点に決定される。

図１９では、点s^contact,0が、力の作用点に決定されている。

時刻tに物体に加える力ベクトルF^control _tの方向は、物体の現在の位置s^obj _tと作用点とを通る直線と直交し、かつ、物体を回転したい方向に回転させる方向に決定される。

図１９では、物体の現在の位置s^obj _tと作用点s^contact,0とを通る直線L₁と直交し、かつ、物体を反時計回りに回転させる方向が、力ベクトルF^control _tの方向に決定されている。

回転運動については、力ベクトルF^control _tによって、物体を重心s^obj _t回りに回転させるトルクT^control _tが、物体の現在の姿勢q^obj _tから目標状態の姿勢q^tgtになるまでの回転角度|q^tgt-q^obj _t|が大であるほど大になり、かつ、物体の現在の角速度q^・obj _tが大であるほど小さくなるように、例えば、式（４７）に従って決定される。

・・・（４７）

ここで、式（４７）において、K₂及びK₃は、所定の定数であり、あらかじめ決定される。

トルクT^control _tは、物体の重心s^obj _tから作用点までの距離を表す距離ベクトルrと、力ベクトルF^control _tとの外積r×F^control _tであるから、トルクT^control _tが決定されることにより、そのトルクT^control _tを発生させる力ベクトルF^control _tも決定することができる。

エージェントは、力の作用点、及び、その力の力ベクトルを決定すると、ハンドを、所定の初期位置に移動し、操作対象の物体の力の作用点に、力ベクトルを加えるように、ハンドを移動する。

図２０は、ハンドの初期位置を説明する図である。

エージェントは、力の作用点s^contactを通り、力ベクトルF^control _tと平行な直線L1上で、力の作用点s^contactを基点として力ベクトルF^control _tの向きとは反対方向で、かつ、操作対象の物体と干渉しない、作用点s^contactから十分遠い点s^manip ₀を、ハンドの初期位置（時刻ｔ=0のハンドの位置）に決定する。

そして、エージェントは、ハンドを、初期位置s^manip ₀に移動し、その後、力ベクトルF^control _tに対応する速度s^・manip _tで移動させる。

力ベクトルF^control _tに対応する速度（速度ベクトル）s^・manip _tは、例えば、式（４８）に従って求められる。

・・・（４８）

ここで、式（４８）において、K₄は、所定の定数であり、あらかじめ決定される。

なお、エージェントは、並進運動を開始するときと、回転運動を開始するときに、ハンドを、初期位置s^manip ₀に移動させる。

また、エージェントは、並進運動を開始した後、回転運動を開始するまでの間と、回転運動を開始した後、並進運動を開始するまでの間とでは、ハンドを、力ベクトルF^control _tを用いて求められる式（４８）の速度s^・manip _tで、連続的に移動させる。

［本技術を適用したエージェントの一実施の形態］

図２１は、本技術を適用したエージェントの一実施の形態の構成例を示すブロック図である。

図２１において、エージェントは、アクチュエータ制御部１１、センサ１２、前景状態推定部１３、見えモデル更新部１４、見えモデル記憶部１５、最尤状態算出部１６、最尤状態系列記憶部１７、運動モデル推定部１８、運動モデル更新部１９、運動モデル記憶部２０、目標生成部２１、アクション生成部２２、及び、アクション系列記憶部２３を有する。

図２１において、前景状態推定部１３ないし運動モデル記憶部２０が、前景見えモデルμⁱ、背景見えモデルμ^w、及び、運動モデルaⁱを学習する学習器を構成する。

アクチュエータ制御部１１には、アクション生成部２２から、前景#iのアクションuⁱ _t（時刻tに、前景#iに行わせるアクション、又は、前景#iが行うアクション）が供給される。

アクチュエータ制御部１１は、アクション生成部２２からのアクションuⁱ _tに従って、例えば、エージェントの図示せぬハンド等を駆動するアクチュエータを制御し、これにより、例えば、ハンドが移動する。

センサ１２は、カメラ等であり、画像を、所定のフレームレートで撮影し、その画像の観測値（エージェントが観測可能な画像の観測値）（実画像）λ~_tを、前景推定部１３、及び、見えモデル更新部１４に供給する。

なお、センサ１２は、カメラの他、例えば、ハンドに装備された圧力センサ等を含む。ハンドに装備された圧力センサによれば、ハンドが物体に接触したときの反作用によって、物体のアクションを獲得（観測）することができる。

センサ１２で獲得される物体に対応する前景#iのアクションuⁱ _tは、アクション系列記憶部２３に供給される。

前景状態推定部１３には、センサ１２から画像の観測値（実画像）λ~_tが供給される他、見えモデル記憶部１５に記憶された前景見えモデルμⁱ、及び、背景見えモデルμ^wが供給される。

前景状態推定部１３は、センサ１２からの実画像λ~_t、並びに、見えモデル記憶部１５に記憶された前景見えモデルμⁱ、及び、背景見えモデルμ^wを用いて、前景#iの状態zⁱ _tを推定し、その推定の結果として、状態zⁱ _tのパーティクルz^i(l) _t及び重みw^i(l) _tを、見えモデル更新部１４、及び、最尤状態算出部１６に供給する。

なお、前景状態推定部１３では、必要に応じて、運動モデル記憶部２０に記憶された運動モデルaⁱ、及び、アクション系列記憶部２３に記憶されたアクションuⁱ _tをも用いて、前景#iの状態zⁱ _tを推定することができる。

見えモデル更新部１４は、センサ１２からの実画像λ~_tと、前景状態推定部１３から供給される前景#iの状態zⁱ _tの推定の結果としての状態zⁱ _tのパーティクルz^i(l) _t及び重みw^i(l) _tとを用いて、見えモデル記憶部１５に記憶された前景見えモデルμⁱ、及び、背景見えモデルμ^wを更新する。

すなわち、見えモデル更新部１４は、式（２４）ないし式（２７）に従って、前景見えモデルμⁱのうちの前景テクスチャモデルτⁱを更新し、式（３４）ないし式（３８）に従って、前景見えモデルμⁱのうちの前景形状モデルσⁱを更新する。

また、見えモデル更新部１４は、式（２８）ないし式（３３）に従って、背景見えモデルμ^w（背景テクスチャモデルτ^w）を更新する。

見えモデル記憶部１５は、前景見えモデルμⁱ、及び、背景見えモデルμ^wを記憶する。

最尤状態算出部１６は、前景状態推定部１３から供給される前景#iの状態zⁱ _tの推定の結果としての状態zⁱ _tのパーティクルz^i(l) _t及び重みw^i(l) _tを用い、式（３９）に従って、最尤状態zⁱ _tを求めて、最尤状態系列記憶部１７に供給する。

最尤状態系列記憶部１７は、最尤状態算出部１６かの最尤状態zⁱ _tを、順次記憶する。最尤状態系列記憶部１７では、最尤状態算出部１６かの最尤状態zⁱ _tが、順次記憶されることにより、結果として、最尤系列Zⁱ _t＝{zⁱ ₁，zⁱ ₂，・・・，zⁱ _t}が記憶される。

運動モデル推定部１８は、最尤状態系列記憶部１７に記憶された過去T_DYN-1時間分の最尤系列Zⁱ _t＝{zⁱ _t-TDYN+1，zⁱ _t-TDYN+2，・・・，zⁱ _t}、及び、時刻t-T_DYNの最尤状態zⁱ _t-TDYN、並びに、アクション系列記憶部２３に記憶されたアクション系列Uⁱ _t-1＝{uⁱ _t-TDYN，uⁱ _t-TDYN+1，・・・，uⁱ _t-1}を用いて、運動モデルaⁱを推定し、その推定の結果として、運動モデルaⁱのパーティクルa^i(l) _t及び重みw^i(l) _tを、運動モデル更新部１９に供給する。

運動モデル更新部１９は、運動モデル推定部１８から供給される運動モデルaⁱの推定の結果としての運動モデルaⁱのパーティクルa^i(l) _t及び重みw^i(l) _tを用いて、運動モデル記憶部２０に記憶された運動モデルaⁱを更新する。

すなわち、運動モデル更新部１９は、式（４５）に従って、運動モデルaⁱを更新する。

運動モデル記憶部２０は、運動モデルaⁱを記憶する。

目標生成部２１は、前景の目標状態としての位置s^tgt及び姿勢q^tgtを生成し、アクション生成部２２に供給する。なお、目標生成部２１は、例えば、ユーザの操作や、目標状態を設定する任意のアルゴリズム等に従って、目標状態を生成することができる。

アクション生成部２２は、見えモデル記憶部１５に記憶された前景見えモデルμⁱ、最尤状態系列記憶部１７に記憶された最尤状態zⁱ _t、及び、運動モデル記憶部２０に記憶された運動モデルaⁱを用い、前景#iの状態を、目標生成部２１から供給される目標状態に遷移させるためのアクションuⁱ _tを生成し、アクチュエータ制御部１１、及び、アクション系列記憶部２３に供給する。

アクション系列記憶部２３は、センサ１２から供給されるアクションuⁱ _t、及び、アクション生成部２２から供給されるアクションuⁱ _tを記憶する。

図２２は、図２１の前景状態推定部１３の構成例を示すブロック図である。

前景状態推定部１３は、見えモデル尤度計算部４１、状態パーティクル更新部４２、状態パーティクル記憶部４３、及び、推定観測値生成部４４を有する。

見えモデル尤度計算部４１には、センサ１２から画像の観測値（実画像）λ~_tが供給されるとともに、推定観測値生成部４４から、生成モデルで観測される観測画像λ^i(l) _tが供給される。

見えモデル尤度計算部４１は、センサ１２からの実画像λ~_tと、推定観測値生成部４４からの観測画像λ^i(l) _tとを用い、式（２２）に従って、注目している前景#iが、パーティクルとしての状態z^i(l) _tになっているときの、前景#iの観測値xⁱ _tの観測尤度p(xⁱ _t|z^i(l) _t)を求めて、状態パーティクル更新部４２に供給する。

状態パーティクル更新部４２は、状態パーティクル記憶部４３に記憶された時刻t-1のパーティクルとしての状態z^i(l) _t-1から、式（２０）、又は、式（２１）に従って、次の時刻tの状態zⁱ _tとしてのパーティクルz^i(l) _tを求める、パーティクルの遷移先の予測（算出）を、パーティクルとしての前景#iの状態zⁱ _tの推定として行う。

状態パーティクル更新部４２は、次の時刻tの状態zⁱ _tとしてのパーティクルz^i(l) _tを、状態パーティクル記憶部４３に供給し、時刻t-1のパーティクルとしての状態z^i(l) _t-1に代えて記憶させる。

さらに、状態パーティクル更新部４２は、見えモデル尤度計算部４１からの観測尤度p(xⁱ _t|z^i(l) _t)を用いて、式（１４）に従い、パーティクルz^i(l) _tの重みw^i(l) _tを求め、パーティクルz^i(l) _tと同様に、状態パーティクル記憶部４３に供給して記憶させる。

また、状態パーティクル更新部４２は、パーティクルz^i(l) _tの重みw^i(l) _tに対応する確率で、パーティクルz^i(l) _tを選択するリサンプリングを行い、状態パーティクル記憶部４３に記憶されたパーティクルz^i(l) _tを、リサンプリング結果に書き換える。

リサンプリング結果としてのパーティクルz^i(l) _tは、次の時刻t+1の観測尤度p(xⁱ _t+1|z^i(l) _t+1)が得られた後に、式（２０）、又は、式（２１）に従って、時刻t+1の状態zⁱ _t+1としてのパーティクルz^i(l) _t+1を予測するときに用いられる。

なお、状態パーティクル更新部４２では、式（２０）、及び、式（２１）のうちの、式（２１）に従って、時刻tの状態zⁱ _tとしてのパーティクルz^i(l) _tを予測するときには、運動モデル記憶部２０に記憶された運動モデルaⁱ、及び、アクション系列記憶部２３に記憶されたアクションuⁱ _tが用いられる。すなわち、式（２１）のγ/m、及び、φ/I_cは、運動モデルaⁱ及びアクションuⁱ _tを用いて求められる。

状態パーティクル記憶部４３は、状態パーティクル更新部４２が更新する、前景の状態zⁱ _tとしてのパーティクルz^i(l) _tと、その重みw^i(l) _tとを記憶する。

推定観測値生成部４４は、見えモデル記憶部１５に記憶された前景見えモデルμⁱ、及び、背景見えモデルμ^wを用い、前景の状態が、状態パーティクル記憶部４３に記憶された各パーティクルとしての状態z^i(l) _tになっている観測画像（生成モデルにおいて観測される画像）λ^i(l) _tを、式（２３）に従って生成し、見えモデル尤度計算部４１に供給する。

図２３は、図２１の運動モデル推定部１８の構成例を示すブロック図である。

運動モデル推定部１８は、運動モデル尤度計算部５１、運動モデルパーティクル更新部５２、運動モデルパーティクル記憶部５３、及び、推定観測値生成部５４を有する。

運動モデル尤度計算部５１には、最尤状態系列記憶部１７から、前景#iの状態の最尤系列Zⁱ _t＝{zⁱ _t-TDYN+1，zⁱ _t-TDYN+2，・・・，zⁱ _t}が供給される。さらに、運動モデル尤度計算部５１には、推定観測値生成部５４から、式（４１）及び式（４２）の運動方程式に従って求められる前景#iの状態系列Z^ⁱ _t-TDYN+1:t＝{z^ⁱ _t-TDYN+1，z^ⁱ _t-TDYN+2，・・・，z^ⁱ _t}が供給される。

運動モデル尤度計算部５１は、最尤状態系列記憶部１７からの最尤系列Zⁱ _t＝{zⁱ _t-TDYN+1，zⁱ _t-TDYN+2，・・・，zⁱ _t}と、推定観測値生成部５４からの、式（４１）及び式（４２）の運動方程式に従って求められる状態系列Z^ⁱ _t-TDYN+1:t＝{z^ⁱ _t-TDYN+1，z^ⁱ _t-TDYN+2，・・・，z^ⁱ _t}とを用い、式（４３）に従って、運動モデルaⁱ _tが、運動モデルとしてのパーティクルa^i(l) _tである場合の、状態系列Z^ⁱ _t-TDYN+1:tの観測尤度（運動モデルとしてのパーティクルa^i(l) _tの下で、状態系列Z^ⁱ _t-TDYN+1:tが観測される尤度）p(zⁱ _t|aⁱ)＝p(Zⁱ _t|a^i(l) _t)を求めて、運動モデルパーティクル更新部５２に供給する。

運動モデルパーティクル更新部５２は、運動モデルパーティクル記憶部５３に記憶された時刻t-1のパーティクルとしての運動モデルa^i(l) _t-1から、式（４４）に従って、次の時刻tの運動モデルaⁱ _tとしてのパーティクルa^i(l) _tを求める、パーティクルの遷移先の予測（算出）を、パーティクルとしての運動モデルaⁱ _tの推定として行う。

運動モデルパーティクル更新部５２は、時刻tの運動モデルaⁱ _tとしてのパーティクルa^i(l) _tを、運動モデルパーティクル記憶部５３に供給し、時刻t-1のパーティクルとしての運動モデルa^i(l) _t-1に代えて記憶させる。

さらに、運動モデルパーティクル更新部５２は、運動モデル尤度計算部５１からの観測尤度p(Zⁱ _t|a^i(l) _t)を、式（１４）の観測尤度p(xⁱ _t|z^i(l) _t)に代えて用い、式（１４）に従い、パーティクルa^i(l) _tの重みw^i(l) _tを求め、パーティクルa^i(l) _tと同様に、運動モデルパーティクル記憶部５３に供給して記憶させる。

また、運動モデルパーティクル更新部５２は、パーティクルa^i(l) _tの重みw^i(l) _tに対応する確率で、パーティクルa^i(l) _tを選択するリサンプリングを行い、運動モデルパーティクル記憶部５３に記憶されたパーティクルa^i(l) _tを、リサンプリング結果に書き換える。

リサンプリング結果としてのパーティクルa^i(l) _tは、次の時刻t+1の観測尤度p(Zⁱ _t+1|a^i(l) _t+1)が得られた後に、式（４４）に従って、次の時刻t+1の運動モデルaⁱ _t+1としてのパーティクルa^i(l) _t+1を予測するときに用いられる。

運動モデルパーティクル記憶部５３は、運動モデルパーティクル更新部５２が更新する、前景の運動モデルaⁱ _tとしてのパーティクルa^i(l) _tと、その重みw^i(l) _tとを記憶する。

推定観測値生成部５４は、最尤状態系列記憶部１７に記憶された、時刻t-T_DYNの最尤状態zⁱ _t-TDYNを初期値とし、運動モデルパーティクル記憶部５３に記憶された運動モデルとしてのパーティクルa^i(l) _t、及び、アクション系列記憶部２３に記憶されたアクションの系列Uⁱ _t-1＝{uⁱ _t-TDYN，uⁱ _t-TDYN+1，・・・，uⁱ _t-1}を用いて、式（４１）及び式（４２）の運動方程式を計算することにより、式（４１）及び式（４２）の運動方程式に従って運動する前景#iの状態系列Z^^i(l) _t-TDYN+1:t＝{z^^i(l) _t-TDYN+1，z^^i(l) _t-TDYN+2，・・・，z^^i(l) _t}を求め、運動モデル尤度計算部５１に供給する。

図２４は、図２１のアクション生成部２２の構成例を示すブロック図である。

図２４において、アクション生成部２２は、並進運動制御部６１、回転運動制御部６２、及び、アクション出力部６３を有し、見えモデル記憶部１５に記憶された前景見えモデルμⁱ、及び、運動モデル記憶部２０に記憶された運動モデルaⁱ等を用いて、１の前景としての操作対象の物体等の状態を所定の目標状態にするための他の１つの前景としてのハンド等のアクションを生成する。

すなわち、並進運動制御部６１には、見えモデル記憶部１５に記憶された前景見えモデルμⁱ、最尤状態系列記憶部１７に記憶された最尤状態zⁱ _t、運動モデル記憶部２０に記憶された運動モデルaⁱ、及び、目標生成部２１で生成された目標状態としての目標位置s^tgtと目標姿勢q^tgtが供給される。

並進運動制御部６１は、前景見えモデルμⁱ及び最尤状態zⁱ _tから、操作対象の前景（物体）#iの縁を認識し、図１８で説明したようにして、前景#iの現在の状態（最尤状態zⁱ _t）としての位置s^obj _t＝sⁱ _tを、目標位置s^tgtに近づける並進運動を行うための作用点と、その作用点に加える力の力ベクトルを求める。

そして、並進運動制御部６１は、作用点と力ベクトルとを、アクション出力部６３に供給する。

回転運動制御部６２には、見えモデル記憶部１５に記憶された前景見えモデルμⁱ、最尤状態系列記憶部１７に記憶された最尤状態zⁱ _t、運動モデル記憶部２０に記憶された運動モデルaⁱ、及び、目標生成部２１で生成された目標状態としての目標位置s^tgtと目標姿勢q^tgtが供給される。

回転運動制御部６２は、前景見えモデルμⁱ及び最尤状態zⁱ _tから、操作対象の前景（物体）#iの縁を認識し、図１９で説明したようにして、前景#iの現在の状態（最尤状態zⁱ _t）としての姿勢q^obj _t＝qⁱ _tを、目標姿勢q^tgtに近づける回転運動を行うための作用点と、その作用点に加える力の力ベクトルを求める。

そして、回転運動制御部６２は、作用点と力ベクトルとを、アクション出力部６３に供給する。

アクション出力部６３は、並進運動制御部６１、又は、回転運動制御部６２からの作用点と力ベクトルに従い、その作用点に、その力ベクトルの力を加えるための速度ベクトルs^・manip _tを、式（４８）に従って生成し、ハンドのアクションとして、アクチュエータ制御部１１、及び、アクション系列記憶部２３に出力する。

なお、アクション出力部６３は、並進運動を開始するときと、回転運動を開始するときには、図２０で説明した初期位置s^manip ₀を求め、その初期位置s^manip ₀に、ハンドを移動させるアクションを出力する。

また、アクション出力部６３には、最尤状態系列記憶部１７に記憶された最尤状態zⁱ _tと、目標生成部２１で生成された目標状態としての目標位置s^tgtと目標姿勢q^tgtが供給される。

アクション出力部６３は、操作対象の物体の最尤状態zⁱ _tとしての位置sⁱ _tの、目標位置s^tgtに対する誤差と、最尤状態zⁱ _tとしての姿勢sⁱ _tの、目標姿勢q^tgtに対する誤差とを求め、その位置sⁱ _tの誤差、及び、姿勢sⁱ _tの誤差に応じて、ハンドを移動させるアクションの出力を制御する。

図２５は、図２１のエージェントが行う、前景モデル、背景モデル、及び、運動モデルの学習処理の概要を説明するフローチャートである。

エージェントでは、センサ１２において、画像が撮影され、その画像（実画像）λ~_tが、センサ１２から、前景状態推定部１３、及び、見えモデル更新部１４に供給される。

センサ１２から前景状態推定部１３に、実画像λ~_tが供給されると、エージェントは、ステップＳ３１において、実画像λ~_tに対して、まだ、注目モデルに選択していない前景モデル#iを、注目モデルに選択し、処理は、ステップＳ３２に進む。

ステップＳ３２では、前景状態推定部１３は、センサ１２からの画像の観測値λ~_t、並びに、見えモデル記憶部１５に記憶された注目モデルである前景見えモデルμⁱ、及び、背景見えモデルμ^wを用いて、前景#iの状態zⁱ _tを推定し、その推定の結果として、注目モデルが表す前景#iの状態zⁱ _tのパーティクルz^i(l) _t及びその重みw^i(l) _tを、見えモデル更新部１４、及び、最尤状態算出部１６に供給して、処理は、ステップＳ３３に進む。

ここで、最尤状態算出部１６では、前景状態推定部１３から供給される前景#iの状態zⁱ _tの推定の結果としての状態zⁱ _tのパーティクルz^i(l) _t及び重みw^i(l) _tを用い、式（３９）に従って、最尤状態zⁱ _tを求めて、最尤状態系列記憶部１７に供給して記憶させる。

ステップＳ３３では、見えモデル更新部１４が、センサ１２からの画像の観測値λ~_tと、前景状態推定部１３から供給される前景#iの状態zⁱ _tの推定の結果としての状態zⁱ _tのパーティクルz^i(l) _t及び重みw^i(l) _tとを用いて、見えモデル記憶部１５に記憶された前景見えモデルμⁱを更新して、処理は、ステップＳ３４に進む。

ステップＳ３４では、見えモデル更新部１４が、センサ１２からの画像の観測値λ~_tと、前景状態推定部１３から供給される前景#iの状態zⁱ _tの推定の結果としての状態zⁱ _tのパーティクルz^i(l) _t及び重みw^i(l) _tとを用いて、見えモデル記憶部１５に記憶された背景見えモデルμ^wを更新して、処理は、ステップＳ３５に進む。

ステップＳ３５では、運動モデル推定部１８は、最尤状態系列記憶部１７に記憶された過去T_DYN-1時間分の最尤系列Zⁱ _t＝{zⁱ _t-TDYN+1，zⁱ _t-TDYN+2，・・・，zⁱ _t}、及び、最尤状態zⁱ _t-TDYN、並びに、アクション系列記憶部２３に記憶されたアクション系列Uⁱ _t-1＝{uⁱ _t-TDYN，uⁱ _t-TDYN+1，・・・，uⁱ _t-1}を用いて、注目モデルが表す前景#iの運動モデルaⁱを推定し、その推定の結果として、運動モデルaⁱのパーティクルa^i(l) _t及びその重みw^i(l) _tを、運動モデル更新部１９に供給して、処理は、ステップＳ３６に進む。

ステップＳ３６では、運動モデル更新部１９は、運動モデル推定部１８から供給される運動モデルaⁱの推定の結果としての運動モデルaⁱのパーティクルa^i(l) _t及び重みw^i(l) _tを用いて、運動モデル記憶部２０に記憶された運動モデルaⁱを更新する。

その後、処理は、ステップＳ３６からステップＳ３１に戻り、N個の前景モデル#1ないし#Nのうちの、実画像λ~_tに対して、まだ、注目モデルに選択されていない１つの前景モデルが、注目モデルに選択され、以下、同様の処理が繰り返される。

そして、実画像λ~_tに対して、N個の前景モデル#1ないし#Nが、注目モデルとして選択された場合には、センサ１２から前景状態推定部１３に、次の時刻t+1の実画像λ~_t+1が供給されるのを待って、ステップＳ３１ないしＳ３６の処理が繰り返される。

なお、図２５において、ステップＳ３２ないしＳ３４の処理が、前景モデル及び背景モデルの学習であり、ステップＳ３５及びＳ３６の処理が、運動モデルの学習である。

すなわち、エージェントでは、前景モデル及び背景モデルの学習と、運動モデルの学習とが交互に行われる。

図２６は、図２１のエージェントが行う、前景モデル、背景モデル、及び、運動モデルの学習処理の詳細を説明するフローチャートである。

センサ１２から前景状態推定部１３に、実画像λ~_tが供給されると、エージェントは、ステップＳ５１において、実画像λ~_tに対して、まだ、注目モデルに選択していない前景モデル#iを、注目モデルに選択し、処理は、ステップＳ５２に進む。

ステップＳ５２では、前景状態推定部１３（図２２）において、状態パーティクル更新部４２は、状態パーティクル記憶部４３に記憶された時刻t-1のL個のパーティクルとしての前景#iの状態（以下、状態パーティクルともいう）zⁱ⁽¹⁾ _t-1ないしz^i(L) _t-1の中から、まだ、注目する注目状態パーティクルに選択していない１つの状態パーティクルz^i(l) _t-1を、注目状態パーティクルに選択して、処理は、ステップＳ５３に進む。

ステップＳ５３では、状態パーティクル更新部４２は、状態パーティクル記憶部４３に記憶された注目状態パーティクルz^i(l) _t-1から、式（２０）、又は、式（２１）に従って、時刻tの注目状態パーティクルz^i(l) _tを予測する。

さらに、状態パーティクル更新部４２は、時刻tの注目状態パーティクルz^i(l) _tを、状態パーティクル記憶部４３に供給し、時刻t-1の注目状態パーティクルz^i(l) _t-1に代えて記憶させて、処理は、ステップＳ５３からステップＳ５４に進む。

ステップＳ５４では、前景状態推定部１３（図２２）において、推定観測値生成部４４が、見えモデル記憶部１５に記憶された前景見えモデルμⁱ、及び、背景見えモデルμ^wを用い、前景の状態が、状態パーティクル記憶部４３に記憶された注目状態パーティクルz^i(l) _tになっている観測画像（生成モデルにおいて観測される画像）λ^i(l) _tを、式（２３）に従って生成する。

推定観測値生成部４４は、観測画像λ^i(l) _tを、見えモデル尤度計算部４１に供給して、処理は、ステップＳ５４からステップＳ５５に進む。

ステップＳ５５では、見えモデル尤度計算部４１（図２２）が、センサ１２からの実画像λ~_tと、推定観測値生成部４４からの観測画像λ^i(l) _tとを用い、式（２２）に従って、注目している前景#iが、注目状態パーティクルとしての状態z^i(l) _tになっているときの、前景#iの観測値xⁱ _tの観測尤度p(xⁱ _t|z^i(l) _t)を求める。

見えモデル尤度計算部４１は、観測尤度p(xⁱ _t|z^i(l) _t)を、状態パーティクル更新部４２に供給して、処理は、ステップＳ５５からステップＳ５６に進む。

ステップＳ５６では、状態パーティクル更新部４２が、見えモデル尤度計算部４１からの観測尤度p(xⁱ _t|z^i(l) _t)を用いて、式（１４）に従い、注目状態パーティクルz^i(l) _tの重みw^i(l) _tを求め、状態パーティクルz^i(l) _tと同様に、状態パーティクル記憶部４３に供給して記憶させ、処理は、ステップＳ５７に進む。

ステップＳ５７では、状態パーティクル更新部４２は、状態パーティクル記憶部４３に記憶された時刻t-1のL個の状態パーティクルzⁱ⁽¹⁾ _t-1ないしz^i(L) _t-1のすべてを、注目状態パーティクルに選択したかどうかを判定する。

ステップＳ５７において、L個の状態パーティクルzⁱ⁽¹⁾ _t-1ないしz^i(L) _t-1を、まだ、注目状態パーティクルに選択していないと判定された場合、処理は、ステップＳ５２に戻り、状態パーティクル更新部４２は、L個の状態パーティクルzⁱ⁽¹⁾ _t-1ないしz^i(L) _t-1のうちの、まだ、注目状態パーティクルに選択していない１つの状態パーティクルを、注目状態パーティクルに新たに選択して、以下、同様の処理が繰り返す。

また、ステップＳ５７において、L個の状態パーティクルzⁱ⁽¹⁾ _t-1ないしz^i(L) _t-1のすべてを、注目状態パーティクルに選択したと判定された場合、処理は、ステップＳ５８に進み、見えモデル更新部１４は、センサ１２から供給される実画像λ~_tと、ステップＳ５３で状態パーティクル記憶部４３に記憶された時刻tの状態パーティクルz^i(l) _t、及び、ステップＳ５６で状態パーティクル記憶部４３に記憶された重みw^i(l) _tとを用いて、見えモデル記憶部１５に記憶された前景見えモデルμⁱを更新し、処理は、ステップＳ５９に進む。

なお、以上のように、見えモデル更新部１４が、前景見えモデルμⁱを更新するのと並行して、最尤状態算出部１６は、状態パーティクル記憶部４３に記憶された状態パーティクルz^i(l) _t及びその重みw^i(l) _tを用い、式（３９）に従って、最尤状態zⁱ _tを求めて、最尤状態系列記憶部１７に供給して記憶させる。

ステップＳ５９では、見えモデル更新部１４は、センサ１２から供給される実画像λ~_tと、ステップＳ５３で状態パーティクル記憶部４３に記憶された時刻tの状態パーティクルz^i(l) _t、及び、ステップＳ５６で状態パーティクル記憶部４３に記憶された重みw^i(l) _tとを用いて、見えモデル記憶部１５に記憶された背景見えモデルμ^wを更新し、処理は、ステップＳ６０に進む。

すなわち、見えモデル更新部１４は、式（２８）ないし式（３３）に従って、背景見えモデルμ^w（背景テクスチャモデルτ^w）を更新する。

ステップＳ６０では、運動モデル推定部１８（図２３）において、運動モデルパーティクル更新部５２は、運動モデルパーティクル記憶部５３に記憶された時刻t-1のL個のパーティクルとしての前景#iの運動モデル（以下、運動モデルパーティクルともいう）aⁱ⁽¹⁾ _t-1ないしa^i(L) _t-1の中から、まだ、注目する注目運動モデルパーティクルに選択していない１つの運動モデルパーティクルa^i(l) _t-1を、注目運動モデルパーティクルに選択して、処理は、ステップＳ６１に進む。

ステップＳ６１では、運動モデルパーティクル更新部５２が、運動モデルパーティクル記憶部５３に記憶された時刻t-1の注目運動モデルパーティクルa^i(l) _t-1から、式（４４）に従って、次の時刻tの注目運動モデルパーティクルa^i(l) _tを予測する。

さらに、ステップＳ６１では、運動モデルパーティクル更新部５２は、時刻tの注目運動モデルパーティクルa^i(l) _tを、運動モデルパーティクル記憶部５３に供給し、時刻t-1のパーティクルとしての運動モデルa^i(l) _t-1に代えて記憶させ、処理は、ステップＳ６２に進む。

ステップＳ６２では、推定観測値生成部５４（図２３）が、最尤状態系列記憶部１７に記憶された、時刻t-T_DYNの最尤状態zⁱ _t-TDYNを初期値とし、運動モデルパーティクル記憶部５３に記憶された注目運動モデルパーティクルa^i(l) _t、及び、アクション系列記憶部２３に記憶されたアクションの系列Uⁱ _t-1＝{uⁱ _t-TDYN，uⁱ _t-TDYN+1，・・・，uⁱ _t-1}を用いて、式（４１）及び式（４２）の運動方程式を計算することにより、注目運動モデルパーティクルa^i(l) _tに対して、式（４１）及び式（４２）の運動方程式に従って運動する前景#iの状態系列Z^^i(l) _t-TDYN+1:t＝{z^^i(l) _t-TDYN+1，z^^i(l) _t-TDYN+2，・・・，z^^i(l) _t}を求める。

そして、推定観測値生成部５４は、注目運動モデルパーティクルa^i(l) _tに対して求められた状態系列Z^^i(l) _t-TDYN+1:t＝{z^^i(l) _t-TDYN+1，z^^i(l) _t-TDYN+2，・・・，z^^i(l) _t}を、運動モデル尤度計算部５１に供給して、処理は、ステップＳ６２からステップＳ６３に進む。

ステップＳ６３では、運動モデル尤度計算部５１は、最尤状態系列記憶部１７に記憶された最尤系列Zⁱ _t＝{zⁱ _t-TDYN+1，zⁱ _t-TDYN+2，・・・，zⁱ _t}と、推定観測値生成部５４からの、注目運動モデルパーティクルa^i(l) _tに対する状態系列Z^^i(l) _t-TDYN+1:t＝{z^^i(l) _t-TDYN+1，z^^i(l) _t-TDYN+2，・・・，z^^i(l) _t}とを用い、式（４３）に従って、運動モデルaⁱ _tが、注目運動モデルパーティクルa^i(l) _tである場合の、状態系列Z^^i(l) _t-TDYN+1:tの観測尤度p(zⁱ _t|aⁱ)＝p(Zⁱ _t|a^i(l) _t)を求める。

そして、運動モデル尤度計算部５１は、観測尤度p(zⁱ _t|aⁱ)＝p(Zⁱ _t|a^i(l) _t)を、運動モデルパーティクル更新部５２に供給して、処理は、ステップＳ６３からステップＳ６４に進む。

ステップＳ６４では、運動モデルパーティクル更新部５２は、運動モデル尤度計算部５１からの観測尤度p(Zⁱ _t|a^i(l) _t)を、式（１４）の観測尤度p(xⁱ _t|z^i(l) _t)に代えて用い、式（１４）に従い、注目運動モデルパーティクルa^i(l) _tの重みw^i(l) _tを求める。

そして、運動モデルパーティクル更新部５２は、注目運動モデルパーティクルa^i(l) _tの重みw^i(l) _tを、運動モデルパーティクルa^i(l) _tと同様に、運動モデルパーティクル記憶部５３に供給して記憶させ、処理は、ステップＳ６４からステップＳ６５に進む。

ステップＳ６５では、運動モデルパーティクル更新部５２は、運動モデルパーティクル記憶部５３に記憶された時刻t-1のL個の運動モデルパーティクルaⁱ⁽¹⁾ _t-1ないしa^i(L) _t-1のすべてを、注目運動モデルパーティクルに選択したかどうかを判定する。

ステップＳ６５において、L個の運動モデルパーティクルaⁱ⁽¹⁾ _t-1ないしa^i(L) _t-1を、まだ、注目運動モデルパーティクルに選択していないと判定された場合、処理は、ステップＳ６０に戻り、運動モデルパーティクル更新部５２は、L個の運動モデルパーティクルaⁱ⁽¹⁾ _t-1ないしa^i(L) _t-1のうちの、まだ、注目運動モデルパーティクルに選択していない１つの運動モデルパーティクルを、注目運動モデルパーティクルに新たに選択して、以下、同様の処理が繰り返す。

また、ステップＳ６５において、L個の運動モデルパーティクルaⁱ⁽¹⁾ _t-1ないしa^i(L) _t-1のすべてを、注目運動モデルパーティクルに選択したと判定された場合、処理は、ステップＳ６６に進み、運動モデル更新部１９（図２１）は、運動モデルパーティクル記憶部５３に記憶された運動モデルパーティクルa^i(l) _t及び重みw^i(l) _tを用い、式（４５）に従って、運動モデル記憶部２０に記憶された運動モデルaⁱを更新し、処理は、ステップＳ６７に進む。

ステップＳ６７では、エージェントは、実画像λ~_tに対して、N個の前景モデル#1ないし#Nのすべてを、注目モデルに選択したかどうかを判定する。

ステップＳ６７において、N個の前景モデル#1ないし#Nが、まだ、注目モデルに選択されていないと判定された場合、処理は、ステップＳ５１に戻る。ステップＳ５１では、エージェントは、実画像λ~_tに対して、まだ、注目モデルに選択していない前景モデル#iを、注目モデルに新たに選択し、以下、同様の処理が繰り返される。

また、ステップＳ６７において、N個の前景モデル#1ないし#Nのすべてが、注目モデルに選択されたと判定された場合、処理は、ステップＳ６８に進み、状態パーティクル更新部４２（図２２）は、状態パーティクル記憶部４３に記憶された重みw^i(l) _tに対応する確率で、同じく状態パーティクル記憶部４３に記憶された状態パーティクルz^i(l) _tを選択するリサンプリングを行い、状態パーティクル記憶部４３に記憶された状態パーティクルz^i(l) _tを、リサンプリング結果に書き換えて、処理は、ステップＳ６９に進む。

リサンプリング結果としての状態パーティクルz^i(l) _tは、次の時刻t+1の観測尤度p(xⁱ _t+1|z^i(l) _t+1)が得られた後に、式（２０）、又は、式（２１）に従って、時刻t+1の状態zⁱ _t+1としての状態パーティクルz^i(l) _t+1を予測するときに用いられる。

ステップＳ６９では、運動モデルパーティクル更新部５２（図２３）は、運動モデルパーティクル記憶部５３に記憶された重みw^i(l) _tに対応する確率で、同じく運動モデルパーティクル記憶部５３に記憶された運動モデルパーティクルa^i(l) _tを選択するリサンプリングを行い、運動モデルパーティクル記憶部５３に記憶された運動モデルパーティクルa^i(l) _tを、リサンプリング結果に書き換える。

リサンプリング結果としての運動モデルパーティクルa^i(l) _tは、次の時刻t+1の観測尤度p(Zⁱ _t+1|a^i(l) _t+1)が得られた後に、式（４４）に従って、時刻t+1の運動モデルaⁱ _t+1としての運動モデルパーティクルa^i(l) _t+1を予測するときに用いられる。

ステップＳ６９の処理後は、センサ１２において、次の時刻の実画像λ~_t+1が撮影され、その実画像λ~_t+1が、センサ１２から前景状態推定部１３に供給されるのを待って、ステップＳ５１に戻り、以下、同様の処理が繰り返される。

なお、図２６において、ステップＳ５２ないしＳ５７、及び、ステップＳ６０ないしＳ６５が、EMアルゴリズムのEステップに相当し、ステップＳ５８及びＳ５９、並びに、ステップＳ６６が、EMアルゴリズムのMステップに相当する。

図２７は、エージェントが物体操作のために行うアクション制御処理の概要を説明するフローチャートである。

ステップＳ７１において、アクション出力部６３（図２４）は、最尤状態系列記憶部１７に記憶された現在時刻tの最尤状態zⁱ _tと、目標生成部２１で生成された目標状態としての目標位置s^tgt及び目標姿勢q^tgtとに基づいて、操作対象の物体の最尤状態zⁱ _tとしての位置sⁱ _tの、目標位置s^tgtに対する誤差（以下、位置誤差ともいう）と、最尤状態zⁱ _tとしての姿勢sⁱ _tの、目標姿勢q^tgtに対する誤差（以下、姿勢誤差ともいう）とが、いずれも、十分小さいかどうかを判定する。

ステップＳ７１において、位置誤差、及び、姿勢誤差のうちの一方、又は、両方が、十分小さくないと判定された場合、すなわち、位置誤差、又は、姿勢誤差が、所定の閾値以下でない場合、処理は、ステップＳ７２に進み、アクション出力部６３は、ステップＳ７１と同様にして、位置誤差が、十分小さいかどうかを判定する。

ステップＳ７２において、位置誤差が、十分小さくないと判定された場合、すなわち、位置誤差が、所定の閾値以下でない場合、処理は、ステップＳ７３に進み、アクション生成部２２（図２４）は、並進運動制御を行う。

すなわち、ステップＳ７３では、並進運動制御部６１は、見えモデル記憶部１５に記憶された前景見えモデルμⁱ、及び、最尤状態系列記憶部１７に記憶された最尤状態zⁱ _tから、操作対象の前景（物体）#iの縁を認識し、図１８で説明したようにして、前景#iの現在の状態（最尤状態zⁱ _t）としての位置sⁱ _t＝s^obj _tを、目標生成部２１で生成された目標状態としての目標位置s^tgtに近づける並進運動を行うための作用点と、その作用点に加える力の力ベクトルを求め、アクション出力部６３に供給する。

アクション出力部６３は、並進運動制御部６１からの作用点と力ベクトルに従い、その作用点に、その力ベクトルの力を加えるための速度ベクトルs^・manip _tを、式（４８）に従って生成し、ハンドのアクションとして、アクチュエータ制御部１１、及び、アクション系列記憶部２３に出力する。

その後、処理は、ステップＳ７３からステップＳ７１に戻り、以下、同様の処理が繰り返される。

一方、ステップＳ７２において、位置誤差が、十分小さいと判定された場合、すなわち、位置誤差が、所定の閾値以下である場合、処理は、ステップＳ７３に進み、アクション生成部２２は、回転運動制御を行う。

すなわち、ステップＳ７４では、回転運動制御部６２は、見えモデル記憶部１５に記憶された前景見えモデルμⁱ、及び、最尤状態系列記憶部１７に記憶された最尤状態zⁱ _tから、操作対象の前景（物体）#iの縁を認識し、図１９で説明したようにして、前景#iの現在の状態（最尤状態zⁱ _t）としての姿勢qⁱ _t＝q^obj _tを、目標姿勢q^tgtに近づける回転運動を行うための作用点と、その作用点に加える力の力ベクトルを求める。

アクション出力部６３は、回転運動制御部６２からの作用点と力ベクトルに従い、その作用点に、その力ベクトルの力を加えるための速度ベクトルs^・manip _tを、式（４８）に従って生成し、ハンドのアクションとして、アクチュエータ制御部１１、及び、アクション系列記憶部２３に出力する。

その後、処理は、ステップＳ７４からステップＳ７１に戻り、以下、同様の処理が繰り返される。

そして、ステップＳ７１において、位置誤差、及び、姿勢誤差の両方が、十分小さいと判定された場合、アクション制御処理は、終了する。

なお、図２７のアクション制御処理では（後述する図２８でも同様）、並進運動が優先的に行われ、位置誤差が小さくなると、回転運動が行われるが、逆に、回転運動を優先的に行い、姿勢誤差が小さくなった場合に、並進運動を行うことが可能である。

図２８は、エージェントが物体操作のために行うアクション制御処理の詳細を説明するフローチャートである。

ステップＳ８１において、目標生成部２１は、目標状態としての目標位置s^tgt及び目標姿勢q^tgtを生成（決定）し、アクション生成部２２（図２４）の並進運動制御部６１、回転運動制御部６２、及び、アクション出力部６３に供給して、処理は、ステップＳ８２に進む。

ステップＳ８２では、アクション出力部６３は、最尤状態系列記憶部１７に記憶された最尤状態zⁱ _tと、目標生成部２１からの目標状態としての目標位置s^tgt及び目標姿勢q^tgtとに基づいて、操作対象の物体の最尤状態zⁱ _tとしての位置sⁱ _t＝s^obj _tの、目標位置s^tgtに対する誤差（位置誤差）と、最尤状態zⁱ _tとしての姿勢sⁱ _tの、目標姿勢q^tgtに対する誤差（姿勢誤差）とが、いずれも、十分小さいかどうかを判定する。

ステップＳ８２において、位置誤差、及び、姿勢誤差のうちの一方、又は、両方が、十分小さくないと判定された場合、すなわち、位置誤差、又は、姿勢誤差が、所定の閾値以下でない場合、処理は、ステップＳ８３に進み、アクション出力部６３は、ステップＳ８２と同様にして、位置誤差が、十分小さいかどうかを判定する。

ステップＳ８３において、位置誤差が、十分小さくないと判定された場合、すなわち、位置誤差が、所定の閾値以下でない場合、処理は、ステップＳ８４ないしＳ８６に順次進み、並進運動制御部６１は、並進運動制御を行う。

すなわち、ステップＳ８４において、並進運動制御部６１は、見えモデル記憶部１５に記憶された前景見えモデルμⁱ、及び、最尤状態系列記憶部１７に記憶された最尤状態zⁱ _tから、操作対象の前景（物体）#iの縁を認識する。

さらに、並進運動制御部６１は、図１８で説明したように、物体の目標位置s^tgtと、現在の位置（重心）s^obj _tとを結ぶ直線L1と、現在の物体の縁との交点を、作用点の候補に決定し、処理は、ステップＳ８４からステップＳ８５に進む。

ステップＳ８５では、並進運動制御部６１は、ステップＳ８４で得られた作用点の候補のうちの、目標位置s^tgtから最も遠い候補を、力の作用点に選択（決定）し、処理は、ステップＳ８６に進む。

ステップＳ８６では、並進運動制御部６１は、式（４６）に従って、作用点に加える力の力ベクトルを求め、処理は、ステップＳ８７に進む。

ステップＳ８７では、並進運動制御部６１は、ステップＳ８４ないしＳ８６で求めた作用点と力ベクトルを、アクション出力部６３に出力し、処理は、ステップＳ９２に進む。

一方、ステップＳ８３において、位置誤差が、十分小さいと判定された場合、すなわち、位置誤差が、所定の閾値以下である場合、処理は、ステップＳ８８ないしＳ９１に順次進み、回転運動制御部６２は、回転運動制御を行う。

すなわち、ステップＳ８８において、回転運動制御部６２は、見えモデル記憶部１５に記憶された前景見えモデルμⁱ、及び、最尤状態系列記憶部１７に記憶された最尤状態zⁱ _tから、操作対象の前景（物体）#iの縁を認識する。

さらに、回転運動制御部６２は、図１９で説明したように、物体の現在の状態の位置（重心）s^obj _tを通る１以上の直線としての３本の直線L₁，L₂，L₃それぞれと、現在の物体の縁との交点を、作用点の候補に決定し、処理は、ステップＳ８８からステップＳ８９に進む。

ステップＳ８９では、回転運動制御部６２は、ステップＳ８８で得られた作用点の候補の中で、物体の縁を押すように力を加えたときに生じるトルクの方向が、物体を回転したい方向と一致する候補であって、物体の重心s^obj _tから最も遠い候補を、力の作用点に選択（決定）し、処理は、ステップＳ９０に進む。

ステップＳ９０では、回転運動制御部６２は、作用点に加える力の力ベクトルによって発生させるトルクを、式（４７）に従って求め、処理は、ステップＳ９１に進む。

ステップＳ９１では、回転運動制御部６２は、ステップＳ９０で求められたトルクを発生させるのに作用点に加える力の力ベクトルを求め、処理は、ステップＳ８７に進む。

ステップＳ８７では、回転運動制御部６２は、ステップＳ８８ないしＳ９１で求めた作用点と力ベクトルを、アクション出力部６３に出力し、処理は、ステップＳ９２に進む。

ステップＳ９２では、アクション出力部６３が、物体操作のための運動制御が、並進運動制御部６１による並進運動制御、及び、回転運動制御部６２による回転運動制御のうちの一方から他方に切り替わった直後であるかどうかを判定する。

ステップＳ９２において、運動制御が、並進運動制御、及び、回転運動制御のうちの一方から他方に切り替わった直後であると判定された場合、処理は、ステップＳ９３に進み、アクション出力部６３は、図２０で説明した初期位置に、ハンドを移動させるアクションを出力する。

そして、ハンドが初期位置に移動するのを待って、処理は、ステップＳ９３からステップＳ９４に進む。

一方、ステップＳ９２において、運動制御が、並進運動制御、及び、回転運動制御のうちの一方から他方に切り替わった直後でないと判定された場合、処理は、ステップＳ９３をスキップして、ステップＳ９４に進み、アクション出力部６３は、並進運動制御部６１、又は、回転運動制御部６２からの作用点と力ベクトルに従い、その作用点に、その力ベクトルの力を加えるための速度ベクトルs^・manip _tを、式（４８）に従って生成する。

さらに、アクション出力部６３は、式（４８）に従って生成した速度ベクトルs^・manip _tを、ハンドのアクションとして、アクチュエータ制御部１１、及び、アクション系列記憶部２３に出力し、処理は、ステップＳ８２に戻る。

そして、ステップＳ８２において、位置誤差、及び、姿勢誤差の両方が、十分小さいと判定された場合、すなわち、位置誤差、及び、姿勢誤差が、いずれも、所定の閾値以下である場合、操作対象の物体の状態が、目標生成部２１で生成された目標状態になったとして、アクション制御処理は、終了する。

［シミュレーション］

図２９は、コンピュータにおいて、背景上に、２つの前景#1及び#2を合成することにより作成した画像を、実画像λ~_tとして用いた行った学習処理、及び、アクション制御処理のシミュレーションの結果を、模式的に示す図である。

シミュレーションでは、L字型の物体としての前景#1が、円形のハンドとしての前景#2によって操作される様子が映った画像を、実画像λ~_tとして用いて、前景モデル、背景モデル、及び、運動モデルの学習処理を行った。

図２９Ａは、ある時刻tの実画像λ~_tを示している。

図２９Ｂは、時刻tにおいて得られている前景見えモデルμ¹（前景テクスチャモデルτ¹、及び、前景形状モデルσ¹）を、最尤状態z¹ _tで、背景見えモデルμ^w＝τ^w上に重畳するとともに、前景見えモデルμ²（前景テクスチャモデルτ²、及び、前景形状モデルσ²）を、最尤状態z² _tで、背景見えモデルμ^w上に重畳することにより生成した観測画像λ_tを示している。

図２９Ｃは、円形のハンドによって、L字型の物体を操作するときの様子、特に、操作対象のL字型の物体に働く力ベクトルと、その力ベクトルが加えられる作用点を示している。

図２９Ｄは、前景#1の前景見えモデルμ¹の前景テクスチャモデルτ¹、及び、前景形状モデルσ¹、並びに、前景#2の前景見えモデルμ²の前景テクスチャモデルτ²、及び、前景形状モデルσ²を示している。

図２９Ｅは、背景見えモデルμ^w＝τ^wを示している。

図２９Ｆは、操作対象の前景#1の運動モデルa¹としての、ある時刻tの、ある２つの運動モデルパーティクル（丸印と星印で示す）それぞれの重心r¹ _cを示している。

図２９Ｇは、操作対象の前景#1の運動モデルa¹としての、ある時刻tの、ある２つの運動モデルパーティクル（丸印と星印で示す）それぞれの質量m¹ _c及び慣性モーメントI¹ _cを示している。

本件発明者が行ったシミュレーションによれば、学習処理が進行するにつれ、実画像λ~_tの前景と背景とが、前景モデルと背景モデルとで、それぞれ分離して獲得され、さらに、実画像λ~_tの２つの前景#1及び#2については、別個の前景モデルそれぞれで排他的に獲得されていき、前景見えモデルμ¹及びμ²、並びに、背景見えモデルμ^wが、それぞれ、実画像λ~_tに映る前景#1及び#2、並びに、背景に収束していく様子を確認することができた。

また、シミュレーションでは、前景見えモデルμ¹及びμ²、並びに、背景見えモデルμ^wの収束に従って、それらの前景見えモデルμ¹及びμ²、並びに、背景見えモデルμ^wを用いて生成される観測画像λ_tが、実画像λ~_tに近づいていくことを確認することができた。

以上のように、本技術によれば、アクションを行うことが可能なエージェントにおいて観測される実画像λ~_tの系列を、学習用の学習データとして用いて、前景や背景を区別する明示的な教師ラベルなしに、エージェントがおかれた環境中の前景の見えとその（空間的）状態、並びに、背景の見えを同時に学習する前景背景学習を、容易に行うことができる。

すなわち、本技術によれば、背景上を、複数の前景が位置や姿勢等の状態を変化させながら動いている場合に、前景の見えや状態等の情報をあらかじめ教示しなくても、背景上に前景が重畳された実画像の時系列を学習データとして用いて、前景の見え、位置や姿勢等の状態、背景の見えを同時に獲得することができる。

また、本技術によれば、実画像の他、前景のアクションの系列をも、学習データとして用いることにより、前景の運動モデルを獲得することができ、さらに、前景の運動が、剛体運動の動力学モデルに従うことを考慮して、前景の状態を精度良く推定し、ひいては、前景の見え、及び、背景の見えを、精度良く獲得することができる。

その他、本技術によれば、パーティクルフィルタを適用し、前景の観測尤度p(x_t|z^i(l) _t)が高いパーティクルz^i(l) _tとしての状態だけを対象に処理を行うので、例えば、背景のすべての画素について、その画素の位置に、前景が存在しうることを考慮して処理を行う場合に比較して、計算コストを飛躍的に小さくすることができ、その結果、スケーラビリティを向上させることができる。

例えば、背景の各画素について、その画素の位置に、前景が存在しうることを考慮して処理を行う場合、標準的な家庭用PCで、1fps(Frames Per Second)の計算処理を実行するには、横×縦が30×40画素程度の解像度の画像が、実画像として用いることができる画像の限界であったが、本技術によれば、128×128画素ないし640×480画素程度の解像度の画像を、実画像として用いることができる。

また、本技術によれば、前景#iの状態zⁱ _tとして、前景#iの位置sⁱ _tの他、姿勢qⁱ _tや、位置sⁱ _tの変化の速度s^・i _t、姿勢qⁱ _tの変化の速度q^・i _tを扱うことができる。すなわち、本技術では、２次元の実画像については、位置sⁱ _tとしてのx座標及びy座標、姿勢qⁱ _tとしての回転角、位置sⁱ _tの変化の速度s^・i _tとしてのx成分及びy成分、並びに、姿勢qⁱ _tの変化の速度q^・i _tとしての角速度の6自由度を扱うことができる。

さらに、本技術では、時刻t+1に、観測値x_t+1を観測したとき、時刻tまでに、観測値の系列X_t＝{x₁,x₂,・・・,x_t}が観測され、時刻t+1に、状態z_t+1にいる事後分布p(z_t+1|X_t)が、時刻tに状態z^(l) _tにいて、時刻t+1に状態z_t+1に遷移する遷移確率p(z_t+1|z^(l) _t)と、パーティクルz^(l) _tの重みw^(l) _tとを用いた式（１５）の混合分布であるため、そのような事後分布p(z_t+1|X_t)の前景の状態としては、連続量を扱うことができる。

また、本技術では、前景見えモデルμⁱが、前景#iのテクスチャを表す前景テクスチャモデルτⁱと、画素値が前景の画素である確率を表す前景形状モデルσⁱとを含むので、前景見えモデルμⁱによれば、複雑な形状の前景であっても、その前景を精度良く表現することができる。

さらに、本技術によれば、前景の状態を推定し、その前景の推定結果を用いて、前景見えモデルμⁱ、及び、背景見えモデルμ^wを更新する他、前景の推定結果を用いて、前景の空間遷移を表現する動力学パラメータである運動モデルを推定し、その運動モデルの推定結果を用いて、運動モデルを更新するので、前景#iの運動モデルaⁱとしての、重心rⁱ _c、質量mⁱ、及び、慣性モーメントIⁱ _cを精度良く獲得することができる。

また、本技術によれば、前景見えモデルμⁱ（の前景形状モデルσⁱ）や運動モデルを用いて、環境中の物体を、任意の状態（目標状態）にする物体操作を行うことができる。

さらに、本技術では、前景#iの状態zⁱ _tとして、前景#iの位置sⁱ _t、及び、姿勢qⁱ _tの他、その位置sⁱ _t、及び、姿勢qⁱ _tの一次微分である位置sⁱ _tの変化の速度s^・i _t、及び、姿勢qⁱ _tの変化の速度q^.・i _tを扱うので、例えば、氷の上を滑る剛体のように、慣性の法則に従って、等速度運動や等角速度運動（に近い運動）をする前景を正確にモデル化することができる。

また、本技術によれば、実世界での物体操作のように、物体の姿勢を変化させる操作や、動力学の法則に従って運動する物体を操作することができる。

例えば、本技術では、細長い物体を操作する場合に、より重心に近い位置に力を加えればより安定的に並進運動をすることができることや、物体の姿勢を変化させるためには、重心からより遠い位置に力を加えればより小さい力で姿勢を変化させることができること等を考慮して、物体操作を行うことができる。

したがって、本技術については、将来的に、3次元環境で実装し、実環境下で活動するエージェントの環境認識や、行動制御技術として応用されることを期待することができる。

さらに、本技術においては、実画像の系列とアクションの系列を、学習データとして与えるだけで、前景と背景とが別個に学習されるとともに、前景の運動モデルも学習され、最終的には、物体操作を行うことができるようになるので、従来のように、環境モデルをあらかじめ人間が作り込み、データベース化する手間が必要ない。したがって、任意の環境設定下での適応能力の向上を期待することができる。

また、本技術では、物体操作のためのアクション制御は、操作対象の物体、及び、ハンドが前景として映っている実画像を用いた逐次的な学習によって得られた前景見えモデルμⁱ、及び、運動モデルaⁱに基づいて実行される。

したがって、学習の初期段階では、前景見えモデルμⁱ、及び、運動モデルaⁱの学習が十分に収束していないため、環境中におけるハンドや物体等の前景の認識を精度良く行うことは困難であり、さらに、物体操作のための適切なアクション制御を行うことも困難である。

しかしながら、時間が経過し、学習が進行すると、前景の認識性能が向上し、それに伴い、物体操作のための適切なアクション制御が可能となる。その結果、エージェントでは、ハンドが、操作対象の物体に効率良く接触するように、ハンドを動かすことが可能となり、ハンドや物体等の前景の前景見えモデルμⁱ、及び、運動モデルaⁱを正確に学習するための実画像が観測されやすくなるので、時間が経過するほど、学習能率が向上していくことが期待される。

ここで、本技術において、前景の認識では、例えば、生成モデルから生成される観測画像λ_t(s)上の、最尤状態zⁱ _tになっている前景#iの観測値x_tが観測される観測尤度p(x_t|zⁱ _t)が、式（１９）に従い、各前景モデル#iについて計算され、観測尤度p(x_t|zⁱ _t)が所定の閾値以上の前景モデル#iが、最尤状態zⁱ _tで、背景上に存在すると認識される。

［本技術を適用したコンピュータの説明］

次に、上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。

そこで、図３０は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。

プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク１０５やROM１０３に予め記録しておくことができる。

あるいはまた、プログラムは、リムーバブル記録媒体１１１に格納（記録）しておくことができる。このようなリムーバブル記録媒体１１１は、いわゆるパッケージソフトウエアとして提供することができる。ここで、リムーバブル記録媒体１１１としては、例えば、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory)，MO(Magneto Optical)ディスク，DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリ等がある。

なお、プログラムは、上述したようなリムーバブル記録媒体１１１からコンピュータにインストールする他、通信網や放送網を介して、コンピュータにダウンロードし、内蔵するハードディスク１０５にインストールすることができる。すなわち、プログラムは、例えば、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送することができる。

コンピュータは、CPU(Central Processing Unit)１０２を内蔵しており、CPU１０２には、バス１０１を介して、入出力インタフェース１１０が接続されている。

CPU１０２は、入出力インタフェース１１０を介して、ユーザによって、入力部１０７が操作等されることにより指令が入力されると、それに従って、ROM(Read Only Memory)１０３に格納されているプログラムを実行する。あるいは、CPU１０２は、ハードディスク１０５に格納されたプログラムを、RAM(Random Access Memory)１０４にロードして実行する。

これにより、CPU１０２は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU１０２は、その処理結果を、必要に応じて、例えば、入出力インタフェース１１０を介して、出力部１０６から出力、あるいは、通信部１０８から送信、さらには、ハードディスク１０５に記録等させる。

なお、入力部１０７は、キーボードや、マウス、マイク等で構成される。また、出力部１０６は、LCD(Liquid Crystal Display)やスピーカ等で構成される。

ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含む。

また、プログラムは、１のコンピュータ（プロセッサ）により処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。

さらに、本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

なお、本技術は、以下のような構成をとることができる。

［１］
実際に観測される画像である実画像を用いて、画像の前景の状態を推定する前景状態推定部と、
前記前景の状態の推定結果を用いて、画像の背景の見えの背景見えモデル、及び、前記前景の見えの前景見えモデルを更新する見えモデル更新部と
を備える情報処理装置。
［２］
前記前景のアクションと、前記前景の状態の推定結果から得られる前記前景の最尤状態の状態系列とを用いて、前記前景の運動モデルを推定する運動モデル推定部と、
前記運動モデルの推定結果を用いて、前記運動モデルを更新する運動モデル更新部と
を、さらに備える
［１］に記載の情報処理装置。
［３］
前記背景見えモデルは、前記背景のテクスチャを表す背景テクスチャモデルを含み、
前記前景見えモデルは、前記前景のテクスチャを表す前景テクスチャモデルと、前記前景の形状を表す前景形状モデルとを含み、
前記前景の状態は、前記前景の位置及び位置変化の速度、並びに、姿勢及び姿勢変化の速度を含み、
前記前景の運動モデルは、前記前景の質量、質量の重心、及び、重心回りの慣性モーメントを含み、
前記前景のアクションは、前記前景に加えられる力と、前記力が加えられる位置とを含む
［２］に記載の情報処理装置。
［４］
前記背景見えモデル、前記前景見えモデル、及び、前記運動モデルは、EMアルゴリズムに従って更新される
［３］に記載の情報処理装置。
［５］
前記背景見えモデル、前記前景見えモデル、及び、前記運動モデルは、パーティクルフィルタを用いたEMアルゴリズムに従って更新される
［３］又は［４］に記載の情報処理装置。
［６］
前記前景状態推定部は、前記前景の状態を表すパーティクルである状態パーティクルの重みと、前記状態パーティクルの遷移先とを算出する処理を、前記パーティクルフィルタを用いたEMアルゴリズムのEステップとして行う
［５］に記載の情報処理装置。
［７］
前記前景状態推定部は、
前記前景の状態が、前記状態パーティクルが表す状態である場合に、画像の観測値を生成する生成モデルにおいて観測される観測値の観測尤度に対応する値を、前記状態パーティクルの重みとして算出するとともに、
前記状態パーティクルが、前記状態パーティクルが表す前記前景の状態のうちの前記位置変化の速度、及び、前記姿勢変化の速度に従い、かつ、確率的に揺らぎながら遷移することとして、前記状態パーティクルの遷移先を算出し、
前記生成モデルでは、
前記前景見えモデルが表す画像上の点については、前記前景テクスチャモデルが表すテクスチャと、前記背景テクスチャモデルが表すテクスチャとを、前記前景形状モデルをα値としてαブレンディングし、
前記前景見えモデルが表す画像上の点以外の点については、前記背景テクスチャモデルが表すテクスチャを採用する
ことにより、前記生成モデルにおいて観測される前記画像の観測値が生成される
［６］に記載の情報処理装置。
［８］
前記前景状態推定部は、前記状態パーティクルが、さらに、前記アクション及び前記運動モデルに従って遷移することとして、前記状態パーティクルの遷移先を算出する
［７］に記載の情報処理装置。
［９］
前記見えモデル更新部は、
前記状態パーティクルが表す状態に従って、前記実画像から画像を切り出し、前記実画像から切り出した画像である切り出し画像を、前記状態パーティクルの重みに従って重み付け加算することにより、前記前景テクスチャモデルを更新する処理、
前記状態パーティクルが表す状態に従って、前記実画像から、前記状態に対応する前景を除去し、前記前景を除去した実画像を、前記状態パーティクルの重みに従って重み付け加算することにより、前記背景テクスチャモデルを更新する処理、
及び、前記前景テクスチャモデルが表すテクスチャの各画素が前景であることの尤度、及び、背景であることの尤度を求め、前記前景であることの尤度、及び、背景であることの尤度を用いて、前記前景テクスチャモデルが表すテクスチャの各画素が前景である確率を求めることにより、前記前景形状モデルを更新する処理
を、前記パーティクルフィルタを用いたEMアルゴリズムのMステップとして行う
［６］ないし［８］のいずれかに記載の情報処理装置。
［１０］
前記見えモデル更新部は、
前記切り出し画像を、前記状態パーティクルの重みに従って重み付け加算した重み付け加算値を、所定時間分だけ平均化することにより、前記前景テクスチャモデルを更新するとともに、
前記前景を除去した実画像を、前記状態パーティクルの重みに従って重み付け加算した重み付け加算値を、所定時間分だけ平均化することにより、前記背景テクスチャモデルを更新する
［９］に記載の情報処理装置。
［１１］
前記見えモデル更新部は、複数の前景見えモデルについては、
前記複数の前景見えモデルを、順次、注目する注目モデルとして、直前に注目モデルであった前景見えモデルが表す前景が除去された除去画像から、前記状態パーティクルが表す状態に従って、前記状態に対応する前景を除去し、前記前景を除去した除去画像を、前記状態パーティクルの重みに従って重み付け加算する
ことを繰り返すことにより、前記背景テクスチャモデルを更新する
［９］又は［１０］に記載の情報処理装置。
［１２］
前記運動モデル推定部は、前記運動モデルを表すパーティクルである運動モデルパーティクルの重みと、前記運動モデルパーティクルの遷移先とを算出する処理を、前記パーティクルフィルタを用いたEMアルゴリズムのEステップとして行う
［５］に記載の情報処理装置。
［１３］
前記運動モデル推定部は、
前記運動モデルパーティクルが表す運動モデルにおいて観測される前記前景の状態の状態系列の観測尤度に対応する値を、前記運動モデルパーティクルの重みとして算出するとともに、
前記運動モデルパーティクルが、確率的に揺らぎながら遷移することとして、前記運動モデルパーティクルの遷移先を算出する
［１２］に記載の情報処理装置。
［１４］
前記前景の最尤状態を求める最尤状態算出部をさらに備え、
前記運動モデル推定部は、前記前景のアクション、及び、前記運動モデルパーティクルを用いて生成される前記前景の状態の状態系列と、前記前景の最尤状態の状態系列との誤差に対応する値を、前記前景の状態の状態系列の観測尤度として求める
［１３］に記載の情報処理装置。
［１５］
前記運動モデル更新部は、前記運動モデルパーティクルが表す運動モデルを、前記運動モデルパーティクルの重みに従って重み付け加算することにより、前記運動モデルを更新する処理を、前記パーティクルフィルタを用いたEMアルゴリズムのMステップとして行う
［１２］ないし［１４］のいずれかに記載の情報処理装置。
［１６］
前記前景見えモデル、及び、前記運動モデルを用いて、１の前景を、所定の目標状態にするための他の１の前景のアクションを生成するアクション生成部をさらに備える
［２］ないし［１５］のいずれかに記載の情報処理装置。
［１７］
前記アクション生成部は、前記１の前景を、並進運動させるアクションと、回転運動させるアクションとを生成する
［１６］に記載の情報処理装置。
［１８］
前記アクション生成部は、前記１の前景を、並進運動させるアクションと、回転運動させるアクションとのうちの一方のアクションを、前記１の前景の状態と前記目標状態との誤差が小さくなるまで生成し続け、その後、他方のアクションを生成する
［１７］に記載の情報処理装置。
［１９］
実際に観測される画像である実画像を用いて、画像の前景の状態を推定し、
前記前景の状態の推定結果を用いて、画像の背景の見えの背景見えモデル、及び、前記前景の見えの前景見えモデルを更新する
ステップを含む情報処理方法。
［２０］
実際に観測される画像である実画像を用いて、画像の前景の状態を推定する前景状態推定部と、
前記前景の状態の推定結果を用いて、画像の背景の見えの背景見えモデル、及び、前記前景の見えの前景見えモデルを更新する見えモデル更新部と
して、コンピュータを機能させるためのプログラム。

１１アクチュエータ制御部，１２センサ，１３前景状態推定部，１４見えモデル更新部，１５見えモデル記憶部，１６最尤状態算出部，１７最尤状態系列記憶部，１８運動モデル推定部，１９運動モデル更新部，２０運動モデル記憶部，２１目標生成部，２２アクション生成部，２３アクション系列記憶部，４１見えモデル尤度計算部，４２状態パーティクル更新部，４３状態パーティクル記憶部，４４推定観測値生成部，５１運動モデル尤度計算部，５２運動モデルパーティクル更新部，５３運動モデルパーティクル記憶部，５４推定観測値生成部，６１並進運動制御部，６２回転運動制御部，６３アクション出力部，１０１バス，１０２ CPU，１０３ ROM，１０４ RAM，１０５ハードディスク，１０６出力部，１０７入力部，１０８通信部，１０９ドライブ，１１０入出力インタフェース，１１１リムーバブル記録媒体

Claims

実際に観測される画像である実画像を用いて、画像の前景の状態を推定する前景状態推定部と、
前記前景の状態の推定結果を用いて、画像の背景の見えの背景見えモデル、及び、前記前景の見えの前景見えモデルを更新する見えモデル更新部と
を備える情報処理装置。
前記前景のアクションと、前記前景の状態の推定結果から得られる前記前景の最尤状態の状態系列とを用いて、前記前景の運動モデルを推定する運動モデル推定部と、
前記運動モデルの推定結果を用いて、前記運動モデルを更新する運動モデル更新部と
を、さらに備える
請求項１に記載の情報処理装置。
前記背景見えモデルは、前記背景のテクスチャを表す背景テクスチャモデルを含み、
前記前景見えモデルは、前記前景のテクスチャを表す前景テクスチャモデルと、前記前景の形状を表す前景形状モデルとを含み、
前記前景の状態は、前記前景の位置及び位置変化の速度、並びに、姿勢及び姿勢変化の速度を含み、
前記前景の運動モデルは、前記前景の質量、質量の重心、及び、重心回りの慣性モーメントを含み、
前記前景のアクションは、前記前景に加えられる力と、前記力が加えられる位置とを含む
請求項２に記載の情報処理装置。
前記背景見えモデル、前記前景見えモデル、及び、前記運動モデルは、EMアルゴリズムに従って更新される
請求項３に記載の情報処理装置。
前記背景見えモデル、前記前景見えモデル、及び、前記運動モデルは、パーティクルフィルタを用いたEMアルゴリズムに従って更新される
請求項４に記載の情報処理装置。
前記前景状態推定部は、前記前景の状態を表すパーティクルである状態パーティクルの重みと、前記状態パーティクルの遷移先とを算出する処理を、前記パーティクルフィルタを用いたEMアルゴリズムのEステップとして行う
請求項５に記載の情報処理装置。
前記前景状態推定部は、
前記前景の状態が、前記状態パーティクルが表す状態である場合に、画像の観測値を生成する生成モデルにおいて観測される観測値の観測尤度に対応する値を、前記状態パーティクルの重みとして算出するとともに、
前記状態パーティクルが、前記状態パーティクルが表す前記前景の状態のうちの前記位置変化の速度、及び、前記姿勢変化の速度に従い、かつ、確率的に揺らぎながら遷移することとして、前記状態パーティクルの遷移先を算出し、
前記生成モデルでは、
前記前景見えモデルが表す画像上の点については、前記前景テクスチャモデルが表すテクスチャと、前記背景テクスチャモデルが表すテクスチャとを、前記前景形状モデルをα値としてαブレンディングし、
前記前景見えモデルが表す画像上の点以外の点については、前記背景テクスチャモデルが表すテクスチャを採用する
ことにより、前記生成モデルにおいて観測される前記画像の観測値が生成される
請求項６に記載の情報処理装置。
前記前景状態推定部は、前記状態パーティクルが、さらに、前記アクション及び前記運動モデルに従って遷移することとして、前記状態パーティクルの遷移先を算出する
請求項７に記載の情報処理装置。
前記見えモデル更新部は、
前記状態パーティクルが表す状態に従って、前記実画像から画像を切り出し、前記実画像から切り出した画像である切り出し画像を、前記状態パーティクルの重みに従って重み付け加算することにより、前記前景テクスチャモデルを更新する処理、
前記状態パーティクルが表す状態に従って、前記実画像から、前記状態に対応する前景を除去し、前記前景を除去した実画像を、前記状態パーティクルの重みに従って重み付け加算することにより、前記背景テクスチャモデルを更新する処理、
及び、前記前景テクスチャモデルが表すテクスチャの各画素が前景であることの尤度、及び、背景であることの尤度を求め、前記前景であることの尤度、及び、背景であることの尤度を用いて、前記前景テクスチャモデルが表すテクスチャの各画素が前景である確率を求めることにより、前記前景形状モデルを更新する処理
を、前記パーティクルフィルタを用いたEMアルゴリズムのMステップとして行う
請求項６に記載の情報処理装置。
前記見えモデル更新部は、
前記切り出し画像を、前記状態パーティクルの重みに従って重み付け加算した重み付け加算値を、所定時間分だけ平均化することにより、前記前景テクスチャモデルを更新するとともに、
前記前景を除去した実画像を、前記状態パーティクルの重みに従って重み付け加算した重み付け加算値を、所定時間分だけ平均化することにより、前記背景テクスチャモデルを更新する
請求項９に記載の情報処理装置。
前記見えモデル更新部は、複数の前景見えモデルについては、
前記複数の前景見えモデルを、順次、注目する注目モデルとして、直前に注目モデルであった前景見えモデルが表す前景が除去された除去画像から、前記状態パーティクルが表す状態に従って、前記状態に対応する前景を除去し、前記前景を除去した除去画像を、前記状態パーティクルの重みに従って重み付け加算する
ことを繰り返すことにより、前記背景テクスチャモデルを更新する
請求項９に記載の情報処理装置。
前記運動モデル推定部は、前記運動モデルを表すパーティクルである運動モデルパーティクルの重みと、前記運動モデルパーティクルの遷移先とを算出する処理を、前記パーティクルフィルタを用いたEMアルゴリズムのEステップとして行う
請求項５に記載の情報処理装置。
前記運動モデル推定部は、
前記運動モデルパーティクルが表す運動モデルにおいて観測される前記前景の状態の状態系列の観測尤度に対応する値を、前記運動モデルパーティクルの重みとして算出するとともに、
前記運動モデルパーティクルが、確率的に揺らぎながら遷移することとして、前記運動モデルパーティクルの遷移先を算出する
請求項１２に記載の情報処理装置。
前記前景の最尤状態を求める最尤状態算出部をさらに備え、
前記運動モデル推定部は、前記前景のアクション、及び、前記運動モデルパーティクルを用いて生成される前記前景の状態の状態系列と、前記前景の最尤状態の状態系列との誤差に対応する値を、前記前景の状態の状態系列の観測尤度として求める
請求項１３に記載の情報処理装置。
前記運動モデル更新部は、前記運動モデルパーティクルが表す運動モデルを、前記運動モデルパーティクルの重みに従って重み付け加算することにより、前記運動モデルを更新する処理を、前記パーティクルフィルタを用いたEMアルゴリズムのMステップとして行う
請求項１２に記載の情報処理装置。
前記前景見えモデル、及び、前記運動モデルを用いて、１の前景を、所定の目標状態にするための他の１の前景のアクションを生成するアクション生成部をさらに備える
請求項５に記載の情報処理装置。
前記アクション生成部は、前記１の前景を、並進運動させるアクションと、回転運動させるアクションとを生成する
請求項１６に記載の情報処理装置。
前記アクション生成部は、前記１の前景を、並進運動させるアクションと、回転運動させるアクションとのうちの一方のアクションを、前記１の前景の状態と前記目標状態との誤差が小さくなるまで生成し続け、その後、他方のアクションを生成する
請求項１７に記載の情報処理装置。
実際に観測される画像である実画像を用いて、画像の前景の状態を推定し、
前記前景の状態の推定結果を用いて、画像の背景の見えの背景見えモデル、及び、前記前景の見えの前景見えモデルを更新する
ステップを含む情報処理方法。
実際に観測される画像である実画像を用いて、画像の前景の状態を推定する前景状態推定部と、
前記前景の状態の推定結果を用いて、画像の背景の見えの背景見えモデル、及び、前記前景の見えの前景見えモデルを更新する見えモデル更新部と
して、コンピュータを機能させるためのプログラム。