JP2014081863A

JP2014081863A - 情報処理装置、情報処理方法、及び、プログラム

Info

Publication number: JP2014081863A
Application number: JP2012230513A
Authority: JP
Inventors: Kuniaki Noda; 邦昭野田; Kenta Kawamoto; 献太河本; Duerr Peter; ペータードゥール; Kotaro Sabe; 浩太郎佐部
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2012-10-18
Filing date: 2012-10-18
Publication date: 2014-05-08
Also published as: US20140114888A1; US9361590B2

Abstract

【課題】物体の操作に関する操作モデルとして、汎用性が高い操作モデルを提供する。
【解決手段】例えば、エージェントのハンドによって操作される操作対象物体とハンド等が映る、実際に観測される画像である実画像を用いて、ハンドによる操作対象物体の操作に関する操作モデルの学習が行われる。操作モデルでは、操作対象物体を基準とする物体基準座標系の各位置において、ハンドの状態が変化したときの、ハンドの位置及び状態変化と、ハンドの状態変化によって生じる操作対象物体の状態変化とが対応付けられる。本技術は、例えば、エージェントのハンドによって、操作対象物体を操作する場合に適用できる。
【選択図】図１２

Description

本技術は、情報処理装置、情報処理方法、及び、プログラムに関し、特に、例えば、物体の操作に関する操作モデルとして、汎用性が高い操作モデルを提供することができるようにする情報処理装置、情報処理方法、及び、プログラムに関する。

例えば、マニピュレータに、操作対象の物体を、自律的に操作させる場合には、物体を操作する環境での物体の運動を正確に再現するモデルが、物体の操作に関する操作モデルとして、あらかじめ作り込まれ、その操作モデルを用いて、マニピュレータの運動計画が、解析的にたてられる。

操作モデルとしては、例えば、物体の形状に関するデータや、剛体の動力学モデル等が、マニピュレータの設計者によって作り込まれる。

以上のように、操作モデルを、あらかじめ作り込む場合には、操作モデルに想定されていない物体の形状の変化や摩擦の変化等の外乱等の、物体を操作する環境の変化が生じると、その変化後の環境と操作モデルとの間に、齟齬が生じ（一貫性が失われ）、物体の正確な操作（期待している操作）が困難になる。

そこで、物体の形状に関するデータや、剛体の動力学モデル等を、あらかじめ仮定せずに、環境中での物体の操作の経験を基に、学習によって、物体の操作をすることができるようになるための学習型の操作モデルが提案されている（例えば、非特許文献１）。

K. Kawamoto, K. Noda, T. Hasuo, and K. Sabe, "Development of object manipulation through self-exploratory visuomotor experience," in Proceedings of the IEEE International Conference on Development and Learning (ICDL 2011), 2011.

非特許文献１では、環境中の物体の絶対的な位置及び姿勢（マニピュレータにおいて観測される画像の背景としての環境における、前景としての物体の位置及び姿勢）に依存して、操作モデルの学習が行われる。そのため、物体が、未経験の場所（例えば、マニピュレータが移動したことがない場所）に置かれた場合には、マニピュレータでは、物体が置かれた状態が、未学習の状態と判断され、物体を正確に操作するアクションを行うことが困難であることがある。

物体が、環境中のどの場所に、どのような姿勢で置かれても、その物体を正確に操作することができるように、操作モデルを学習する方法としては、環境中を万遍なく物体が移動した経験を、学習データとして準備し、その学習データすべてを用いて、操作モデルの学習を行う方法がある。

しかしながら、この方法では、経験としての学習データの準備（アクションの試行）、及び、その学習データを用いた操作モデルの学習の完了に、膨大な時間を要する。

したがって、物体が、経験済みの場所に置かれた場合だけでなく、物体が、未経験の場所に置かれた場合であっても、物体を正確に操作することができる、いわば汎用性が高い操作モデルの提案が要請されている。

本技術は、このような状況に鑑みてなされたものであり、物体の操作に関する操作モデルとして、汎用性が高い操作モデルを提供することができるようにするものである。

本技術の一側面の情報処理装置、又は、プログラムは、第１の物体と第２の物体とが映る、実際に観測される画像である実画像を用いて、前記第１の物体を基準とする物体基準座標系の各位置において、前記第２の物体の状態が変化したときの、前記第２の物体の位置及び状態変化と、前記第２の物体の状態変化によって生じる前記第１の物体の状態変化とを対応付ける、前記第２の物体による前記第１の物体の操作に関する操作モデルの学習を行う操作モデル学習部を備える情報処理装置、又は、情報処理装置として、コンピュータを機能させるためのプログラムである。

本技術の一側面の情報処理方法は、第１の物体と第２の物体とが映る、実際に観測される画像である実画像を用いて、前記第１の物体を基準とする物体基準座標系の各位置において、前記第２の物体の状態が変化したときの、前記第２の物体の位置及び状態変化と、前記第２の物体の状態変化によって生じる前記第１の物体の状態変化とを対応付ける、前記第２の物体による前記第１の物体の操作に関する操作モデルの学習を行うステップを含む情報処理方法である。

以上のような一側面においては、第１の物体と第２の物体とが映る、実際に観測される画像である実画像を用いて、前記第１の物体を基準とする物体基準座標系の各位置において、前記第２の物体の状態が変化したときの、前記第２の物体の位置及び状態変化と、前記第２の物体の状態変化によって生じる前記第１の物体の状態変化とを対応付ける、前記第２の物体による前記第１の物体の操作に関する操作モデルの学習が行われる。

なお、情報処理装置は、独立した装置であっても良いし、１つの装置を構成している内部ブロックであっても良い。

また、プログラムは、伝送媒体を介して伝送することにより、又は、記録媒体に記録して、提供することができる。

本技術の一側面によれば、物体の操作に関する操作モデルとして、汎用性が高い操作モデルを提供することができる。

本技術の概要を説明する図である。本技術が適用される環境の例を説明する図である。前景モデル#i、及び、背景モデル、並びに、前景モデル#i、及び、背景モデルを用いて生成される観測画像x_tの例を示す図である。前景#iの状態zⁱ _tを説明する図である。前景モデル#i、及び、背景モデルを用いて、観測画像を生成する生成モデルのグラフィカルモデルの例を示す図である。 EMアルゴリズムを説明するフローチャートである。モデルθのグラフィカルモデルの例を示す図である。パーティクルフィルタを説明する図である。前景モデル#i、及び、背景モデルを用いて、観測画像を生成する生成モデルθの実装の例を示す図である。パーティクルの重みw^i(l) _tを用いた前景テクスチャモデルτⁱの更新を説明する図である。背景テクスチャモデルτ^wの更新を説明する図である。エージェントが、ハンド（マニピュレータ）によって、操作対象物体を操作する物体操作の環境設定の概要を説明する図である。物体基準座標系を説明する図である。時刻tの操作対象物体の物体基準座標系O''上のハンドの状態及びアクションを説明する図である。エージェントが、ハンドによって、操作対象物体を操作する物体操作の環境設定の詳細を説明する図である。物体基準画像の生成を説明する図である。物体基準座標系O''上のハンドの状態、及び、体基準座標系O''上の操作対象物体の状態変化を求める求め方を説明する図である。物体基準座標系O''でのハンドの位置s^m _t''と位置変化△s^m _t''、及び、物体基準座標系O''での操作対象物体の位置変化△s^o _t''と姿勢変化△q^o _t''それぞれどうしの関係を示すグラフィカルモデルである。位置テーブルを示す図である。頻度テーブルを示す図である。本技術を適用したエージェントの一実施の形態の構成例を示すブロック図である。見えモデル学習部１３の構成例を示すブロック図である。操作モデル学習部１５の構成例を示すブロック図である。エージェントの処理を説明するフローチャートである。ステップＳ１２で行われる見えモデルの学習処理を説明するフローチャートである。ステップＳ１３で行われる操作モデルの学習処理を説明するフローチャートである。ステップＳ１４で行われるアクションの出力処理を説明するフローチャートである。見えモデルの学習処理、及び、操作モデルの学習処理のシミュレーションの結果を、模式的に示す図である。操作モデルを用いたアクションの出力処理のシミュレーションの結果を、模式的に示す図である。操作モデルを用いたアクションの出力処理のシミュレーションの他の結果を示す図である。本技術を適用したコンピュータの一実施の形態の構成例を示すブロック図である。

［第0章本技術の概要］

図１は、本技術の概要を説明する図である。

本技術は、例えば、図１に示すように、環境中の操作対象の物体（操作対象物体）（第１の物体）を操作するのに制御される制御対象の物体（制御対象物体）（第２の物体）としてのハンド（マニピュレータ）等と、環境を観測（撮影）することが可能なカメラ等とを具備したロボット等の、アクション可能なエージェントによって、実環境下での物体（操作対象物体）の操作を実現する際に必要な、物体の操作に関する操作モデルを、カメラで観測される画像から学習し、その操作モデルを用いて、物体の操作を行うための技術である。

すなわち、本技術では、エージェントにおいて実際に観測される実画像から、操作モデルの学習が行われる。そして、その操作モデルを用いて、ハンド（制御対象物体）のアクションが行われ、そのハンドのアクションによって、環境中の物体（操作対象物体）が操作される。

したがって、本技術では、操作モデルは、実画像を用いた学習によって獲得されるので、操作モデルとして、操作対象物体の形状に関する知識や剛体の動力学モデル等を、あらかじめ作り込む必要がなく、学習によって任意形状の操作対象物体の操作を行うことが可能となる。

また、本技術の操作モデルは、ハンド（制御対象物体）の動きと、そのハンドの動きによって生じる物体（操作対象物体）の動きとを確率的に対応付けるモデルであり、ハンドの動き（状態変化）と物体の動き（状態変化）との確率的な関係のみに着目して得ることができる。

さらに、本技術の操作モデルは、ハンドの動きに対して生じる物体の動きを予測することができる予測モデル（順モデル）、及び、目標とする物体の動きを生じさせるために必要なハンドの動きを導出することができる制御モデル（逆モデル）のいずれとしても利用することができる。

また、本技術の操作モデルは、追加学習が可能な追加学習型の操作モデルでもあり、追加学習によって、環境の変化に適応することができる。

本技術の操作モデルの学習では、操作対象物体の環境中の絶対的な位置や姿勢によらずに用いることができる、いわば汎用性が高い操作モデルを獲得するため、すなわち、操作モデルの汎用性を実現するため、操作対象物体を基準とする物体基準座標系で表される物体の位置や姿勢が、操作モデルの学習の学習データとして用いられる。

本技術では、物体基準座標系で表される物体の位置や姿勢を用いて、操作モデルの学習が行われることにより、環境中の物体の絶対的な位置及び姿勢に依存して、学習が行われる場合に比較して、より少ない経験で、物体を正確に操作することが可能な操作モデルを得ることができる。

なお、操作モデルの学習に用いられる画像（実画像）は、エージェントにおいて実際に観測することができる実画像であればよく、例えば、ビデオカメラで撮影した動画や、コンピュータゲームの画面をキャプチャした動画等を採用することができる。

また、本実施の形態では、後述するように、エージェントにおいて観測される実画像から、物体やハンドに対応する前景（物体やハンドが映っている部分）の見えのモデルである前景見えモデルの学習を行い、その前景見えモデルを用いて、実画像から、物体やハンドを認識するが（実画像に映る物体やハンドを認識するが）、本技術の操作モデルの学習にあたっては、前景見えモデルの学習は、必須ではない。

すなわち、本技術の操作モデルの学習にあたって、何らかの方法で、実画像上の物体やハンドを認識し、その位置（重心の位置等）及び姿勢を把握することができるのであれば、前景見えモデルの学習（、及び、後述する背景見えモデルの学習）は、行う必要はない。

［第1章環境設定］

図２は、本技術が適用される環境の例を説明する図である。

図２では、２次元平面としての環境に、Ｌ字型の物体と、エージェントのハンド（マニピュレータ）とが置かれている。

エージェントのハンドは、腕に相当するアームの先端に取り付けられており、エージェントが、アームを動かすことによって、そのアームの先端に取り付けられたハンドも動く。したがって、ハンドは、エージェントが自律的に動かすことができる。

一方、Ｌ字型の物体は、自律的に動くことはなく、ハンド等の外部から力が加えられたときに、その加えられた力に従って動く。

本実施の形態では、Ｌ字型の物体が、操作対象物体であり、ハンド（マニピュレータ）が、制御対象物体である。

エージェントでは、カメラによって環境が撮影され、背景として、環境が映り、その背景に重なる前景として、位置や姿勢を変化させながら動くＬ字型の物体、及び、ハンドが映った画像が観測される。

なお、図２では、２次元の環境を図示してあるが、本技術は、３次元の環境にも適用することができる。

また、図２では、エージェントにおいて観測される画像には、Ｌ字型の物体に対応する前景と、ハンドに対応する前景との２つの前景が存在するが、画像に存在する前景は、１つであってもよいし、３つ以上であってもよい。

本技術では、画像に存在する前景のうちのi番目の前景#iについて、時刻tでの重心（慣性質量の重心）の位置や姿勢等の状態をzⁱ _tと、移動等のために時刻tに前景が行ったアクション、又は、前景に加えられたアクションをuⁱ _tと、それぞれ表す。

また、画像の背景を表すモデルを、背景モデルというとともに、画像の前景#iを表すモデルを、前景モデル#iともいう。

前景モデル#iは、前景#iの見えのモデルである前景見えモデルμⁱを含む。

前景見えモデルμⁱは、前景#iのテクスチャを表す前景テクスチャモデルτⁱと、前景#iの形状を表す前景形状モデルσⁱとを含み、式（１）で表現される。

・・・（１）

背景モデルは、背景の見えのモデルである背景見えモデルμ^wを含む。

背景見えモデルμ^wは、背景全体のテクスチャを表す背景テクスチャモデルτ^wを含み、式（２）で表現される。

・・・（２）

本技術では、画像の観測値を生成する生成モデルが、以上のような前景モデル#i、及び、背景モデルを含み、各時刻tの画像の観測値（以下、観測画像ともいう）x_tを生成する。

図３は、前景モデル#i、及び、背景モデル、並びに、前景モデル#i、及び、背景モデルを含む生成モデルにおいて生成（観測）される観測画像x_tの例を示す図である。

前景モデル#iにおいて、前景見えモデルμⁱの前景テクスチャモデルτⁱと前景形状モデルσⁱとは、例えば、同一のサイズの画像であり、そのサイズとしては、前景のサイズとして想定される最大のサイズを採用することができる。

前景テクスチャモデルτⁱとしての画像は、前景#iのテクスチャとしての値（例えば、RGB等）を、各画素（ピクセル、ボクセル）の画素値として有する。

前景形状モデルσⁱとしての画像は、例えば、0ないし1の範囲の連続値を、各画素の画素値として有する。前景形状モデルσⁱの各画素の画素値は、その画素が、前景（が映っている画素）である確率を表す。

いま、同一位置の画素の画素値どうしの積を、*で表すこととすると、前景見えモデルμⁱに含まれる前景テクスチャモデルτⁱと、前景形状モデルσⁱとの同一位置の画素の画素値どうしの積τⁱ*σⁱによって、前景#iの見えが表現される。

前景見えモデルμⁱが、背景見えモデルμ^wに重畳されて、観測画像x_tが生成される。図３では、２つの前景見えモデルμ¹及びμ²が、背景見えモデルμ^w＝τ^wに重畳され、観測画像x_tが生成されている。

図４は、前景#iの状態zⁱ _tを説明する図である。

前景#iの状態zⁱ _tの表現については、環境（背景）における前景#iの、いわば絶対的な状態を表現するための座標系としての世界座標系Oと、世界座標系O上での前景#iの状態によらず、前景モデル（前景見えモデル）における前景の状態を表現するための座標系としてのローカル座標系O'が定義される。ローカル座標系O'は、前景モデル#iごとに、かつ、時刻tごとに定義される。

世界座標系Oとしては、例えば、背景見えモデルμ^w＝τ^wの上から下方向を１つの軸としてのx軸とし、左から右方向を他の１つの軸としてのy軸とするとともに、背景見えモデルμ^w＝τ^wの左上の点を原点とする２次元座標系を採用することができる。

ローカル座標系O'としては、例えば、前景見えモデルμ（前景テクスチャモデルτⁱ、前景形状モデルσⁱ）の上から下方向を１つの軸としてのx¹軸とし、左から右方向を他の１つの軸としてのy¹軸とするとともに、前景見えモデルμの左上の点を原点とする２次元座標系を採用することができる。

なお、生成モデルにおいて、前景見えモデルμⁱを、そのままの姿勢で（回転せずに）、背景見えモデルμ^wに重畳した場合、ローカル座標系O'のx'軸は、世界座標系Oのx軸と平行になり、かつ、ローカル座標系O'のy'軸は、世界座標系Oのy軸と平行になる。図４において、点線の２次元座標系は、前景見えモデルμⁱを、そのままの姿勢で、背景見えモデルμ^wに重畳した場合のローカル座標系O'を表している。

前景#iの状態zⁱ _tは、例えば、時刻tの前景#i（前景見えモデルμⁱ）の質量重心の世界座標系O上の位置sⁱ _t、位置sⁱ _tが変化する速度（位置sⁱ _tの微分）s^・i _t、前景#iの姿勢qⁱ _t、姿勢qⁱ _tが変化する速度（姿勢qⁱ _tの微分）q^・i _tを含み、式（３）で表現される。

・・・（３）

ここで、前景#iの姿勢qⁱ _tとしては、例えば、世界座標系Oの軸x(y)に対して、ローカル座標系O'の軸x'(y')がなす角度（回転角）を採用することができる。

前景#iのローカル座標系O'は、背景見えモデルμ^wに前景見えモデルμⁱが重畳される前景#iの姿勢qⁱ _tだけ傾く。また、前景#iのローカル座標系O'上では、その前景#i（前景見えモデルμⁱ）は動かない。したがって、前景#iのローカル座標系O'上では、その前景#iの重心（質量重心）の位置sⁱ _c'は、固定であり、姿勢も、固定である。

なお、時刻tに生成モデルにおいて観測される観測値（観測画像）x_tは、時刻tに存在する前景すべての前景見えモデルμⁱを、背景見えモデルμ^w＝τ^wに重畳して得られる画像（観測画像）λ_tを用い、式（４）で定義する。

・・・（４）

［第2章前景モデル、及び、背景モデルの学習］

［第2.1節生成モデルのフレームワーク］

図５は、観測画像を生成する生成モデルのグラフィカルモデルの例を示す図である。

図５は、２つの前景#1及び#2が存在する画像の生成モデルのグラフィカルモデルを示している。

図５の生成モデルによれば、前景#1の時刻tの状態z¹ _tが、直前の時刻t-1の状態z¹ _t-1を元に決定される。

同様に、前景#2の時刻tの状態z² _tが、直前の時刻t-1の状態z² _t-1を元に決定される。

そして、生成モデルでは、前景見えモデルμ¹（としての画像）が、前景#1の時刻tの状態z¹ _tに従って、背景見えモデルμ^w（としての画像）に重畳され、前景として、前景#1のみが存在する観測画像x_tが生成される。さらに、生成モデルでは、前景見えモデルμ²（としての画像）が、前景#2の時刻tの状態z² _tに従って、直前に前景が重畳された観測画像x_t、すなわち、ここでは、前景として、前景#1のみが存在する観測画像x_tに重畳されることで、前景として、２つの前景#1及び#2が存在する観測画像x_tが、時刻tに観測される観測画像x_tとして生成される。図５では、前景として、２つの前景#1及び#2しか存在しないが、３つ以上の前景が存在する場合には、生成モデルでは、以下同様にして、その３つ以上の前景が存在する観測画像x_tが、時刻tに観測される観測画像x_tとして生成される。

図５において、関数f()は、前景見えモデルμ¹、前景#1の時刻tの状態z¹ _t、前景見えモデルμ²、前景#2の時刻tの状態z² _t、及び、背景見えモデルμ^wを用いて、観測画像x_tを生成する関数であり、生成モデルを表す。

ここで、生成モデルにおいて生成される時刻tの観測画像x_tは、確率変数（観測値の期待値）であり、観測画像x_tの尤度は、実際に観測される画像の観測値x~_tとの比較によって求めることができる。

前景見えモデルμⁱ、背景見えモデルμ^w、及び、前景#iの状態zⁱは、画像の観測値を生成する生成モデルのパラメータである。また、前景#iの状態zⁱは、時々刻々変化する潜在変数であり、前景見えモデルμⁱ、及び、背景見えモデルμ^wは、時刻によらない恒久的なパラメータ（モデルパラメータ）である。

なお、前景の総数をNで表すこととする。図５では、前景の総数Nを、2としてあるが、前景の総数Nとしては、1や3以上の値を採用することができる。

生成モデルにおいて生成される観測画像x_tは、潜在変数としての前景#iの状態zⁱ _t、並びに、モデルパラメータとしての前景見えモデルμⁱ _t、及び、背景見えモデルμ^wによって決定される。したがって、観測画像x_tは、生成モデルとしての関数f()を用いた式（５）で表現することができる。

・・・（５）

［第2.2節 EMアルゴリズム］

図６は、EMアルゴリズムを説明するフローチャートである。

図５に示した生成モデルのような、潜在変数（zⁱ _t）を有するモデルについて、実際に観測される観測値を用いて、モデルパラメータの最尤解を求める方法としては、例えば、EM(Expectation-Maximization)アルゴリズムがある。

いま、すべての観測値の集合をXと、潜在（隠れ）変数の集合をZと、それぞれ表すこととする。

観測値Xは観測することができるが、潜在変数Zは観測することができない。かかる観測値Xと潜在変数Zの集合{X,Z}は、完全データと呼ばれ、観測値Xは、不完全データと呼ばれる。

完全データ{X,Z}が、確率分布であるモデルによってモデル化することができることとし、そのモデル（のモデルパラメータ）を、 θと表すこととする。

モデルθにおいて、観測値Xが観測される対数尤度ln（p(X|θ))は、モデルθにおいて、完全データ{X,Z}が観測される尤度p(X,Z|θ)を、潜在変数Zで周辺化し、対数をとることにより求めることができ、式（６）で表される。

・・・（６）

ここで、lnは、自然対数を表す。

また、以降において、潜在変数Zについての総和（Σ）を、積分に置き換えることで、潜在変数Zが連続値である場合についても、同一の議論が成立する。

観測することができるのは、不完全データXだけであり、完全データ{X,Z}のすべてを観測することはできない。したがって、完全データ{X,Z}の尤度（関数）p(X,Z|θ)を用いることはできないため、EMアルゴリズムでは、代わりに、潜在変数Zに関する事後確率の期待値を考える。

潜在変数Zに関する事後確率の期待値を考えるプロセスが、EMアルゴリズムのEステップである。

EMアルゴリズムでは、モデルθにおいて、観測値Xが観測されたときの、潜在変数Zの事後分布p(Z|X,θ)の計算に、現在のモデルパラメータθ^oldが用いられ、この事後分布p(Z|X,θ^old)が、任意のモデルパラメータθにおいて、完全データ{X,Z}が観測される対数尤度（以下、完全データ対数尤度ともいう）ln(p(X,Z|θ))の期待値Q(θ，θ^old)の計算に用いられる。

したがって、期待値Q(θ，θ^old)は、式（７）で表される。

・・・（７）

式（７）では、完全データ対数尤度ln(p(X,Z|θ))の期待値Q(θ，θ^old)が、完全データ対数尤度ln(p(X,Z|θ))の確率分布として、事後分布p(Z|X,θ^old)を用いて計算される。

EMアルゴリズムでは、Eステップで、以上のようにして、期待値Q(θ，θ^old)が求められた後、Mステップにおいて、式（８）に従い、期待値Q(θ，θ^old)を最大化するように、モデルパラメータθが、現在のモデルパラメータθ^oldから新しいモデルパラメータθ^newに更新される。

・・・（８）

ここで、式（８）argmaxは、Q(θ，θ^old)を最大にするモデルパラメータθを表す。

なお、最初のEステップが行われる前に、モデルパラメータθ＝θ^oldは、例えば、乱数等によって適当な値に初期化される。

図６を参照して、EMアルゴリズムについて、さらに説明する。

EMアルゴリズムでは、ステップＳ１１において、モデルパラメータθが、適当な初期値θ^oldに初期化され、処理は、ステップＳ１２に進む。

ステップＳ１２では、Eステップの処理が行われ、処理は、ステップＳ１３に進む。すなわち、ステップＳ１２では、不完全データXを用いて、事後分布p(Z|X,θ^old)が求められる。

ステップＳ１３では、Mステップの処理が行われ、処理は、ステップＳ１４に進む。すなわち、ステップＳ１３では、事後分布p(Z|X,θ^old)を用いて求められる、完全データ対数尤度ln(p(X,Z|θ))の期待値Q(θ，θ^old)を最大化するように、新たなモデルパラメータθ^newが求められる。

ステップＳ１４では、EMアルゴリズムを終了する所定の収束条件が満たされているかどうかが判定される。

ここで、EMアルゴリズムを終了する収束条件としては、例えば、Eステップ及びMステップを、所定回数だけ繰り返したことや、新たなモデルパラメータθ^newが、直前のモデルパラメータθ^oldからほとんど変化しなくなったこと、新たなモデルパラメータθ^newにおいて観測される観測値Xの尤度が、直前のモデルパラメータθ^oldにおいて観測される観測値Xの尤度からほとんど変化しなくなったこと等を採用することができる。

ステップＳ１４において、収束条件が満たされていないと判定された場合、処理は、ステップＳ１５に進み、モデルパラメータθが、現在のモデルパラメータθ^oldから新しいモデルパラメータθ^newに更新される。

そして、処理は、ステップＳ１５からステップＳ１２に戻り、以下、同様の処理が繰り返される。

また、ステップＳ１４において、収束条件が満たされていると判定された場合、処理は終了する。

［第2.3節パーティクルフィルタによる近似］

図７は、完全データ{X,Z}を表現するモデルθのグラフィカルモデルの例を示す図である。

図７では、観測値Xの系列x₁,x₂,・・・,x_t+1が、潜在変数Zの連鎖z₁,z₂,・・・,z_t+1で表され、各観測値x_tは、対応する潜在変数z_tの値（状態）によって条件付けられている。

モデルθが、EMアルゴリズムのEステップを解析的に計算することが困難なモデルである場合には、数値的サンプリング（モンテカルロサンプリング）に基づく近似推論法を用いてEステップを計算することができる。

モンテカルロサンプリングについては、例えば、C.M. ビショップ, パターン認識と機械学習下ベイズ理論による統計的予測, シュプリンガー・ジャパン, 2008, pp.364-365や、Michael Isard and Andrew Blake, CONDENSATION - conditional density propagation for visual tracking, Int. J. Computer Vision, 29, 1, 5-28, 1998等に記載されている。

潜在変数Zが連続値である場合の、完全データ対数尤度ln(p(X,Z|θ))の期待値Q(θ，θ^old)は、式（７）のサメーション（Σ）を積分に置き換えた式（９）で表される。

・・・（９）

式（９）の期待値Q(θ，θ^old)は、サンプリング法を用い、現在の事後分布p(Z|X,θ^old)からサンプリングされた潜在変数ZのL個のサンプルZ^(l)（l＝1,2,・・・,L）の有限和によって、式（１０）に示すように近似することができる。

・・・（１０）

式（１０）に従って求められる期待値Q(θ，θ^old)については、通常のMステップで最適化することができる（期待値Q(θ，θ^old)を最大化するモデルパラメータθ＝θ^newを求めることができる）。

以上のように、式（１０）に従って求められる期待値Q(θ，θ^old)を最大化するモデルパラメータθ＝θ^newを求めるEMアルゴリズムは、モンテカルロEMアルゴリズムと呼ばれる。

一方、観測値Xの系列x₁,x₂,・・・,x_tに対して、逐次的にサンプリングを行う手法として、パーティクルフィルタと呼ばれる逐次モンテカルロアルゴリズムがある。

図８は、パーティクルフィルタを説明する図である。

パーティクルフィルタでは、例えば、図７で示されるグラフィカルモデルで表現されるモデルθにおいて、時刻t-1までに、観測値Xの系列X_t-1＝{x₁,x₂,・・・,x_t-1}が観測され、時刻tに、状態z_tにいる（状態z_tになっている）事後分布p(z_t|X_t-1)から、L個の状態z^(l) _t（z⁽¹⁾ _t,z⁽²⁾ _t,・・・,z^(L) _t）がサンプリングされる。このサンプリングされたサンプル（ここでは、状態z^(l) _t）が、パーティクルと呼ばれる。

時刻tの状態z_tにおいて、図５及び式（５）の生成モデルとしての関数f()に従って観測される観測値x_t＝f(z_t)の期待値E[f(z_t)]は、状態z_tのパーティクル（状態パーティクル）z^(l) _tを用いて、式（１１）で近似することができる。

・・・（１１）

ここで、w^(l) _tは、パーティクルz^(l) _tの重みを表す。重みw^(l) _tは、（パーティクルとしての）状態z^(l) _tにおいて、観測値x_tが観測される（観測）尤度p(x_t|z^(l) _t)に対応する値であり、式（１２）で定義される。

・・・（１２）

なお、重みw^(l) _tは、式0≦w^(l) _t≦1で表される範囲内の値であり、式w⁽¹⁾ _t＋w⁽²⁾ _t＋・・・＋w^(L) _t＝1を満たす。

いま、時刻tに、L個のパーティクルz⁽¹⁾ _tないしz^(L) _tと、重みw⁽¹⁾ _tないしw^(L) _tとが得られている場合において、時刻t+1に、観測値x_t+1を観測したとき、時刻tまでに、観測値の系列X_t＝{x₁,x₂,・・・,x_t}が観測され、時刻t+1に、状態z_t+1にいる事後分布p(z_t+1|X_t)は、時刻tに状態z^(l) _tにいて、時刻t+1に状態z_t+1に遷移する遷移確率p(z_t+1|z^(l) _t)と、パーティクルz^(l) _tの重みw^(l) _tとを用い、式（１３）で求めることができる。

・・・（１３）

式（１３）の事後分布p(z_t+1|X_t)は、重みw^(l) _tを、混合係数とする混合分布であり、パーティクルフィルタでは、混合係数としての重みw^(l) _tに対応する確率で、パーティクルz^(l) _tを選択するリサンプリングが行われる。

図８を参照して、パーティクルフィルタについて、さらに説明する。

パーティクルフィルタでは、時刻t-1までに、観測値Xの系列X_t-1＝{x₁,x₂,・・・,x_t-1}が観測され、時刻tに、状態z_tにいる事後分布p(z_t|X_t-1)が、L個のパーティクルz⁽¹⁾ _t-1ないしz^(L) _t-1、及び、重みz⁽¹⁾ _t-1ないしz^(L) _t-1によってサンプル表現される。

ここで、図８では、パーティクルz^(l) _tの個数Lが、5個になっている。

パーティクルフィルタでは、次の時刻tのサンプル表現を求めるために、式（１３）の混合分布（事後分布）p(z_t|X_t-1)の遷移確率p(z_t|z^(l) _t-1)に基づき、時刻t-1のL個のパーティクルz⁽¹⁾ _t-1ないしz^(L) _t-1の次の時刻tの遷移先を算出すること、すなわち、次の時刻tのL個のパーティクルz⁽¹⁾ _tないしz^(L) _tを予測（生成）することが行われる。

ここで、図８において、丸印は、パーティクルを表している。また、パーティクルを表す丸印の中の数字は、そのパーティクルとしての状態z^(l) _tの値（図８では、図が煩雑になるのを避けるため、状態z^(l) _tの値をスカラ値にしてある）の例を示している。

図８では、例えば、時刻t-1のパーティクルとしての状態z⁽⁵⁾ _t-1を表す丸印の数字は、5.0になっているが、その時刻t-1のパーティクルとしての状態z⁽⁵⁾ _t-1から、遷移確率p(z_t|z⁽⁵⁾ _t-1)に基づいて予測された時刻tのパーティクルとしての状態z⁽⁵⁾ _tを表す丸印の数字は、5.4になっている。

次の時刻tのL個のパーティクルz⁽¹⁾ _tないしz^(L) _tが予測された後、パーティクルフィルタでは、時刻tの観測値x_tを用い、パーティクルz^(l) _tにおいて、観測値x_tが観測される観測尤度p(x_t|z^(l) _t)が計算される。

さらに、パーティクルフィルタでは、観測尤度p(x_t|z^(l) _t)を用い、式（１２）に従って、パーティクルz^(l) _tの重みw^(l) _tが求められる。図８では、パーティクルz^(l) _tを表す丸印が、その重みw^(l) _tの値に相当する大きさで、図示されている。

その後、パーティクルフィルタでは、重みw^(l) _tに対応する確率で、パーティクルz^(l) _tがリサンプリングされる。

そして、パーティクルフィルタでは、そのリサンプリングされたパーティクルz^(l) _tを、重みw^(l) _tとともに、時刻tまでに観測値Xの系列X_t＝{x₁,x₂,・・・,x_t}が観測され、時刻t+1に状態z_t+1にいる事後分布p(z_t+1|X_t)のサンプル表現として用いて、同様の処理が繰り返される。

なお、リサンプリングでは、重みw^(l) _tに対応する確率で、パーティクルz^(l) _tがサンプリングされるので、重みw^(l) _tが小さいために、一度もサンプリングされないパーティクルz^(l) _tは消滅する。

また、リサンプリングでは、重みw^(l) _tが大きいパーティクルz^(l) _tは、複数回、サンプリングされることがあるが、その場合、パーティクルz^(l) _tと同一の値（状態）のパーティクルが、サンプリングの回数と同一の個数だけ複製される。

以上のように、リサンプリングでは、パーティクルz^(l) _tと同一の値Vの複数のパーティクルが生じることがあるが、その複数のパーティクルそれぞれの値は、式（１３）の遷移確率p(z_t+1|z^(l) _t)に基づいて、次の時刻tのパーティクルの予測（遷移先の算出）が行われるときに、同一の値Vの周辺に散らばって、異なる値となる。

ここで、重みw^(l) _tに対応する確率で、パーティクルz^(l) _tをサンプリングするリサンプリングの方法としては、例えば、ルーレット法や、等間隔サンプリングと呼ばれる方法等がある。

ルーレット法では、0ないし1の範囲がL個の区分に区切られ、各区分が、L個の重みw⁽¹⁾ _t,w⁽²⁾ _t,・・・,w^(L) _tに、順番に割り当てられる。重みw^(l) _tに割り当てられる区分の幅は、重みw^(l) _tの大きさに比例する幅とされる。

そして、ルーレット法では、0ないし1の範囲内の値を、乱数によってサンプリングし、そのサンプリングされた値を含む区分が割り当てられている重みw^(l) _tに対応するパーティクルを複製することが、サンプリングの回数がパーティクルの総数Lと同一になるまで繰り返される。

等間隔サンプリングでは、ルーレット法と同様に、0ないし1の範囲が、重みw^(l) _tの大きさに比例する幅のL個の区分に区切られ、各区分が、L個の重みw⁽¹⁾ _t,w⁽²⁾ _t,・・・,w^(L) _tに割り当てられる。

そして、等間隔サンプリングでは、0ないし1の範囲内の値が、乱数によってサンプリングされ、そのサンプリングされた値を含む区分が割り当てられている重みw^(l) _tに対応するパーティクルが複製される。

その後、等間隔サンプリングでは、0ないし1の範囲内の値のうちの、直前にサンプリングされた値に所定の値を加算した値をサンプリングし、そのサンプリングされた値を含む区分が割り当てられている重みw^(l) _tに対応するパーティクルを複製することが、サンプリングの回数がパーティクルの総数Lと同一になるまで繰り返される。

なお、直前にサンプリングされた値に所定の値を加算した値が、1を超える場合には、その値の小数点以下の値がサンプリングされる。

ルーレット法では、L個の乱数を計算する必要があるのに対して、等間隔サンプリングでは、1個の乱数を計算するだけで済むので、等間隔サンプリングは、ルーレット法に比較して、乱数の計算コストが小さい。

［第3章生成モデル、及び、生成モデルの学習の具体的な実装］

［第3.1節生成モデルの実装］

図９は、前景モデル#i、及び、背景モデルを用いて、観測画像を生成する生成モデルθ、すなわち、式（５）の関数f()の実装の例を示す図である。

生成モデルでは、背景見えモデルμ^w上に、状態z¹ _tが表す位置sⁱ _tと姿勢qⁱ _tで、前景見えモデルμⁱが重畳される。

背景見えモデルμ^wへの前景見えモデルμⁱ _tの重畳では、背景見えモデルμ^wとしての背景テクスチャモデルτ^w（が表すテクスチャ）と、前景見えモデルμⁱの前景テクスチャモデルτⁱとが、前景見えモデルμⁱの前景形状モデルσⁱを、α値として用いて、αブレンディングされる。

例えば、いま、1番目の前景#1だけが、観測画像x_tに存在することとすると、モデルパラメータ（前景見えモデルμⁱ、背景見えモデルμ^w、及び、前景#iの状態zⁱ）が求められた生成モデルにおいて観測される、１つの前景#1だけが存在する観測画像x_t＝λ¹(z¹ _t，μ¹，μ^w)は、式（１４）で表される。

・・・（１４）

ここで、σ¹(rⁱ)は、前景形状モデルσ¹のローカル座標系O'上の点rⁱの画素値を表し、τ¹(rⁱ)は、前景テクスチャモデルτ¹のローカル座標系O'上の点rⁱの画素値を表す。さらに、τ^w(r^Oi _t)は、背景テクスチャモデルτ^wの世界座標系O上の点r^Oi _tの画素値を表す。

また、ローカル座標系O'上の点rⁱに、上付きのOと、下付の時刻のインデクスtを付した点r^Oi _tは、時刻tのローカル座標系O'上の点rⁱに対応する世界座標系O上の点（対応点）を表す。

例えば、世界座標系Oの原点回りに、角度Bだけ回転した（傾いた）ローカル座標系O'上の点Aを、世界座標系O上の対応点に写像する写像関数を、R(A,B)と表すこととすると、ローカル座標系O'上の点rⁱの、世界座標系O上の対応点r^Oi _tは、写像関数R()を用いて、式（１５）で表される。

・・・（１５）

式（１４）によれば、ローカル座標系O'上の点r¹が、前景見えモデルμ¹（前景テクスチャモデルτ¹、又は、前景形状モデルσ¹としての画像）上の点である場合（r¹∈μ¹）、その点r¹の対応点r^O1 _tの画素値λ¹ _t(r^Oi _t)としては、背景テクスチャモデルτ^wの対応点r^O1 _tの画素値τ^w(r^O1 _t)と、前景テクスチャモデルτ¹の点r¹の画素値τ¹(r¹)とを、前景形状モデルσ¹の点r¹の画素値σ¹(r¹)を、α値として用いてαブレンディングした値(1-σ¹(r¹))τ^w(r^O1 _t)＋σ¹(r¹)τ¹(r¹)が採用される。

さらに、式（１４）によれば、ローカル座標系O'上の点r¹が、前景見えモデルμ¹上の点でない場合、その点r¹の対応点r^O1 _tの画素値λ¹ _t(r^O1 _t)としては、背景テクスチャモデルτ^wの対応点r^Oi _tの画素値τ^w(r^O1 _t)が採用される。

観測画像x_tに、複数の前景が存在する場合（前景モデルが複数存在する場合）、複数の前景それぞれについて、1番目の前景#1だけが観測画像x_tに存在する場合と同様の処理を繰り返し行うことにより、生成モデルにおいて観測される、複数の前景が存在する観測画像x_tを求めることができる。

但し、観測画像x_tに、複数の前景が存在する場合、2番目以降の前景については、背景テクスチャモデルτ^w（背景見えモデルμ^w）に代えて、直前の前景について求められた観測画像x_tが用いられる。

したがって、例えば、いま、２つの前景#1及び#2が、観測画像x_tに存在することとすると、図９に示すように、まず、生成モデルにおいて観測される、1番目の前景#1だけが存在する観測画像x_t＝λ¹(z¹ _t，μ¹，μ^w)が、式（１４）に従って求められる。

そして、1番目の前景#1、及び、2番目の前景#2が存在する観測画像x_t＝λ^1,2(z¹ _t，z² _t，μ¹，μ²，μ^w)が、図９に示すように、背景テクスチャモデルτ^wに代えて、式（１４）の前景#1について求められた観測画像x_t＝λ¹(z¹ _t，μ¹，μ^w)を用い、観測画像x_t＝λ¹(z¹ _t，μ¹，μ^w)と同様にして求められる。

すなわち、1番目の前景#1、及び、2番目の前景#2が存在する観測画像x_t＝λ^1,2(z¹ _t，(z² _t，μ¹，μ²，μ^w)は、式（１６）に従って求められる。

・・・（１６）

ここで、λ^1,2 _t(r^O2 _t)は、1番目の前景#1、及び、2番目の前景#2が存在する観測画像x_t＝λ^1,2(z¹ _t，(z² _t，μ¹，μ²，μ^w)としての画像の画素値のうちの、（前景#2の）ローカル座標系O'上の点r²の、世界座標系O上の対応点r^O2 _tの画素値を表す。

3個以上のN個の前景が存在する場合も、同様にして、そのN個の前景が存在する観測画像x_t＝λ¹(z¹ _t,z² _t,・・・,z^N _t，μ¹，μ²，・・・，μ^N，μ^w)を求めることができる。

［第3.2節前景が１つだけ存在する場合の前景の状態の推定（Eステップ）］

前景が１つだけである場合の、第2.3節で説明したパーティクルフィルタを用いたEステップの具体的な実装について説明する。

なお、ここでは、前景が１つだけであるため、i番目の前景を表すインデクスiの記載は、省略する。

EMアルゴリズムのEステップでは、前回のMステップで更新されたモデルパラメータθ＝θ^oldを用いて、潜在変数Zの事後分布p(Z|X,θ^old)が求められ、この事後分布p(Z|X,θ^old)を用いて、完全データ対数尤度ln(p(X,Z|θ))の期待値Q(θ，θ^old)が、式（７）に従って計算される。

このEステップに、パーティクルフィルタを適用した場合には、時刻tまでに、観測値Xの系列X_t＝{x₁,x₂,・・・,x_t}が観測されたときの、時刻t+1の潜在変数z_t+1の事後分布p(z_t+1|X_t)は、式（１３）に従って計算することができる。

ここで、式（１２）によれば、式（１３）の重みw^(l) _tは、パーティクルとしての状態z^(l) _tにおいて、観測値x_tが観測される観測尤度p(x_t|z^(l) _t)に比例する。

したがって、重みw^(l) _tを求めるには、観測尤度p(x_t|z^(l) _t)を求める必要がある。

本技術では、前景の状態が、パーティクルとしての状態z^(l) _tになっていると仮定して、そのパーティクルとしての状態z^(l) _tに従って、生成モデルにおいて観測される観測画像x_t＝λ_tが生成される。

そして、本技術では、生成モデルにおいて観測される観測画像x_t＝λ_tの、実際に観測される画像x~_t＝λ~_tに対する誤差（画像λ_tとλ~_tとの距離）が、観測尤度p(x_t|z^(l) _t)として求められる。

すなわち、本技術では、観測尤度p(x_t|z^(l) _t)は、例えば、式（１７）に従って求められる。

・・・（１７）

なお、λ_t(s)は、生成モデルθにおいて観測される時刻tの観測画像x_t＝λ_tである画像の、世界座標系O上の点sの画素値を表し、λ_t~(s)は、時刻tに実際に観測される実画像λ~_tの、世界座標系O上の点sの画素値を表す。

また、式（１７）において、K及びσ²は、所定の定数であり、あらかじめ決定される。

時刻tのパーティクルとしての状態z^(l) _tが、次の時刻t+1に、状態z_t+1になる確率、すなわち、パーティクルとしての状態z^(l) _tの遷移確率p(z_t+1|z^(l) _t)が、ガウス分布（正規分布）に従うこととすると、パーティクルとしての状態z^(l) _tの遷移モデルは、例えば、式（１８）で表すことができる。

・・・（１８）

ここで、△tは、状態z_tを求める時刻の間隔を表し、式（１８）では、△t＝1である。また、N(A,B)は、平均ベクトル（平均値）がAで、分散共分散行列（分散）がBのガウス分布を表す。

式（１８）では、ガウス分布N(0,Σ_s)，N(0,Σ_s・)，N(0,Σ_q)，N(0,Σ_q・)は、いずれも、平均ベクトルが0のガウス分布である。また、分散共分散行列Σ_s，Σ_s・，Σ_q，Σ_q・は、あらかじめ決定される。

式（１８）の遷移モデルによれば、パーティクルとしての状態が、1時刻前の時刻tの状態としての位置s_t及び姿勢q_t、並びに、その微分値（速度）s^・ _t及びq^・ _tに従って決定的に遷移する成分を有しつつ、平均ベクトルが0で、所定の分散共分散行列のガウス分布に従って、確率的に揺らぎながら遷移することとして、時刻t+1の状態z_t+1が求められる（予測される）（遷移先が算出される）。

前景が背景上を連続的に移動することを、前提知識として仮定することができる場合、すなわち、前景の状態が環境中を連続的に変化することを仮定することができる場合には、前の時刻の情報（状態z_t）を基に、次の時刻の状態z_t+1を予測しつつ、ガウス分布のノイズによって近傍をランダムに探索するという式（１８）の遷移モデルが有効に機能する。

その結果、パーティクルのリサンプリングの過程で、前景がなる可能性が低い状態に対する状態推定の計算を省くことができ、例えば、環境としての背景を格子状に区切って、すべての格子点について、その格子点の位置に、前景がいるかどうかを推定するような方法に比較して、スケーラビリティを大きくすることができる。

［第3.3節複数の前景が存在する場合の前景の状態の推定（Eステップ）］

複数の前景が存在する場合の、第2.3節で説明したパーティクルフィルタを用いたEステップの具体的な実装について説明する。

複数の前景が存在する場合、前景#iごとに、その前景#iの状態zⁱ _tが存在する。前景#iの状態zⁱ _tのl番目のパーティクルを、z^i(l) _tと表す。また、パーティクルz^i(l) _tの重みを、w^i(l) _tと表す。

本技術では、生成モデルで観測される観測画像x_t（＝λ_t）は、式（１４）ないし式（１６）で説明したように生成される。

パーティクルフィルタにおいてパーティクルの重みw^i(l) _tを求める式（１２）の計算に必要な観測尤度p(x_t|z^i(l) _t)を計算するためには、注目している前景#iについては、重みw^i(l) _tを求めようとするパーティクルとしての状態z^i(l) _tを用い、かつ、注目している前景#i以外の前景については、その前景の状態のパーティクルの分布と、各パーティクルの重みとを用い、生成モデルで観測される観測画像x_t＝λ_tを計算する必要がある。

しかしながら、注目している前景#iの状態zⁱ _tのパーティクルz^i(l) _tの他に、注目している前景#i以外の前景の状態のパーティクルの分布、及び、各パーティクルの重みをも用いて、生成モデルで観測される観測画像x_t＝λ_tを計算するのでは、計算コストが大になる。

そこで、本実施の形態では、複数の前景について、独立に、すなわち、注目している前景#i以外の前景を考慮せずに、注目している前景#iだけが、背景上に存在することと仮定することにより、実用上問題ない範囲で厳密性を犠牲にしつつ、計算の高速化を実現する。

注目している前景#iだけが、背景上に存在することを仮定した場合、注目している前景#iが、パーティクルとしての状態z^i(l) _tになっているときの観測尤度p(xⁱ _t|z^i(l) _t)は、式（１９）に従って計算することができる。

・・・（１９）

なお、λⁱ _t(s)は、注目している前景#iだけが、背景上に存在することを仮定した場合に生成モデルθにおいて観測される時刻tの観測画像x_t＝λⁱ _tである画像の、世界座標系O上の点sの画素値を表す。

また、式（１９）において、λ_t~(s)は、式（１７）の場合と同様に、時刻tに実際に観測される画像λ~_tの、世界座標系O上の点sの画素値を表す。

さらに、式（１９）において、K及びσ²は、式（１７）の場合と同様に、所定の定数であり、あらかじめ決定される。

注目している前景#iだけが、背景上に存在することを仮定した場合に生成モデルθにおいて観測される時刻tの観測画像x_t＝λⁱ _t＝λⁱ(zⁱ _t，μⁱ，μ^w)は、式（２０）に従って求めることができる。

・・・（２０）

ここで、σⁱ(rⁱ)は、前景形状モデルσⁱのローカル座標系O'上の点rⁱの画素値を表し、τⁱ(rⁱ)は、前景テクスチャモデルτⁱのローカル座標系O'上の点rⁱの画素値を表す。さらに、τ^w(r^Oi _t)は、背景テクスチャモデルτ^wの世界座標系O上の点r^Oi _tの画素値を表す。

また、ローカル座標系O'上の点rⁱに、上付きのOを付した点r^Oi _tは、時刻tのローカル座標系O'上の点rⁱに対応する世界座標系O上の点（対応点）を表し、式（１５）に従って求められる。

［第3.4節前景テクスチャモデルの更新（Mステップ）］

第2.3節で説明したパーティクルフィルタを用いたEステップで行われる前景テクスチャモデルτⁱの更新の具体的な実装について説明する。

EMアルゴリズムのMステップでは、Eステップで潜在変数Zの事後分布p(Z|X,θ^old)を用いて計算される完全データ対数尤度ln(p(X,Z|θ)の期待値Q(θ，θ^old)を最大化するように、モデルパラメータθが、現在のモデルパラメータθ^oldから新しいモデルパラメータθ^newに更新される。

このMステップに、パーティクルフィルタを適用した場合には、モデルパラメータθは、Eステップで求められたパーティクルの重みw^i(l) _tを用いて更新される。

図１０は、パーティクルの重みw^i(l) _tを用いた前景テクスチャモデルτⁱの更新を説明する図である。

前景テクスチャモデルτⁱの更新では、時刻tにおいて、その時刻tの1時刻分の更新データτ~ⁱ _tを求めるために、図１０に示すように、前景#iの状態が、パーティクルとしての状態z^i(l) _tになっていることとして、その状態z^i(l) _tになっている前景#iと推定される領域の画像を、時刻tに実際に観測される画像（の観測値）λ~_tから切り出し、前景#iのローカル座標系O'上に射影する。

ここで、時刻tに実際に観測される画像（以下、実画像ともいう）λ~_tから切り出され、前景#iのローカル座標系O'上に射影された画像を、切り出し画像τ~^i(l) _tともいう。

切り出し画像τ~^i(l) _tは、前景テクスチャモデルτⁱ（及び、前景形状モデルσⁱ）と同一サイズの画像であり、式（２１）で表される。

・・・（２１）

ここで、τ~^i(l) _t(s'^i(l) _t)は、切り出し画像τ~^i(l) _tのローカル座標系O'上の点s'^i(l) _tの画素値を表し、λ~_t(s)は、実画像λ~_tの世界座標系O上の点sの画素値を表す。

また、世界座標系O上の点sに、ダッシュ(')、前景のインデクスi、パーティクルのインデクス(l)、及び、時刻のインデクスtを付した点s'^i(l) _tは、世界座標系O上の点sに対応する、パーティクルz^i(l) _tで表される状態になっている前景#iのローカル座標系O'上の点（対応点）を表す。

世界座標系O上の点sの、前景#iのローカル座標系O'上の対応点s'^i(l) _tは、式（１５）で説明した写像関数R(A,B)を用いることにより、式（２２）で表される。

・・・（２２）

なお、式（２２）では、パーティクルのインデクス(l)を省略してある。

式（２１）によれば、世界座標系O上の点sの、ローカル座標系O'上の対応点s'^i(l) _tが、時刻tにおいて、前景見えモデルμⁱ（前景テクスチャモデルτⁱ、又は、前景形状モデルσⁱとしての画像）上の点である場合（s'^i(l) _t∈μⁱ）、実画像λ~_tの点sの画素値λ~_t(s)が、切り出し画像τ~^i(l) _tの対応点s'^i(l) _tの画素値τ~^i(l) _t(s'^i(l) _t)として採用される。

前景テクスチャモデルτⁱの更新では、前景#iのL個のパーティクルzⁱ⁽¹⁾ _t，zⁱ⁽²⁾ _t，・・・，z^i(L) _tについて、切り出し画像τ~ⁱ⁽¹⁾ _t，τ~ⁱ⁽²⁾ _t，・・・，τ~^i(L) _tが求められる。そして、式（２３）に従い、パーティクルzⁱ⁽¹⁾ _tないしz^i(L) _tの重みwⁱ⁽¹⁾ _tないしw^i(L) _tを用いて、L個の切り出し画像τ~ⁱ⁽¹⁾ _tないしτ~^i(L) _tの重み付け平均値が、前景テクスチャモデルτⁱについての、時刻tの1時刻分の更新データτ~ⁱ _tとして求められる。

・・・（２３）

さらに、前景テクスチャモデルτⁱの更新では、現在時刻tから、過去T_FG-1時刻分の更新データτ~ⁱ _t，τ~ⁱ _t-1，・・・，τ~ⁱ _t-TFG+1の平均値（所定時間分の平均化）が、新しいモデルパラメータθ^newとしての新しい前景テクスチャモデルτ^i,newとして、式（２４）に従って求められる。

・・・（２４）

なお、ここでは、L個のパーティクルzⁱ⁽¹⁾ _tないしz^i(L) _tそれぞれについて得られる切り出し画像τ~ⁱ⁽¹⁾ _tないしτ~^i(L) _tの重み付け平均値を、時刻tの1時刻分の更新データτ~ⁱ _tとして求めることとしたが、その他、例えば、L個のパーティクルzⁱ⁽¹⁾ _tないしz^i(L) _tから最尤状態zⁱ _tを求め、その最尤状態zⁱ _tについて得られる切り出し画像τ~ⁱ _tを、時刻tの1時刻分の更新データτ~ⁱ _tとして採用することができる。

最尤状態zⁱ _tとしては、例えば、L個のパーティクルzⁱ⁽¹⁾ _tないしz^i(L) _tの重み付け平均値（wⁱ⁽¹⁾ _tzⁱ⁽¹⁾ _t＋wⁱ⁽²⁾ _tzⁱ⁽²⁾ _t＋・・・＋w^i(L) _tz^i(L) _t）／（wⁱ⁽¹⁾ _t＋wⁱ⁽²⁾ _t＋・・・＋w^i(L) _t）＝wⁱ⁽¹⁾ _tzⁱ⁽¹⁾ _t＋wⁱ⁽²⁾ _tzⁱ⁽²⁾ _t＋・・・＋w^i(L) _tz^i(L) _tを採用することができる。

［第3.5 背景テクスチャモデルの更新（Mステップ）］

第2.3節で説明したパーティクルフィルタを用いたEステップで行われる背景テクスチャモデルτ^wの更新の具体的な実装について説明する。

図１１は、背景テクスチャモデルτ^wの更新を説明する図である。

背景テクスチャモデルτ^wの更新処理では、すべての前景モデル#1ないし#Nそれぞれのすべてのパーティクルとしての状態z¹⁽¹⁾ _tないしz^1(L) _t，z²⁽¹⁾ _tないしz^2(L) _t，・・・，z^N(1) _tないしz^N(L) _tを用いて、時刻tの1時刻分の更新データτ~^w _tが求められる。

すなわち、背景テクスチャモデルτ^wの更新処理では、図１１に示すように、時刻tの実画像λ~_tのうちの、前景があると推定される領域の画素値を、現在の背景テクスチャモデルτ^w,oldで置き換えることを、各前景モデル#iの、各パーティクルとしての状態z^i(l) _tについて行い、その結果得られる画像が、時刻tの1時刻分の更新データτ~^w _tとされる。

具体的には、まず、例えば、前景#1が、注目する注目前景とされる。そして、注目前景である前景#1の状態が、パーティクルとしての状態z^1(l) _tになっていることとして、時刻tの実画像λ~_tのうちの、状態z^i(l) _tになっている前景#iと推定される領域から、前景モデル#i（前景見えモデルμⁱ）の画像成分を除去し、かつ、現在の背景モデル（現在の背景テクスチャモデルτ^w,old）の画像成分を加えた画像（以下、前景除去画像ともいう）τ~^w,1(l)が求められる。

前景#1の、パーティクルとしての状態z^1(l) _tについて得られる前景除去画像τ~^w,1(l)は、式（２５）で表される。

・・・（２５）

式（２５）によれば、世界座標系O上の点sの、パーティクルz^1(l) _tで表される状態になっている前景#1のローカル座標系O'上の対応点s'^1(l) _tが、前景見えモデルμ¹（前景テクスチャモデルτ¹、又は、前景形状モデルσ¹としての画像）上の点である場合（s'^1(l) _t∈μ¹）、前景除去画像τ~^w,1(l)上の点sの画素値τ~^w,1(l)(s)としては、実画像上λ~_tの点sの画素値λ~_t(s)に対して、前景テクスチャモデルτ¹上の対応点s'^1(l) _tの画素値τ¹(s'^1(l) _t)をσ¹(s'^1(l) _t)倍して減算し、かつ、現在の背景テクスチャモデルτ^w,old上の点sの画素値τ^w,old(s)を、(1-σ¹(s'^1(l) _t))倍して加算した値λ~_t(s)−σ¹(s'^1(l) _t)τ¹(s'^1(l) _t)＋(1-σ¹(s'^1(l) _t))τ^w,old(s)が採用される。

さらに、式（２５）によれば、世界座標系O上の点sの、パーティクルz^1(l) _tで表される状態になっている前景#1のローカル座標系O'上の対応点s'^1(l) _tが、前景見えモデルμ¹上の点でない場合、実画像上λ~_tの点sの画素値λ~_t(s)が採用される。

その結果、前景除去画像τ~^w,1(l)としては、実画像上λ~_tから、パーティクルとしての状態z^1(l) _tになっている前景#1が除去され、その除去された前景#1に隠れていた背景が見えるようになったような画像が得られる。

背景テクスチャモデルτ^wの更新処理では、前景＃1のL個のパーティクルz¹⁽¹⁾ _tないしz^1(L) _tそれぞれについて、前景除去画像τ~^w,1(1)ないしτ~^w,1(L)が求められる。

そして、前景＃1のL個のパーティクルz¹⁽¹⁾ _tないしz^1(L) _tそれぞれの重みw¹⁽¹⁾ _tないしw^1(L) _tを用いて、前景除去画像τ~^w,1(1)ないしτ~^w,1(L)の重み付け平均値τ~^w,1が、実画像上λ~_tから前景#1を除去した最終的な画像（以下、前景#1についての最終除去画像ともいう）として求められる。

前景#1についての最終除去画像τ~^w,1は、式（２６）で表される。

・・・（２６）

背景テクスチャモデルτ^wの更新処理では、他の前景#2ないし#Nを、順次、注目前景として、同様の処理が行われる。

但し、前景#2以降の前景#iについては、実画像上λ~_tに代えて、直前に注目前景であった前景#(i-1)についての最終除去画像τ~^w,i-1が用いられる。

したがって、前景#iの、パーティクルとしての状態z^i(l) _tについて得られる前景除去画像τ~^w,i(l)は、式（２５）の実画像上λ~_tを、前景#(i-1)についての最終除去画像τ~^w,i-1に代えた式（２７）に従って求められる。

・・・（２７）

そして、前景#iについての最終除去画像τ~^w,iは、前景除去画像τ~^w,i(l)を用い、式（２６）と同様に式（２８）に従って求められる。

・・・（２８）

前景#Nについての最終除去画像τ~^w,Nは、実画像λ~_tから、N個の前景#1ないし#Nすべてを除去し、かつ、前景#1ないし#Nそれぞれがあった領域に、現在の背景テクスチャモデルτ^w,oldの対応する領域を足し込んだ画像になっている。式（２９）に示すように、この画像τ~^w,Nが、背景テクスチャモデルτ^wについての、時刻tの1時刻分の更新データτ~^w _tとされる。

・・・（２９）

図１１には、前景の数Nが２つである場合の、背景テクスチャモデルτ^wについての、時刻tの1時刻分の更新データτ~^w _tの算出の様子が示されている。

その後、背景テクスチャモデルτ^wの更新では、現在時刻tから、過去T_BG-1時刻分の更新データτ~^w _t，τ~^w _t-1，・・・，τ~^w _t-TBG+1の平均値（所定時間分の平均化）が、新しいモデルパラメータθ^newとしての新しい背景テクスチャモデルτ^w,newとして、式（３０）に従って求められる。

・・・（３０）

背景テクスチャモデルτ^wの更新においては、前景#2以降の前景#iについては、実画像上λ~_tに代えて、直前に注目前景であった前景#(i-1)についての最終除去画像τ~^w,i-1を用いて、前景除去画像τ~^w,i(l)が求められることで、複数の前景モデルによって、同時に、同一の前景がモデル化（獲得）されないようにする排他制御が行われる。

［第3.6節前景形状モデルの更新（Mステップ）］

前景形状モデルσⁱの更新では、更新後の前景テクスチャモデルτⁱ（新しい前景テクスチャモデルτ^i,new）としての画像について、どの領域が前景#iに属し、どの領域が前景#iに属さないのかの評価が、例えば、画素単位で行われる。

すなわち、前景形状モデルσⁱの更新では、更新後の前景テクスチャモデルτⁱとしての画像の各画素について、その画素が、前景#iの画素であるかどうかの評価が行われる。

前景テクスチャモデルτⁱとしての画像の画素が前景#iの画素であるかどうかの評価では、前景テクスチャモデルτⁱとしての画像の各画素について、その画素が、前景#iの画素であることの尤度（以下、前景尤度ともいう）が求められる。

前景尤度としては、例えば、前景テクスチャモデルτⁱとしての画像が、前景#iの期待値としての、式（２３）の前景テクスチャモデルτⁱについての、時刻tの1時刻分の更新データτ~ⁱ _tとして観測される観測される観測尤度を採用することができる。

この場合、前景尤度としての観測尤度は、例えば、式（３１）に従って求めることができる。

・・・（３１）

ここで、τⁱ(rⁱ)は、前景テクスチャモデルτⁱのローカル座標系O'上の点rⁱの画素値を表し、τ~ⁱ _t(rⁱ)は、前景テクスチャモデルτⁱについての、時刻tの1時刻分の更新データτ~ⁱ _tとしての画像のローカル座標系O'上の点rⁱの画素値を表す。

さらに、L(FG|τⁱ(rⁱ))は、前景テクスチャモデルτⁱの点rⁱの画素値τⁱ(rⁱ)が、前景#iの画素であることの尤度（前景尤度）を表す。

また、式（３１）において、K及びσ²は、所定の定数であり、あらかじめ決定される。

前景テクスチャモデルτⁱとしての画像の画素が前景#iの画素であるかどうかの評価では、以上のような、前景尤度L(FG|τⁱ(rⁱ))の他、前景テクスチャモデルτⁱとしての画像の各画素について、その画素が、背景の画素であることの尤度（以下、背景尤度ともいう）が求められる。

背景尤度としては、例えば、前景テクスチャモデルτⁱとしての画像が、背景の期待値としての、式（２８）の前景#iについての最終除去画像τ~^w,i _tとして観測される観測される観測尤度を採用することができる。

この場合、背景尤度としての観測尤度は、例えば、式（３２）に従って求めることができる。

・・・（３２）

ここで、前景#iについての最終除去画像を表すτ~^w,i _tにダッシュ(')を付したτ~'^w,i _tは、前景#iについての最終除去画像τ~^w,i _tから、前景見えモデルμⁱの領域を切り出し、前景#iのローカル座標系O'に射影した射影画像（の期待値）を表す。

τ~'^w,i _t(rⁱ)は、射影画像τ~'^w,i _tのローカル座標系O'上の点rⁱの画素値を表す。

さらに、L(BG|τⁱ(rⁱ))は、前景テクスチャモデルτⁱの点rⁱの画素値τⁱ(rⁱ)が、背景の画素であることの尤度（背景尤度）を表す。

また、式（３２）において、K及びσ²は、所定の定数であり、あらかじめ決定される。

射影画像τ~'^w,i _tは、式（２８）の前景#iについての最終除去画像τ~^w,i _tを求めるのに用いられる、式（２７）（式（２５））の前景除去画像τ~^w,i(l) _tを用い、式（３３）及び式（３４）に従って求めることができる。

・・・（３３）

・・・（３４）

ここで、τ~'^w,i(l) _tは、前景#iが、パーティクルとしての状態z^i(l) _tになっていると仮定した場合の射影画像を表し、τ~'^w,i(l) _t(s'^i(l) _t)は、射影画像τ~'^w,i(l) _tの、世界座標系O上の点sの対応点s'^i(l) _tの画素値を表す。

式（３３）によれば、世界座標系O上の点sの、前景#iのローカル座標系O'上の対応点s'^i(l) _tが、前景見えモデルμⁱ上の点であれば、前景除去画像τ~^w,i(l) _tの点sの画素値τ~^w,i(l) _t(s)が、射影画像τ~'^w,i(l) _tの対応点s'^i(l) _tの画素値τ~'^w,i(l) _t(s'^i(l) _t)として採用される。

そして、式（３４）によれば、前景#iが各パーティクルz^i(l) _tの状態になっている射影画像τ~'^w,i(l) _tの重み付け平均値が、式（３２）の計算に用いられる射影画像τ~'^w,i _tとして求められる。

前景形状モデルσⁱの更新では、式（３１）の前景尤度L(FG|τⁱ(rⁱ))と、式（３２）の背景尤度L(BG|τⁱ(rⁱ))とを用いて、式（３５）に従い、前景テクスチャモデルτⁱとしての画像の各画素について、その画素が前景#iの画素である確率が求められる。

・・・（３５）

ここで、p(FG|τⁱ(rⁱ))は、前景形状モデルσⁱの、前景#iのローカル座標系O'上の点（画素）rⁱが、前景#iの画素である確率を表す。前景形状モデルσⁱの更新では、点rⁱの画素値σⁱ(rⁱ)が、確率p(FG|τⁱ(rⁱ))に更新される。

［第4章エージェントが物体操作を行うための操作モデル］

［第4.1節物体操作の環境設定］

図１２は、エージェントが、制御対象物体であるハンド（マニピュレータ）によって、操作対象物体である物体を操作する物体操作の環境設定の概要を説明する図である。

制御対象物体であるハンド、及び、操作対象物体である物体は、平面上に置かれており、エージェントは、ハンド、及び、物体が置かれた平面（環境）に対応する背景上に、ハンドに対応する前景、及び、物体に対応する前景が存在する実画像を観測する。

図１２において、制御対象物体であるハンドは、アームの先端に取り付けられており、エージェントは、環境中で、アームを動かすことにより、ハンドを任意の位置に移動させることができる。

なお、本実施の形態では、説明を簡単にするため、ハンドは、円形であることとし、したがって、ハンドの姿勢は、変化しない（考慮しない）こととする。

操作対象物体である物体は、多角形の形状の物体であり、図１２では、Ｌ字型の物体が採用されている。

操作対象物体（である物体）は、外力を受けると、環境中で、外力に従った移動や回転の運動を行い、その結果、操作対象物体の位置や姿勢が変化する。

したがって、エージェントが、アームを動かして、そのアームの先端のハンドを移動することにより、ハンドが、操作対象物体と接触すると、操作対象物体は、ハンドから加えられる外力によって運動する。

本実施の形態では、操作対象物体について、目標とする位置と姿勢が、目標状態として与えられる。そして、エージェントは、ハンドを移動して、操作対象物体の状態としての位置及び姿勢を、現在の状態（現在状態）から、目標状態に変化させる物体操作を行う。

なお、本実施の形態では、説明を簡単にするため、操作対象物体と、その操作対象物体が置かれている環境（平面）との摩擦が十分に大きく、ハンドが操作対象物体に接触している状態から、ハンドが操作対象物体に接触していない状態（及び、ハンドが操作対象物体に接触していても、ハンドから操作対象物体に力が加えられていない状態）になると、操作対象物体は、直ちに運動を停止することとする。

また、以下では、前景に関する情報を表す変数については、ハンドと操作対象物体との区別をしない変数には、上付きのインデクスiを付す。また、ハンド（マニピュレータ）の前景（ハンドに対応する前景）に関する情報を表す変数には、上付きのインデクスm(manipulator)を付し、操作対象物体の前景に関する情報を表す変数には、上付きのインデクスo(object)を付す。

本技術の操作モデルでは、ハンド及び操作対象物体の前景の運動が、操作対象物体を基準とする座標系である物体基準座標系で表現される。

図１３は、物体基準座標系を説明する図である。

図１３Ａは、世界座標系Oと、操作対象物体のローカル座標系O'とを示しており、図１３Ｂは、物体基準座標系としての重心原点座標系O''を示している。

なお、図１３において、内部にバツ印を描いた丸印は、（物体（の前景）の）重心を表す。

重心原点座標系O''は、ローカル座標系O'を平行移動した座標系であり、原点が、操作対象物体（の前景）の重心に位置している。

したがって、重心原点座標系O''は、操作対象物体の前景見えモデルμ^oの上から下方向を１つの軸としてのx''軸とし、左から右方向を他の１つの軸としてのy''軸とするとともに、前景見えモデルμ^oの重心を原点とする２次元座標系である。

物体基準座標系は、操作対象物体（の前景#o）を基準とする座標系、すなわち、世界座標系O上での操作対象物体（の前景#o）の状態によらず、操作対象物体（の前景#o）の状態（位置、姿勢）が不変の座標系である。

したがって、操作対象物体（の前景#o）の物体基準座標系としては、ローカル座標系O'、及び、重心原点座標系O''のいずれをも採用し得るが、本実施の形態では、重心原点座標系O''を採用することとする。

なお、以下では、世界座標系O上の変数と、座標系に関係ない変数には、プライム（ダッシュ）を付さず、ローカル座標系O'上の変数には、１つのプライムを付し、物体基準座標系（としての重心原点座標系）O''上の変数には、２つのプライムを付すこととする。

例えば、図１３Ａにおいて、s^o _tは、時刻tの操作対象物体（の前景#o）の世界座標系O上での位置を表し、s^m _tは、時刻tのハンド（の前景#m）の世界座標系O上での位置を表す。

また、q^o _tは、時刻tの操作対象物体の世界座標系O上での姿勢（世界座標系Oに対する、操作対象物体のローカル座標系O'及び物体基準座標系O''の傾き）を表し、s^o _c'は、操作対象物体（の重心）のローカル座標系O'（操作対象物体のローカル座標系O'）上での位置を表す。

操作対象物体のローカル座標系O'は、前景見えモデルμ^oの上から下方向を１つの軸としてのx'軸とし、左から右方向を他の１つの軸としてのy'軸とするとともに、前景見えモデルμ^oの左上の点を原点とする２次元座標系であるから、操作対象物体は、ローカル座標系O'上を動かない。

したがって、操作対象物体のローカル座標系O'において、その操作対象物体の重心s^o _c'は移動しない。

また、操作対象物体の物体基準座標系としての重心原点座標系O''は、原点が操作対象物体の重心に位置するように、ローカル座標系O'を平行移動した座標系であるから、やはり、操作対象物体は、物体基準座標系としての重心原点座標系O''上を動かない。そして、操作対象物体の重心は、常に、その操作対象物体の物体基準座標系としての重心原点座標系O''の原点に位置する。

図１４は、時刻tの操作対象物体の物体基準座標系（としての重心原点座標系）O''上のハンドの状態及びアクションを説明する図である。

ここで、時刻tの前景#iのアクションを、図２で説明したように、uⁱ _tと表すこととし、前景#iは、時刻t-1の状態zⁱ _tにおいて、アクションuⁱ _t-1を行うことによって、次の時刻tに、状態zⁱ _tになることとする。

また、前景#iの運動に関する運動モデルを、aⁱと表すこととし、ハンド（の前景#m）の運動モデルa^mは、既知であることとする。すなわち、ハンドを動かすための所定のトルク等の指令に対して、ハンドが行うアクションu^m _t、及び、ハンドが所定のアクションu^m _tを行うのに与えるべき指令は、既知であることとする。

さらに、ハンドのアクションu^m _tは、世界座標系O上のハンドの状態z^m _tを、直接決定することとし、したがって、ハンドは、そのハンドが行うアクションu^m _tによって、任意の状態z^m _tにすることができることとする。

上述したように、ハンドは、円形であるため、ハンドの姿勢は、ハンドと操作対象物体とが接触することによる操作対象物体の運動に影響を与えない。

したがって、ハンドのアクションu^m _tは、式（３）の世界座標系O上のハンドの状態z^m _t＝[s^m _t，s^・m _t，q^m _t，q^・m _t]のうちの、姿勢以外に関する情報、すなわち、世界座標系O上のハンドの位置s^m _tと、位置s^m _tの微分（速度）s^・m _tとによって、式（３６）に示すように定義することができる。

・・・（３６）

式（３６）のハンドのアクションu^m _tにおいて、ハンドの位置s^m _tは、ハンドが時刻tにアクションu^m _tとしての運動（移動）を行う位置（以下、運動開始位置ともいう）を表し、位置sⁱ _tの微分（速度）s^・m _tは、ハンドが時刻tにアクションu^m _tとしての運動（移動）を行う速度（以下、移動速度ともいう）を表す。

ハンドがアクションu^m _tを行う（アクションu^m _tを出力する）、とは、ハンドが、時刻tに、運動開始位置s^m _tにおいて、移動速度s^・m _tで移動することを意味する。

なお、ハンドは、操作対象物体との接触の如何に関わらず、アクションu^m _tとして指定された移動速度s^・m _tで移動することとする。

世界座標系Oにおいて式（３６）で表されるハンドのアクションu^m _tは、物体基準座標系O''では、式（３７）で表すことができる。

・・・（３７）

式（３７）において、u^m _t''は、時刻tの操作対象物体の物体基準座標系O''上のハンドのアクションを表す。また、位置s^m _t''は、図１４に示すように、（時刻tの操作対象物体の）物体基準座標系O''上のハンドの運動開始位置を表し、位置sⁱ _tの微分s^・m _t''は、図１４に示すように、物体基準座標系O''上のハンドの移動速度を表す。

世界座標系Oの原点回りに、角度Bだけ回転した（傾いた）物体基準座標系O''上の点Aを、世界座標系O上の対応点に写像する写像関数を、RR(A,B)と表すこととすると、世界座標系O上のアクションu^m _tと、物体基準座標系O''上のアクションu^m _t''との関係は、写像関数RR()を用いて、式（３８）で表される。

・・・（３８）

式（３８）において、q^o _tは、時刻tの操作対象物体（の前景#o）の姿勢、すなわち、時刻tの操作対象物体の物体基準座標系O''の原点回りの回転角度を表す。

エージェントにおいて、ハンドによって操作対象物体を操作するための操作モデルでは、操作対象物体の状態を、現在の状態（現在状態）から、目標とする状態（目標状態）に変化させるのに必要な状態の変化量に基づいて、時刻tの操作対象物体の物体基準座標系O''上のハンドのアクションu^m _t''が生成される。

なお、操作対象物体（の前景#o）の運動モデルa^oについては、操作対象物体が、ハンドとの接触によって受ける力によって、どのように運動するかを表現する必要があり、解析的には、剛体の質量や、慣性モーメント、重心等の動力学パラメータが必要となる。かかる運動モデルa^oは、剛体の動力学に関する計算モデルに従って、動力学パラメータの推定を行うことで求められる。

但し、本技術では、操作モデルにおいて、操作対象物体の運動は、物体基準座標系O''上での、ハンドの位置及び状態変化と、操作対象物体の状態変化との間の関係に含めて、ハンドの位置及び状態変化に対する、操作対象物体の状態変化への直接のマッピングとして、学習によって獲得される。

そのため、本技術では、操作対象物体を操作するにあたって、操作対象物体の運動モデルa^o（としての剛体の運動モデル）を用いる必要がなく、したがって、剛体（操作対象物体）の質量等の動力学パラメータを推定する必要もない。

図１５は、エージェントが、ハンドによって、操作対象物体を操作する物体操作の環境設定の詳細を説明する図である。

エージェントは、ハンドにアクションを行わせることによって、世界座標系Oでの操作対象物体（の前景#o）の状態を、現在状態から目標状態に変化させる。

いま、現在時刻を時刻tとすると、世界座標系Oにおいて、操作対象物体の現在状態（現在時刻tの状態）は、z^o _tで表される。また、世界座標系Oにおいて、現在時刻t（の時点）での操作対象物体の目標状態を、z^o,tgt _tで表すこととする。

この場合、世界座標系Oにおいて、図１５に示すように、操作対象物体が、目標状態z^o,tgt _tになるための、その操作対象物体の状態の変化（以下、目標状態変化ともいう）dz^o,tgt _tは、現在状態z^o _tと目標状態z^o,tgt _tとを用い、式（３９）で表される。

・・・（３９）

なお、本実施の形態では、図１２で説明したように、操作対象物体と、その操作対象物体が置かれている環境との摩擦が十分に大きく、ハンドが操作対象物体に接触している状態から、ハンドが操作対象物体に接触していない状態になると、操作対象物体が、直ちに運動を停止することを前提としている。

したがって、ハンドが現在状態z^o _tの操作対象物体に接触する直前の、操作対象物体の現在状態z^o _tの位置s^o _tが変化する速度（位置s^o _tの微分）（以下、位置変化速度ともいう）s^・o _t、及び、姿勢q^o _tが変化する速度（姿勢q^o _tの微分）（以下、姿勢変化速度ともいう）q^・o _t、並びに、ハンドが目標状態z^o,tgt _tになった操作対象物体から離れた直後の、操作対象物体の目標状態z^o,tgt _tの位置変化速度s^・o,tgt _t、及び、姿勢変化速度q^・o,tgt _tは、0になる。

その結果、目標状態変化dz^o,tgt _tは、実質的に、式（３）で定義される状態zⁱ _tとしての位置sⁱ _t、位置変化速度s^・i _t、姿勢qⁱ _t、及び、姿勢変化速度q^・i _tのうちの、位置sⁱ _t及び姿勢qⁱ _tの変化で定義することができる。

すなわち、世界座標系O上での式（３９）の目標状態変化dz^o,tgt _tは、現在状態z^o _tの位置s^o _t及び姿勢q^o _t、並びに、目標状態z^o,tgt _tの位置s^o,tgt _t及び姿勢q^o,tgt _tを用い、式（４０）で表される。

・・・（４０）

式（４０）において、ds^o,tgt _tは、操作対象物体の状態のうちの位置が、現在状態z^o _tの位置s^o _tから目標状態z^o,tgt _tの位置s^o,tgt _tになるまでの位置の変化（移動量）を表し、以下、目標位置変化ともいう。

また、式（４０）において、dq^o,tgt _tは、操作対象物体の状態のうちの姿勢が、現在状態z^o _tの姿勢q^o _tから目標状態z^o,tgt _tの姿勢q^o,tgt _tになるまでの姿勢の変化（回転量）を表し、以下、目標姿勢変化ともいう。

世界座標系O上での式（３９）の目標状態変化dz^o,tgt _tは、時刻tの操作対象物体の物体基準座標系O''上では、式（４１）で表される。

・・・（４１）

式（４１）において、dz^o,tgt _t''は、（時刻tの操作対象物体の）物体基準座標系O''上での目標状態変化を表す。また、ds^o,tgt _t''は、物体基準座標系O''上での目標位置変化を表し、dq^o,tgt _t''は、物体基準座標系O''上での目標姿勢変化を表す。

ここで、目標姿勢変化、すなわち、操作対象物体の状態のうちの姿勢が、現在状態z^o _tの姿勢q^o _tから目標状態z^o,tgt _tの姿勢q^o,tgt _tになるまでの姿勢の変化（回転量）は、操作対象物体（の前景#o）が存在する２次元平面上に定義することができるどのような２次元座標系から見ても、同一の回転量（回転角）になる。

したがって、式（４０）の世界座標系O上での目標姿勢変化dq^o,tgt _tと、式（４１）の物体基準座標系O''上での目標姿勢変化dq^o,tgt _t''とは、等しい（dq^o,tgt _t＝dq^o,tgt _t''である）。

また、式（４０）の世界座標系O上での目標位置変化ds^o,tgt _tと、式（４１）の物体基準座標系O''上での目標位置変化ds^o,tgt _t''との関係は、式（３８）で定義した写像関数RR()の逆関数RR^-1を用いて、式（４２）で表される。

・・・（４２）

［第4.2節物体基準座標系O''上での物体操作の表現］

エージェントがハンドによる操作対象物体の操作（物体操作）に用いる本技術の操作モデルでは、図１２で説明したように、ハンド及び操作対象物体（の前景）の運動が、操作対象物体の基準座標系O''上で表現される。

そのため、エージェントは、実画像λ~_tから、その実画像λ~_tに映る操作対象物体の物体基準座標系O''を基準とする所定の範囲を切り出し、その所定の範囲を、物体基準座標系O''の傾きが0になるように回転することにより、操作対象物体（の前景#o）の前景見えモデルμ^oに対して、操作対象物体の姿勢が一致した画像である物体基準画像を生成する。

そして、エージェントは、物体基準画像を用いて、ハンド及び操作対象物体の運動が操作対象物体の基準座標系O''上で表現される操作モデルの学習を行う。

図１６は、物体基準画像の生成を説明する図である。

エージェントは、実画像λ~_tから、その実画像λ~_tに映る操作対象物体（の前景#o）を認識する。

実画像λ~_tから、操作対象物体を認識する方法としては、例えば、第3.2節や第3.3節で説明したパーティクルフィルタを用いた状態推定（前景の状態の推定）を行う方法がある。

パーティクルフィルタを用いた状態推定によって、操作対象物体を認識する場合には、パーティクルフィルタを用いた状態推定によって得られる操作対象物体（の前景#o）の状態z^o _t（例えば、パーティクルフィルタを用いた状態推定によって得られるL個のパーティクルzⁱ⁽¹⁾ _tないしz^i(L) _tから求められる最尤状態z^o _t）が、実画像λ~_tからの操作対象物体の認識結果とされる。

そして、エージェントは、操作対象物体の状態z^o _tのコンポーネントになっている位置s^o _tを、操作対象物体の重心（世界座標系O上の操作対象物体の重心）として採用するとともに、操作対象物体の状態z^o _tのコンポーネントになっている姿勢q^o _tを、操作対象物体の姿勢として採用し、図１６に示すように、操作対象物体の重心を中心とし、かつ、世界座標系Oに対して、操作対象物体の姿勢q^o _tだけ傾いた矩形の所定の範囲を、操作対象物体の前景見えモデルμ^oに対して、姿勢q^o _tだけ傾いた傾き画像として、実画像λ~_tから切り出す。

さらに、エージェントは、図１６に示すように、傾き画像を、物体基準座標系の傾きが0になるように回転することにより、すなわち、姿勢q^o _tとしての回転角だけ逆回転することにより、物体基準画像を生成する。

したがって、物体基準画像に映る操作対象物体の姿勢は、その操作対象物体の前景見えモデルμ^oに映る操作対象物体の姿勢に一致する。

ここで、実画像λ~_tから傾き画像を切り出す所定の範囲としては、ハンドが、操作対象物体の近くに位置している場合の、操作対象物体の近くに位置するハンドが、操作対象物体とともに映るサイズの範囲、すなわち、例えば、操作対象物体に接触しているハンドや、操作対象物体に接触する直前のハンド、操作対象物体から離れた直後のハンドが、操作対象物体とともに映るサイズの範囲が採用される。

したがって、実画像λ~_tにおいて、ハンドが、操作対象物体の近くに位置していない場合、その実画像λ~_tは、操作モデルの学習には、用いられない。

実画像λ~_tにおいて、ハンドが、操作対象物体の近くに位置しているかどうか、すなわち、実画像λ~_tから傾き画像を切り出す所定の範囲内に、操作対象物体の他、ハンドが映っているかどうかは、実画像λ~_tから、操作対象物体を認識する他、ハンドを認識することで判定することができる。

なお、実画像λ~_tから傾き画像を切り出す所定の範囲の形状は、矩形に限定されるものではなく、例えば、円形であってもよい。

また、実画像λ~_tから、操作対象物体を認識する方法としては、パーティクルフィルタを用いた状態推定を行う方法の他、操作対象物体の前景テクスチャモデルτ^oの姿勢を、様々な姿勢に変えながら、実画像λ~_tの様々な位置で、操作対象物体の前景テクスチャモデルτ^oと、実画像λ~_tとのマッチングをとる（例えば、画素値どうしの絶対値差分の総和を求める等）方法がある。実画像λ~_tから、ハンドを認識する方法についても、同様である。

さらに、傾き画像を切り出すための操作対象物体の重心としては、操作対象物体の状態z^o _tのコンポーネントになっている位置s^o _tを採用する他、操作対象物体の前景形状モデルσ^oを用い、その前景形状モデルσ^oの各位置が前景であることを表す確率分布の重心を採用することができる。

操作対象物体の前景形状モデルσ^oの各位置が前景であることを表す確率分布の重心（以下、確率分布重心ともいう）は、式（４３）に従って求めることができる。

・・・（４３）

ここで、式（４３）において、s^o _c'は、操作対象物体のローカル座標系O'上の確率分布重心を表し、s'は、操作対象物体のローカル座標系O'上の位置を表す。

また、σ(s')は、操作対象物体の前景形状モデルσ^oの、操作対象物体のローカル座標系O'上の位置s'の画素値、すなわち、位置s'が前景であることの確率を表す。

さらに、式（４３）のサメーション（Σ）は、操作対象物体のローカル座標系O'上の位置s'が、操作対象物体の前景見えモデルμ^o上の点（位置）である場合について計算される。

式（４３）で求められるのは、操作対象物体のローカル座標系O'上の確率分布重心s^o _c'の座標であるため、傾き画像を切り出すときには、ローカル座標系O'上の確率分布重心s^o _c'の座標は、世界座標系O上の座標に変換される。

なお、傾き画像を切り出すための操作対象物体の重心が、その操作対象物体の物体基準座標系O''の原点とされる。したがって、操作対象物体の重心と、その操作対象物体の物体基準座標系Oの原点とは、一致する。

エージェントは、以上のようにして、物体基準画像を生成した後、その物体基準画像から、ハンドを認識し、その認識結果として、物体基準座標系O''上のハンドの状態を得る。

ここで、本実施の形態では、上述したように、ハンドは円形であり、姿勢は変化しない。そのため、操作モデルの学習では、ハンドの状態のうちの、姿勢に関する情報は、使用されず、位置に関する情報が使用される。

エージェントは、物体基準座標系O''上のハンドの状態の他、物体基準座標系O''上の操作対象物体の状態変化を用いて、操作モデルの学習を行う。

ところで、時刻tの実画像λ~_tから時刻tの操作対象物体の重心を中心として傾き画像を切り出すことにより生成される物体基準画像については、その物体基準画像に映る操作対象物体の重心は、必ず、時刻tの実画像λ~_tから生成される物体基準画像の中心、すなわち、時刻tの操作対象物体の物体基準座標系O''の原点に位置する。

さらに、時刻tの実画像λ~_tから時刻tの操作対象物体の重心を中心として傾き画像を切り出すことにより生成される物体基準画像に映る操作対象物体の姿勢は、その操作対象物体の前景見えモデルμ^oに映る操作対象物体の姿勢に一致する。

したがって、実画像λ~_tから、その実画像λ~_tに映る操作対象物体の物体基準座標系O''を基準とする所定の範囲を切り出し、その所定の範囲を、物体基準座標系O''の傾きが0になるように回転することにより得られる物体基準画像においては、その物体基準画像に映る操作対象物体の状態（位置、姿勢）は変化しないので、操作対象物体の運動（状態変化）を観測することはできない。

そこで、本技術では、現在時刻tから一定時間△tだけ離れた時刻としての、例えば、過去の時刻t-△tの操作対象物体の物体基準座標系O''において、現在時刻tの操作対象物体の状態を求め、その状態を、物体基準座標系O''上の、時刻t-△tから（現在）時刻tにかけての操作対象物体の状態変化として扱う。

すなわち、時刻t-△tの操作対象物体の物体基準座標系O''での、現在時刻tの操作対象物体の位置と姿勢が、物体基準座標系O''上の、時刻t-△tから時刻tにかけての操作対象物体の位置変化と姿勢変化として求められる。

図１７は、物体基準座標系O''上のハンドの状態、及び、体基準座標系O''上の操作対象物体の状態変化を求める求め方を説明する図である。

なお、ここまでは、時間tが連続時間である（物体の状態が時々刻々と変化する）ことを前提としたが、以下では、時間（時刻）tとして、離散時間（時刻）を採用する。すなわち、所定の一定時間△tを単位時間として、物体の状態は、単位時間△tの間は変化しない（時刻t-△tの物体の状態は、時刻tの直前まで一定で、時刻tに瞬時に変化する）こととする。

また、時間tとして、離散時間を採用することに伴い、物体（の前景#i）の時刻t-△tの状態zⁱ _t-△tから、次の時刻tの状態zⁱ _tへの状態の変化を、時刻t-△t（時刻t-△tから時刻tにかけて）の状態変化として扱い、△zⁱ _t-△tと表す。

ここで、状態zⁱ _tとしては、位置sⁱ _tと姿勢qⁱ _tがあるが、位置sⁱ _tと姿勢qⁱ _tの変化である位置変化と姿勢変化についても、状態変化△zⁱ _tと同様に表す。すなわち、位置変化は、△sⁱ _tと表し、姿勢変化は、△qⁱ _tと表す。

また、時間tとして、離散時間を採用することに伴い、世界座標系Oにおいて、ハンドのアクションu^m _tは、上述の式（３６）に示したように、位置s^m _tと位置速度s^・m _tとで定義するのではなく、式u^m _t＝［s^m _t，△s^m _t］として、位置s^m _tと位置変化△s^m _tとで定義する。

アクションu^m _t＝［s^m _t，△s^m _t］は、時刻tに、（世界座標系Oの）位置s^m _tにあるハンドを、次の時刻t+△tまでに、（世界座標系Oで）位置変化△s^m _tだけ移動するアクションを表す。

なお、同様に、物体基準座標系O''でも、ハンドのアクションu^m _t''は、上述の式（３７）に示したように、位置s^m _t''と位置速度s^・m _t''とで定義するのではなく、式u^m _t''＝［s^m _t''，△s^m _t''］として、位置s^m _t''と位置変化△s^m _t''とで定義する。

エージェントは、物体基準座標系O''上のハンドの状態（位置）を、以下のようにして求める。

すなわち、エージェントは、現在時刻tの実画像λ~_tから、その実画像λ~_tに映る操作対象物体を基準とする物体基準座標系O''（以下、現在時刻tの物体基準座標系O_t''、又は、単に、物体基準座標系O_t''ともいう）を基準とする所定の範囲を切り出し、現在時刻tの物体基準座標系O_t''の傾きが0になるように回転することにより得られる物体基準画像（以下、現在時刻物体基準画像PO_t''ともいう）を生成する。

そして、エージェントは、現在時刻物体基準画像PO_t''から、ハンドを認識することにより、図１７に示すように、現在時刻物体基準画像PO_t''に映るハンドの位置と位置変化（状態変化）を、物体基準座標系O''でのハンドの位置s^m _t''と位置変化（状態変化）△s^m _t''として求める。

ここで、エージェントは、物体基準座標系O''でのハンドの位置s^m _t''の他、位置変化△s^m _t''も求める。

時刻tのハンドの位置変化△s^m _t''は、ここでは、時刻tから時刻t+△tにかけてのハンドの位置の変化であり、時刻tの現在時刻物体基準画像PO_t''に映るハンドの位置s^m _t''が求められ、さらに、次の時刻t+△tの現在時刻物体基準画像PO_t+△t''に映るハンドの位置s^m _t+△t''が求められた後に、時刻t+△tのハンドの位置s^m _t+△t''から、時刻tのハンドの位置s^m _t''を減算することで求めることができる。

したがって、時刻tのハンドの位置s^m _t''と位置変化△s^m _t''が求められるのは、正確には、次の時刻t+△tの現在時刻物体基準画像PO_t+△t''に映るハンドの位置s^m _t+△t''が求められた後であるが、以下、適宜、説明を簡単にするために、時刻tに、その時刻tのハンドの位置s^m _t''と位置変化△s^m _t''が求められることとする。

エージェントは、以上のようにして、物体基準座標系O''でのハンドの位置s^m _t''、及び、位置変化△s^m _t''を求める他、物体基準座標系O''上の操作対象物体の状態変化を、以下のようにして求める。

すなわち、エージェントは、現在時刻tの実画像λ~_tから、現在時刻tの直前の時刻である前時刻t-△tの実画像λ~_tに映る操作対象物体を基準とする物体基準座標系O''（以下、前時刻t-△tの物体基準座標系O_t-△t''、又は、単に、物体基準座標系O_t-△t''ともいう）を基準とする所定の範囲を切り出し、前時刻t-△tの物体基準座標系O_t-△t''の傾きが0になるように回転することにより得られる物体基準画像（以下、前時刻物体基準画像QO_t''ともいう）を生成する。

そして、エージェントは、前時刻物体基準画像QO_t''から、操作対象物体を認識することにより、図１７に示すように、前時刻物体基準画像QO_t''に映る操作対象物体の位置と姿勢、すなわち、前時刻t-△tから現在時刻tにかけての操作対象物体の位置の変化と姿勢の変化を、物体基準座標系O''での操作対象物体の位置変化△s^o _t-△t''と姿勢変化△q^o _t-△t''として求める。

ここで、（現在）時刻tにおいて、前時刻物体基準画像QO_t''から求められる操作対象物体の位置変化△s^o _t-△t''と姿勢変化△q^o _t-△t''は、時刻t-△t（時刻t-△tから時刻tにかけて）の操作対象物体の位置と姿勢の変化である。

したがって、時刻tの操作対象物体の位置変化△s^o _t''と姿勢変化△q^o _t''が求められるのは、次の時刻t+△tの前時刻物体基準画像QO_t+△t''に映る操作対象物体の位置と姿勢が求められた後であるが、以下、適宜、説明を簡単にするために、時刻tに、その時刻tの操作対象物体の位置変化△s^o _t-△t''と姿勢変化△q^o _t-△t''が求められることとする。

以上のように、エージェントは、現在時刻物体基準画像PO_t''から、物体基準座標系O''でのハンドの位置s^m _t''と位置変化△s^m _t''を求めるとともに、前時刻物体基準画像QO_t''から、物体基準座標系O''での操作対象物体の位置変化△s^o _t''と姿勢変化△q^o _t''を求める。

そして、エージェントは、物体基準座標系O''でのハンドの位置s^m _t''と位置変化△s^m _t''、及び、物体基準座標系O''での操作対象物体の位置変化△s^o _t''と姿勢変化△q^o _t''を用いて、操作モデルの学習を行う。

図１８は、物体基準座標系O''でのハンドの位置s^m _t''と位置変化△s^m _t''、及び、物体基準座標系O''での操作対象物体の位置変化△s^o _t''と姿勢変化△q^o _t''それぞれどうしの関係を示すグラフィカルモデルである。

図１８のグラフィカルモデルでは、時刻tにおいて、ハンドは、位置s^m _t''にあり（位置s^m _t''にある状態になっており）、操作対象物体は、状態z^o _tになっている。

そして、時刻tから次の時刻t+△tにかけて、位置s^m _t''にあるハンドが、位置変化△s^m _t''だけ移動すると（ハンドの位置が、△s^m _t''だけ位置（状態）変化すると）、操作対象物体には、（△s^o _t''，△q^o _t''）だけの状態変化、すなわち、△s^o _t''だけの位置変化と、△q^o _t''だけの姿勢変化が生じる。

その結果、時刻t+△tにおいて、操作対象物体は、状態z^o _t+△tになる。

物体基準座標系O''でのハンドの位置s^m _t''及び位置変化△s^m _t''と、物体基準座標系O''での操作対象物体の位置変化△s^o _t''及び姿勢変化△q^o _t''との関係は、関数F()及びG()を用いて、式（４４）及び式（５５）で表すことができる。

・・・（４４）

・・・（４５）

式（４４）は、操作対象物体を基準として、ハンドをどの位置からどのように動かすと、操作対象物体の状態がどのように変化するかを表現している。

したがって、式（４４）の関数F()は、ハンドのアクションu^m _t''である位置（状態）s^m _t''と位置変化（状態変化）△s^m _t''から、操作対象物体の状態変化△z^o _t''である位置変化△s^o _t''及び姿勢変化△q^o _t''を予測する予測モデル（順モデル）を表す。

一方、式（４５）は、操作対象物体に、目標とするある状態変化を生じさせたいときに、その状態変化を生じさせるために、操作対象物体を基準として、ハンドをどの位置からどのように動かせばよいかを表現している。

したがって、式（４５）の関数G()は、操作対象物体の、目標とする状態変化△z^o _t''＝（△s^o _t''，△q^o _t''）から、その状態変化△z^o _t''を生じさせるハンドの制御としてのハンドのアクションu^m _t''である位置（状態）s^m _t''と位置変化（状態変化）△s^m _t''の算出を行う制御モデル（逆モデル）を表す。

エージェントは、物体基準座標系O''でのハンドの位置s^m _t''と位置変化△s^m _t''、及び、物体基準座標系O''での操作対象物体の位置変化△s^o _t''と姿勢変化△q^o _t''を用いて、予測モデルである式（４４）の関数F()（以下、予測モデルF()ともいう）、及び、制御モデルである式（４５）の関数G()（以下、制御モデルG()ともいう）としての操作モデルの学習を行う。

［第4.3節操作モデルの具体的な実装］

予測モデルF()及び制御モデルG()としての操作モデルは、確率モデルとして定式化することができる。

例えば、予測モデルF()は、ハンドが位置s^m _t''から△s^m _t''だけ位置変化した場合に、操作対象物体に状態変化△z^o _t''である位置変化△s^o _t''及び姿勢変化△q^o _t''が生じる確率P（△s^o _t''，△q^o _t''｜s^m _t''，△s^m _t''）を表す確率モデルとして定式化することができる。

予測モデルF()としての操作モデルを確率モデルとして実装し、ハンドの位置s^m _t''及び位置変化△s^m _t''、並びに、操作対象物体の位置変化△s^o _t''及び姿勢変化△q^o _t''を用いて、操作モデルの学習を行う方法としては、変数を離散化し、ハンドが位置s^m _t''から△s^m _t''だけ位置変化した場合に、操作対象物体に位置変化△s^o _t''及び姿勢変化△q^o _t''が生じる頻度をカウントするための頻度テーブルを設ける方法がある。

図１９及び図２０は、確率モデルとして実装する操作モデルの例を示す図である。

本実施の形態では、操作モデルは、位置テーブルから構成される。

図１９は、位置テーブルの例を示す図である。

位置テーブルは、図１６で説明した傾き画像を切り出すときの所定の範囲と同一の範囲を、例えば、格子状のフィールドに区切った２次元のテーブルであり、各フィールドには、ユニークなインデクスが割り当てられる。

図１９では、位置テーブルは、物体基準座標系O''のx''軸及びy''軸それぞれの方向に、等間隔に区切られ、正方形状のD個のフィールドを有している。

また、図１９では、２次元の位置テーブルの各フィールドに対し、左上のフィールドから、x''軸方向、さらには、y''軸方向に向かって、1からのシーケンシャルな整数が、インデクス#dとして割り当てられている。

位置テーブルのフィールド（以下、位置フィールドともいう）に割り当てられたインデクス#dは、D個に離散化されるハンドの位置s^m _t''を表現する。

位置テーブルの各位置フィールドは、その位置フィールドの位置（その位置フィールドに離散化された位置）s^m _t''から、ハンドが△s^m _t''だけ位置変化した場合に、操作対象物体に位置変化△s^o _t''及び姿勢変化△q^o _t''が生じる頻度をカウントするための頻度テーブルを有する。

図２０は、頻度テーブルの例を示す図である。

いま、ハンドの位置変化△s^m _t''をJ個に、操作対象物体の位置変化△s^o _t''をK個に、操作対象物体の姿勢変化△q^o _t''をH個に、それぞれ離散化することとすると、位置テーブルの各位置フィールドは、横×縦×高さがJ×K×H個のフィールドを有する３次元の頻度テーブルを有する。

３次元の頻度テーブルの所定の頂点から、横方向にj番目で、縦方向にk番目で、高さ方向にh番目のフィールド（以下、頻度フィールドともいう）には、例えば、３つ（３次元）のインデクス#j，#k、及び、#hが割り当てられる。

インデクス#jは、J個に離散化されるハンドの位置変化△s^m _t''を、インデクス#kは、K個に離散化される操作対象物体の位置変化△s^o _t''を、インデクス#hは、H個に離散化される操作対象物体の姿勢変化△q^o _t''を、それぞれ表現する。

なお、本実施の形態では、頻度テーブルのフィールドの数が膨大になることを防止するため、ハンドの位置変化△s^m _t''、操作対象物体の位置変化△s^o _t''、及び、操作対象物体の姿勢変化△q^o _t''の離散化は、例えば、以下のように行う。

すなわち、ハンドの位置変化△s^m _t''については、大きさを無視して、方向（角度）だけを扱うこととする。

具体的には、ハンドの位置変化△s^m _t''については、-πないしπの範囲を出力する逆正接の関数arctan2(△s^m _t'')を演算することにより、-πないしπの範囲の角度に変換し、-πないしπの範囲を等間隔にJ個に区分した、いずれかの区分（に対応するインデクス#j）に離散化する。

操作対象物体の位置変化△s^o _t''についても、同様とする。すなわち、操作対象物体の位置変化△s^o _t''については、逆正接の関数arctan2(△s^o _t'')を演算することにより、-πないしπの範囲の角度に変換し、-πないしπの範囲を等間隔にK個に区分した、いずれかの区分（に対応するインデクス#k）に離散化する。

また、操作対象物体の姿勢変化△q^o _t''については、回転しているかどうか（回転の角度の大きさが0とみなせるかどうか）と、回転している場合（回転の角度の大きさが0とみなせない場合）には、回転の角度の大きさを無視して、回転の方向だけを扱うこととする。

具体的には、操作対象物体の姿勢変化△q^o _t''については、正方向の回転（時計回り、及び、反時計回りのうちの、例えば、反時計回り）、負方向の回転、及び、回転なし（姿勢の変化がない）のうちのいずれかに離散化する。

したがって、操作対象物体の姿勢変化△q^o _t''は、H＝3値に離散化される。

図２０では、操作対象物体の姿勢変化△q^o _t''については、姿勢変化△q^o _t''が所定値ε（＞0）より大である場合（正方向の回転である場合）、インデクス#h=1に離散化され、姿勢変化△q^o _t''が-ε未満である場合（負方向の回転である場合）、インデクス#h=2に離散化される。また、姿勢変化△q^o _t''がないとみなせる場合、すなわち、姿勢変化△q^o _t''の絶対値｜△q^o _t''｜が所定値ε以下である場合、姿勢変化△q^o _t''は、インデクス#h=3に離散化される。

ここで、J×K×H個のフィールドを有する３次元の頻度テーブルのうちの、高さ方向にh番目の、横×縦がJ×K個のフィールドを有する２次元のテーブルを、頻度テーブル#hともいう。

図２０では、操作対象物体の姿勢変化△q^o _t''は、H＝3値に離散化されるので、３次元の頻度テーブルは、２次元の頻度テーブル#1，#2、及び、#3を有する。

なお、図２０では、図が煩雑になるのを避けるため、３次元の頻度テーブルを、２次元の頻度テーブル#1ないし#3に分け、並べて図示してある。

エージェントにおいて、以上のような頻度テーブルを有する位置テーブルから構成される操作モデルの学習は、例えば、以下のようにして行われる。

すなわち、エージェントは、ハンドを、環境中の様々な位置から、操作対象物体と衝突（接触）するように適当に動かし、図１６及び図１７で説明したようにして、実画像λ~_tから、ハンドの位置s^m _t''、及び、その位置s^m _t''からの位置変化△s^m _t''、並びに、ハンドが、位置s^m _t''からの位置変化△s^m _t''だけ動いたときの操作対象物体の位置変化△s^o _t''及び姿勢変化△q^o _t''を、操作モデルの学習に用いる学習データとして、時間△tごとに収集する。

さらに、エージェントは、学習データとしてのハンドの位置s^m _t''及び位置変化△s^m _t''、並びに、操作対象物体の位置変化△s^o _t''及び姿勢変化△q^o _t''を、それぞれ、インデクス#d，#j，#k、及び、#hに離散化する。

そして、エージェントは、学習データとしてのハンドの位置s^m _t''及び位置変化△s^m _t''、並びに、操作対象物体の位置変化△s^o _t''及び姿勢変化△q^o _t''を離散化したインデクス#d，#j，#k、及び、#hを用いて、操作モデルの追加学習を行う。

すなわち、エージェントは、位置テーブル（図１９）から、学習データとしてのハンドの位置s^m _t''を離散化したインデクス#dが割り当てられた位置フィールドを特定する。

さらに、エージェントは、学習データとしてのハンドの位置s^m _t''を離散化したインデクス#dが割り当てられた位置フィールドが有する頻度テーブル（図２０）から、学習データとしてのハンドの位置変化△s^m _t''、並びに、操作対象物体の位置変化△s^o _t''及び姿勢変化△q^o _t''をそれぞれ離散化したインデクス#j，#k、及び、#hが割り当てられた頻度フィールドを、更新対象の頻度フィールド（以下、更新対象フィールドともいう）として特定する。

そして、エージェントは、更新対象フィールドである頻度フィールドに記憶された頻度、すなわち、学習データとしてのハンドの位置s^m _t''及び位置変化△s^m _t''、並びに、操作対象物体の位置変化△s^o _t''及び姿勢変化△q^o _t''（を離散化したインデクス#d，#j，#k、及び、#h）が出現した出現頻度を、1だけインクリメントする。

ここで、頻度テーブルの頻度フィールドに記憶された、ハンドの位置s^m _t''及び位置変化△s^m _t''、並びに、操作対象物体の位置変化△s^o _t''及び姿勢変化△q^o _t''が出現した出現頻度とは、物体基準座標系O''において、位置s^m _t''にいたハンドが、位置変化△s^m _t''だけ移動することによって、操作対象物体の位置変化△s^o _t''及び姿勢変化△q^o _t''が生じた頻度（回数）Ｎ（△s^o _t''，△q^o _t''，s^m _t''，△s^m _t''）を表す。

操作対象物体の位置変化△s^o _t''及び姿勢変化△q^o _t''にかかわらず、位置s^m _t''にいたハンドが、位置変化△s^m _t''だけ移動した頻度（回数）を、Ｎ（s^m _t''，△s^m _t''）と表すこととすると、ハンドが位置s^m _t''から△s^m _t''だけ位置変化した場合に、操作対象物体に位置変化△s^o _t''及び姿勢変化△q^o _t''が生じる確率P（△s^o _t''，△q^o _t''｜s^m _t''，△s^m _t''）は、式（４６）に従って求めることができる。

・・・（４６）

頻度フィールドには、頻度Ｎ（△s^o _t''，△q^o _t，s^m _t''，△s^m _t''）とともに、確率P（△s^o _t''，△q^o _t''｜s^m _t''，△s^m _t''）を記憶しておくことができる。

以上のように、操作モデルは、物体基準座標系O''の各位置s^m _t''（を離散化したインデクス#d）において、ハンドの状態（位置）が変化したときの、ハンドの位置s^m _t''及び位置（状態）変化△s^m _t''（を離散化したインデクス#j）と、（インデクス#k及び#hにそれぞれ離散化された）操作対象物体の位置変化△s^o _t''及び姿勢変化△q^o _tとが出現する頻度が記憶される頻度フィールドからなる頻度テーブルを含む。

そして、エージェントは、物体基準座標系O''の所定の位置s^m _t''において、ハンドに、所定の位置変化△s^m _t''が生じることによって、操作対象物体に、所定の位置変化△s^o _t''及び姿勢変化△q^o _tが生じた場合に、頻度テーブルの、位置s^m _t''、位置変化△s^m _t''、位置変化△s^o _t''、及び、姿勢変化△q^o _tに対応する頻度フィールドに記憶された頻度、すなわち、所定の位置s^m _t''において生じたハンドの所定の状態変化△s^m _t''によって、操作対象物体に所定の位置変化△s^o _t''及び姿勢変化△q^o _tが生じる頻度をインクリメントすることにより、操作モデルの（追加）学習を行う。

その結果、操作モデルでは、操作対象物体を基準とする物体基準座標系O''の各位置s^m _t''において、ハンドの状態が位置s^m _t''から所定の位置変化△s^m _t''だけ変化したときの、そのハンドの位置s^m _t''及び位置（状態）変化△s^m _t''と、ハンドの位置変化△s^m _t''によって生じる操作体操物体の状態変化としての位置変化△s^o _t''及び姿勢変化△q^o _tとが対応付けられる。

すなわち、操作モデルでは、物体基準座標系O''上において、ハンドが、位置s^m _t''から所定の位置変化△s^m _t''だけ移動したときに、操作対象物体に、位置変化△s^o _t''及び姿勢変化△q^o _tが生じる可能性（確率）を獲得することができる。

エージェントは、以上のような操作モデルを用いて、ハンドが行うアクションを、以下のように決定する。

すなわち、例えば、いま、図１５、及び、式（３９）ないし式（４１）で説明したように、操作対象物体を、現在状態から目標状態に変化させるための、物体基準座標系O''上の目標状態変化dz^o,tgt _t''が求められていることとする。

エージェントは、目標状態変化dz^o,tgt _t''に基づき、例えば、目標状態変化dz^o,tgt _t''のコンポーネント（式（４１））である目標位置変化ds^o,tgt _t''や目標姿勢変化dq^o,tgt _t''の大きさに応じて大になる値を、目標状態変化dz^o,tgt _t''を達成するのに行うアクションの回数（以下、達成回数ともいう）T_tgtとして求める。

さらに、エージェントは、式（４７）に従い、目標状態変化dz^o,tgt _t''を、達成回数T_tgtに基づいて分割することで、目標状態変化dz^o,tgt _t''を、達成回数T_tgtで達成するための、単位時間△tあたりの状態変化△z^o,tgt _t''を、操作対象物体の状態z^o _tが目標状態z^o,tgt _tになるために現在時刻tに必要な操作対象物体の状態の変化量（以下、単位変化量ともいう）として求める。

・・・（４７）

なお、達成回数T_tgtとしては、目標状態変化dz^o,tgt _t''の大きさに応じて求められる値の他、例えば、あらかじめ決められた固定の値を採用することができる。

エージェントは、式（４７）の単位変化量△z^o,tgt _t''＝（ds^o,tgt _t''／T_tgt，dq^o,tgt _t''／T_tgt）を求めると、操作モデルを用い、式（４８）に従って、単位変化量△z^o,tgt _t''だけの状態変化としての位置変化ds^o,tgt _t''／T_tgt及び姿勢変化dq^o,tgt _t''／T_tgtを操作対象物体に生じさせる頻度（確率）が最も高い物体基準座標系O''上のハンドの位置s^m _t''と位置（状態）変化△s^m _t''とを、ハンドのアクションu^m _t''に決定する。

・・・（４８）

式（４８）において、argmaxは、確率P（△s^o _t''＝ds^o,tgt _t''／T_tgt，△q^o _t''＝dq^o,tgt _t''／T_tgt｜s^m _t''，△s^m _t''）を最大にするs^m _t''及び△s^m _t''を求めることを表し、s^m _t''^*及び△s^m _t''^*は、それぞれ、確率P（△s^o _t''＝ds^o,tgt _t''／T_tgt，△q^o _t''＝dq^o,tgt _t''／T_tgt｜s^m _t''，△s^m _t''）を最大にするs^m _t''及び△s^m _t''を表す。

操作モデルを用いて決定されるアクションu^m _t''は、物体基準座標系O''上で表現されるアクションであるため、エージェントは、その物体基準座標系O''上のアクションu^m _t''を、式（３８）に従って、世界座標系O上のアクションu^m _tに変換し、ハンドに、そのアクションu^m _tを行わせる。

ここで、ハンドのアクションを入力として、操作対象物体の状態変化を出力する順モデルの逆モデルを解くことにより、ある目標状態変化を達成するアクションを求める場合には、一般に、ある目標状態変化を達成するアクションとしては、複数のアクションの候補が存在し、本技術の操作モデルを用いる場合も同様である。

しかしながら、操作対象物体に、所定の状態変化を生じさせるハンドのアクションとして、複数のアクションが存在しても、操作モデルの学習において、その複数のアクションのそれぞれが、操作対象物体の所定の状態変化に対して、同一の回数（頻度）だけ生じることは、極めて稀である。

すなわち、操作対象物体に、所定の状態変化を生じさせるハンドのアクションとして、複数のアクションが存在しても、操作モデルの学習で獲得される、所定の状態変化を生じさせる複数のアクションそれぞれがその所定の状態変化を生じさせる頻度には、ばらつきが生じる。

したがって、操作モデルにおいて、操作対象物体に所定の状態変化を生じさせる頻度が最も高いハンドのアクションを選択することにより、所定の状態変化を生じさせるハンドのアクションとして、複数のアクションが存在しても、その複数のアクション（複数の解）の中から、ハンドが行うべきアクションとして、１つのアクション（１つの解）を決定することができる。

なお、操作モデルにおいて、式（４７）の単位変化量△z^o,tgt _t''＝（ds^o,tgt _t''／T_tgt，dq^o,tgt _t''／T_tgt）だけの状態変化としての位置変化ds^o,tgt _t''／T_tgt及び姿勢変化dq^o,tgt _t''／T_tgtを操作対象物体に生じさせる頻度が最も高い物体基準座標系O''上のハンドの位置s^m _t''と位置変化△s^m _t''とのセットが、複数セット存在する場合には、エージェントは、その複数セットの中から、例えば、ランダムに、1セットを選択し、その1セットを構成するハンドの位置s^m _t''と位置変化△s^m _t''を、ハンドのアクションu^m _t''に決定する。

また、本実施の形態では、操作モデルにおいて、ハンドの位置s^m _t''及び位置変化△s^m _t''、並びに、操作対象物体の位置変化△s^o _t''及び姿勢変化△q^o _t''は、それぞれ、インデクス#d，#j，#k、及び、#hに離散化されて扱われるため、エージェントによるハンドのアクションu^m _t''の決定は、正確には、インデクス#d，#j，#k、及び、#hを用いて行われる。

すなわち、エージェントは、単位変化量△z^o,tgt _t''だけの状態変化としての位置変化ds^o,tgt _t''／T_tgt及び姿勢変化dq^o,tgt _t''／T_tgtを、それぞれ、インデクス#k及び#hに離散化する。

いま、目標状態変化dz^o,tgt _t''の単位変化量△z^o,tgt _t''だけの状態変化としての位置変化ds^o,tgt _t''／T_tgt及び姿勢変化dq^o,tgt _t''／T_tgtの離散化の結果得られるインデクス#k及び#hを、それぞれ、#k^*及び#h^*と表すこととすると、エージェントは、操作モデル（図２０）において、インデクス#k及び#hが、それぞれ、値#k^*及び#h^*である頻度フィールドの中で、頻度フィールドに記憶されている頻度が最大の頻度フィールド（以下、最大頻度フィールドともいう）を選択する。

いま、最大頻度フィールドに割り当てられている、ハンドの位置s^m _t''及び位置変化△s^m _t''を離散化したインデクス#d及び#jを、それぞれ、#d^*及び#j^*と表すこととする。

エージェントは、インデクス#d^*に離散化されるハンドの位置（物体基準座標系O''上の位置）の範囲の代表値（例えば、平均値や、x''及びy''座標が最小又は最大の位置等）を、ハンドのアクションu^m _t''のコンポーネントとなる位置s^m _t''に決定する。

さらに、エージェントは、インデクス#j^*に離散化されるハンドの位置変化（物体基準座標系O''での位置変化）の範囲の代表値（例えば、平均値や、最小又は最大の位置変化等）を、ハンドのアクションu^m _t''のコンポーネントとなる位置変化△s^m _t''に決定する。

なお、本実施の形態では、ハンドの位置変化△s^m _t''は、関数arctan2(△s^m _t'')により-πないしπの範囲の角度に変換され、その角度が、インデクス#jに離散化される。したがって、インデクス#jに離散化されるハンドの位置変化の範囲の代表値、ひいては、ハンドのアクションu^m _t''に決定される位置変化△s^m _t''は、方向（角度）だけを有し、大きさを有しない。

そのため、エージェントは、ハンドのアクションu^m _t''に決定される位置変化△s^m _t''の大きさとして、例えば、あらかじめ決められた所定の大きさを採用する。

［第5章本技術を適用したエージェントの一実施の形態］

図２１は、本技術を適用したエージェントの一実施の形態の構成例を示すブロック図である。

図２１において、エージェントは、アクチュエータ制御部１１、カメラ１２、見えモデル学習部１３、見えモデル記憶部１４、操作モデル学習部１５、操作モデル記憶部１６、目標状態生成部１７、変化量算出部１８、世界座標変換部１９、変化量時分割部２０、アクション決定部２１、及び、物体基準座標変換部２２を有する。

アクチュエータ制御部１１には、操作モデル学習部１５から、前景#iの（現在の）状態zⁱ _tが供給されるとともに、物体基準座標変換部２２から、ハンドの世界座標系O上のアクションu^m _tが供給される。

アクチュエータ制御部１１は、操作モデル学習部１５からの前景#iの状態zⁱ _tのうちの、ハンド（の前景#m）の状態z^m _tと、物体基準座標変換部２２からのアクションu^m _tとに基づいて、例えば、エージェントのアーム等を駆動するアクチュエータを制御し、これにより、アームの先端に取り付けられたハンドが、アクションu^m _tを行う。

すなわち、ハンドは、操作モデル学習部１５からの前景#iの状態zⁱ _tのうちの、ハンド（の前景#m）の状態z^m _tとしての現在位置s^m _tから、物体基準座標変換部２２からのアクションu^m _tのコンポーネントになっている位置（状態）s^m _tに移動される。

そして、ハンドは、現在位置、すなわち、物体基準座標変換部２２からのアクションu^m _tのコンポーネントになっている位置s^m _tから、同じく、物体基準座標変換部２２からのアクションu^m _tのコンポーネントになっている位置（状態）変化△s^m _tだけ移動される。

カメラ１２は、エージェントがおかれている環境の画像を、所定のフレームレートで撮影し、エージェントが観測可能な画像の観測値（実画像）λ~_tとして、見えモデル学習部１３、及び、操作モデル学習部１５に供給する。

見えモデル学習部１３は、カメラ１２からの実画像λ~_tを用いて、見えモデル記憶部１４に記憶された前景見えモデルμⁱ、及び、背景見えモデルμ^wの学習（見えモデルの学習）を行う。

見えモデル記憶部１４は、見えモデル学習部１３によって学習される前景見えモデルμⁱ、及び、背景見えモデルμ^wを記憶する。

操作モデル学習部１５は、カメラ１２からの実画像λ~_t、及び、見えモデル記憶部１５に記憶された前景見えモデルμⁱ等を用いて、操作モデル記憶部１６に記憶された操作モデルの学習を行う。

なお、操作モデル学習部１５は、操作モデルの学習にあたり、学習カメラ１２からの実画像λ~_t、並びに、見えモデル記憶部１４に記憶された前景見えモデルμⁱ、及び、背景見えモデルμ^wを用いて、前景#iの状態zⁱ _tを推定する。操作モデル学習部１５で推定された前景#iの状態zⁱ _tは、アクチュエータ制御部１１、目標状態生成部１７、変化量算出部１８、世界座標変換部１９、及び、物体基準座標変換部２２に供給される。

操作モデル記憶部１６は、操作モデル学習部１５によって学習される操作モデルを記憶する。

目標状態生成部１７は、操作対象物体（の前景#o）の目標状態z^o,tgt _tを生成し、変化量算出部１８に供給する。

すなわち、目標状態生成部１７は、操作モデル学習部１５から供給される前景#iの状態zⁱ _tのうちの、操作対象物体（の前景#o）の状態z^o _tと、直前に生成された目標状態z^o,tgt _tとが一致していない場合、つまり、操作対象物体が、直前に生成された目標状態z^o,tgt _tになっていない場合、直前に生成された目標状態z^o,tgt _tを、変化量算出部１８に供給する（供給し続ける）。

一方、操作モデル学習部１５から供給される操作対象物体の状態z^o _tと、直前に生成された目標状態z^o,tgt _tとが一致している場合、つまり、操作対象物体が、直前に生成された目標状態z^o,tgt _tになった場合、目標状態生成部１７は、新たな目標状態z^o,tgt _tを生成し、変化量算出部１８に供給する。

なお、目標状態生成部１７では、例えば、ユーザの操作や所定のアルゴリズムに従って、操作対象物体の目標状態z^o,tgt _tを生成することができる。その他、目標状態生成部１７では、例えば、ランダムに、目標状態z^o,tgt _tを生成することができる。

変化量算出部１８は、操作モデル学習部１５から供給される前景#iの状態zⁱ _tのうちの、操作対象物体の（現在の）状態z^o _tと、目標状態生成部１７からの操作対象物体の目標状態z^o,tgt _tとを用い、式（４０）に従って、世界座標系O上での目標状態変化dz^o,tgt _t（目標位置変化dq^o,tgt _t及び目標姿勢変化dq^o,tgt _t）を求めて、世界座標変換部１９に供給する。

世界座標変換部１９は、操作モデル学習部１５から供給される前景#iの状態zⁱ _tのうちの、操作対象物体の状態z^o _tとしての姿勢q^o _tを用いて、式（４２）を演算することにより、変化量算出部１８からの世界座標系O上での目標状態変化dz^o,tgt _t（目標位置変化dsq^o,tgt _t及び目標姿勢変化dq^o,tgt _t）を、式（４１）の物体基準座標系O''上での目標状態変化dz^o,tgt _t''（目標位置変化dq^o,tgt _t''及び目標姿勢変化dq^o,tgt _t''）に変換し、変化量時分割部２０に供給する。

変化量時分割部２０は、式（４７）に従い、世界座標変換部１９からの目標状態変化dz^o,tgt _t''を、達成回数T_tgtに基づいて分割することで、単位変化量△z^o,tgt _t''＝（△s^o,tgt _t''，△q^o,tgt _t''）＝（ds^o,tgt _t''／T_tgt，dq^o,tgt _t''／T_tgt）を求め、アクション決定部２１に供給する。

アクション決定部２１は、操作モデル記憶部１６に記憶された操作モデルを用い、変化量時分割部２０からの単位変化量△z^o,tgt _t''だけの状態変化としての位置変化△s^o,tgt _t''＝ds^o,tgt _t''／T_tgt及び姿勢変化△q^o,tgt _t''＝dq^o,tgt _t''／T_tgtを操作対象物体に生じさせる頻度（確率）が最も高い物体基準座標系O''上のハンドの位置s^m _t''及び位置変化△s^m _t''を、ハンドのアクションu^m _t''に決定し、物体基準座標変換部２２に供給する。

物体基準座標変換部２２は、操作モデル学習部１５から供給される前景#iの状態zⁱ _tのうちの、操作対象物体の状態z^o _tとしての姿勢q^o _tを用いて、式（３８）を演算することにより、アクション決定部２１からのハンドのアクションu^m _t''、すなわち、物体基準座標系O''で表現されるアクションアクションu^m _t''を、世界座標系Oで表現されるアクションu^m _tに変換し、アクチュエータ制御部１１に供給する。

図２２は、図２１の見えモデル学習部１３の構成例を示すブロック図である。

モデル学習部１３は、前景状態推定部３１、及び、見えモデル更新部３２を有する。

前景状態推定部３１、及び、見えモデル更新部３２には、カメラ１２から、実画像λ~_tが供給される。

前景状態推定部３１は、カメラ１２からの実画像λ~_t、並びに、見えモデル記憶部１４に記憶された前景見えモデルμⁱ、及び、背景見えモデルμ^wを用いて、カメラ１２からの実画像λ~_t上の前景#iの状態zⁱ _tを推定し、その推定の結果として、状態zⁱ _tのパーティクルz^i(l) _t及び重みw^i(l) _tを、見えモデル更新部３２に供給する。

見えモデル更新部３２は、カメラ１２からの実画像λ~_tと、前景状態推定部３１から供給される前景#iの状態zⁱ _tの推定の結果としての状態zⁱ _tのパーティクルz^i(l) _t及び重みw^i(l) _tとを用いて、見えモデル記憶部１４に記憶された前景見えモデルμⁱ、及び、背景見えモデルμ^wを更新する。

すなわち、見えモデル更新部３２は、式（２１）ないし式（２４）に従って、前景見えモデルμⁱのうちの前景テクスチャモデルτⁱを更新し、式（３１）ないし式（３５）に従って、前景見えモデルμⁱのうちの前景形状モデルσⁱを更新する。

また、見えモデル更新部３２は、式（２５）ないし式（３０）に従って、背景見えモデルμ^w（背景テクスチャモデルτ^w）を更新する。

ここで、図２２において、前景状態推定部３１は、見えモデル尤度計算部４１、状態パーティクル更新部４２、状態パーティクル記憶部４３、及び、推定観測値生成部４４を有する。

見えモデル尤度計算部４１には、カメラ１２から画像の観測値（実画像）λ~_tが供給されるとともに、推定観測値生成部４４から、生成モデルで観測される観測画像（生成モデルとしての前景見えモデルμⁱ及び背景見えモデルμ^wから生成される画像）λ^i(l) _tが供給される。

見えモデル尤度計算部４１は、カメラ１２からの実画像λ~_tと、推定観測値生成部４４からの観測画像λ^i(l) _tとを用い、式（１９）に従って、注目している前景#iが、パーティクルとしての状態z^i(l) _tになっているときの、前景#iの観測値xⁱ _tの観測尤度p(xⁱ _t|z^i(l) _t)を求めて、状態パーティクル更新部４２に供給する。

状態パーティクル更新部４２は、状態パーティクル記憶部４３に記憶された時刻t-1のパーティクルとしての状態z^i(l) _t-1から、式（１８）に従って、次の時刻tの状態zⁱ _tとしてのパーティクルz^i(l) _tを求める、パーティクルの遷移先の予測（算出）を行う。

状態パーティクル更新部４２は、次の時刻tの状態zⁱ _tとしてのパーティクルz^i(l) _tを、状態パーティクル記憶部４３に供給し、時刻t-1のパーティクルとしての状態z^i(l) _t-1に代えて記憶させる。

さらに、状態パーティクル更新部４２は、見えモデル尤度計算部４１からの観測尤度p(xⁱ _t|z^i(l) _t)を用いて、式（１２）に従い、パーティクルz^i(l) _tの重みw^i(l) _tを求め、パーティクルz^i(l) _tと同様に、状態パーティクル記憶部４３に供給して記憶させる。

また、状態パーティクル更新部４２は、パーティクルz^i(l) _tの重みw^i(l) _tに対応する確率で、パーティクルz^i(l) _tを選択するリサンプリングを行い、状態パーティクル記憶部４３に記憶されたパーティクルz^i(l) _tを、リサンプリング結果に書き換える。

リサンプリング結果としてのパーティクルz^i(l) _tは、次の時刻t+1の観測尤度p(xⁱ _t+1|z^i(l) _t+1)が得られた後に、式（１８）に従って、時刻t+1の状態zⁱ _t+1としてのパーティクルz^i(l) _t+1を予測するときに用いられる。

状態パーティクル記憶部４３は、状態パーティクル更新部４２が更新する、前景の状態zⁱ _tとしてのパーティクルz^i(l) _tと、その重みw^i(l) _tとを記憶する。

推定観測値生成部４４は、見えモデル記憶部１４に記憶された前景見えモデルμⁱ、及び、背景見えモデルμ^wを用い、前景の状態が、状態パーティクル記憶部４３に記憶された各パーティクルとしての状態z^i(l) _tになっている観測画像（生成モデルにおいて観測される画像）λ^i(l) _tを、式（２０）に従って生成し、見えモデル尤度計算部４１に供給する。

図２３は、図２１の操作モデル学習部１５の構成例を示すブロック図である。

操作モデル学習部１５は、前景状態推定部５１、物体基準画像生成部５２及び５３、前景認識部５４及び５５、並びに、操作モデル更新部５６を有する。

前景状態推定部５１、並びに、物体基準画像生成部５２及び５３には、カメラ１２から、実画像λ~_tが供給される。

前景状態推定部５１は、図２２の前景状態推定部３１と同様に構成される。

前景状態推定部５１は、図２２の前景状態推定部３１と同様に、カメラ１２からの実画像λ~_t、並びに、見えモデル記憶部１４に記憶された前景見えモデルμⁱ、及び、背景見えモデルμ^wを用いて、カメラ１２からの実画像λ~_t上の前景#iの状態zⁱ _tを推定する。

そして、前景状態推定部５１は、前景#iの状態zⁱ _tを、アクチュエータ制御部１１、目標状態生成部１７、変化量算出部１８、世界座標変換部１９、及び、物体基準座標変換部２２に供給する。

なお、前景状態推定部５１では、図２２の前景状態推定部３１と同様に、カメラ１２からの実画像λ~_t上の前景#iの状態zⁱ _tの推定が行われることにより、その推定の結果として、状態zⁱ _tのL個のパーティクルz^i(l) _t及び重みw^i(l) _tが求められる。

前景状態推定部５１は、例えば、L個のパーティクルz^i(l) _tの重み付け平均値を、そのパーティクルz^i(l) _tの重みw^i(l) _tを重みとして用いて求め、そのL個のパーティクルz^i(l) _tの重み付け平均値を、前景#iの（最尤）状態zⁱ _tとして出力する。

ここで、前景状態推定部５１は、図２２の前景状態推定部３１と同様に構成され、同様の処理を行うので、実装上は、前景状態推定部５１と図２２の前景状態推定部３１とのうちのいずれか一方だけを設ければ済む。

物体基準画像生成部５２は、図１６及び図１７で説明したように、カメラ１２からの現在時刻tの実画像λ~_tから、現在時刻tの実画像λ~_tに映る操作対象物体を基準とする現在時刻tの物体基準座標系O_t''を基準とする所定の範囲を切り出し、現在時刻tの物体基準座標系O_t''の傾きが0になるように回転することにより、現在時刻物体基準画像PO_t''を生成して、前景認識部５４に供給する。

すなわち、物体基準画像生成部５２は、例えば、前景状態推定部５１からの前景#iの状態zⁱ _tのうちの、（現在）時刻tの操作対象物体（の前景#o）の状態z^o _tのうちの位置s^o _tを、現在時刻tの操作対象物体の重心として採用するとともに、操作対象物体の状態z^o _tのうちの姿勢q^o _tを、やはり、現在時刻tの操作対象物体の姿勢として採用し、現在時刻tの操作対象物体の重心s^o _tを中心とし、かつ、世界座標系Oに対して、現在時刻tの操作対象物体の姿勢q^o _tだけ傾いた矩形の所定の範囲を、傾き画像として、実画像λ~_tから切り出す。

そして、物体基準画像生成部５２は、傾き画像を、現在時刻tの物体基準座標系O_t''の傾き（現在時刻tの操作対象物体の姿勢q^o _t）が0になるように回転することにより、現在時刻物体基準画像PO_t''を生成する。

物体基準画像生成部５３は、図１６及び図１７で説明したように、カメラ１２からの現在時刻tの実画像λ~_tから、現在時刻tの直前の時刻である前時刻t-△tの実画像λ~_t-△tに映る操作対象物体を基準とする前時刻t-△tの物体基準座標系O_t-△t''を基準とする所定の範囲を切り出し、前時刻t-△tの物体基準座標系O_t-△t''の傾きが0になるように回転することにより、前時刻物体基準画像QO_t''を生成して、前景認識部５５に供給する。

すなわち、物体基準画像生成部５３は、例えば、前景状態推定部５１から前時刻t-△tに供給された前景#iの前時刻t-△tの状態zⁱ _t-△tのうちの、前時刻t-△tの操作対象物体（の前景#o）の状態z^o _t-△tのうちの位置s^o _t-△tを、前時刻t-△tの操作対象物体の重心として採用するとともに、操作対象物体の状態z^o _t-△tのうちの姿勢q^o _t-△tを、やはり、前時刻t-△tの操作対象物体の姿勢として採用し、前時刻t-△tの操作対象物体の重心s^o _t-△tを中心とし、かつ、世界座標系Oに対して、前時刻t-△tの操作対象物体の姿勢q^o _t-△tだけ傾いた矩形の所定の範囲を、傾き画像として、実画像λ~_tから切り出す。

そして、物体基準画像生成部５２は、傾き画像を、前時刻t-△tの物体基準座標系O_t-△t''の傾き（前時刻t-△tの操作対象物体の姿勢q^o _t-△t）が0になるように回転することにより、前時刻物体基準画像QO_t''を生成する。

前景認識部５４は、物体基準画像生成部５２からの現在時刻物体基準画像PO_t''から、見えモデル記憶部１４に前景見えモデルμ^mが記憶されたハンドを認識することにより、図１７で説明したように、現在時刻物体基準画像PO_t''に映るハンドの位置と位置変化を、物体基準座標系O''でのハンドの位置s^m _t''と位置変化△s^m _t''として求め、操作モデル更新部５６に供給する。

ここで、前景認識部５４での、現在時刻物体基準画像PO_t''からのハンドの認識は、例えば、前景状態推定部５１（図２２の前景状態推定部３１）での、実画像λ~_t上の前景#iの状態zⁱ _tの推定の場合と同様に、見えモデル記憶部１４に記憶されたハンド（の前景#m）の前景見えモデルμ^m等を用いて、現在時刻物体基準画像PO_t''上のハンドの状態z^m _t''を推定することによって行うことができる。

なお、現在時刻物体基準画像PO_t''上のハンドの状態z^m _t''の推定を、前景状態推定部５１と同様にして行う場合には、ハンドの前景見えモデルμ^mの他、現在時刻物体基準画像PO_t''に映る背景の背景見えモデルが必要となるが、現在時刻物体基準画像PO_t''に映る背景の背景見えモデルとしては、例えば、見えモデル記憶部１４に記憶された背景見えモデルμ^wのうちの、物体基準画像生成部５２が現在時刻物体基準画像PO_t''となる傾き画像を切り出した範囲と同一の範囲の画像を採用することができる。

前景認識部５５は、物体基準画像生成部５３からの前時刻物体基準画像QO_t''から、見えモデル記憶部１４に前景見えモデルμ^oが記憶された操作対象物体を認識することにより、図１７で説明したように、前時刻物体基準画像QO_t''に映る操作対象物体の位置と姿勢を、物体基準座標系O''での操作対象物体の位置変化△s^o _t-△t''と姿勢変化△q^o _t-△t''として求め、操作モデル更新部５６に供給する。

ここで、前景認識部５５での、前時刻物体基準画像QO_t''からの操作対象物体の認識は、例えば、上述の前景認識部５４と同様に、見えモデル記憶部１４に記憶された操作対象物体（の前景#o）の前景見えモデルμ^o等を用いて、前時刻物体基準画像QO_t''上の操作対象物体の状態z^o _t''を推定することによって行うことができる。

なお、この場合、操作対象物体の前景見えモデルμ^oの他、前時刻物体基準画像QO_t''に映る背景の背景見えモデルが必要となるが、前時刻物体基準画像QO_t''に映る背景の背景見えモデルとしては、例えば、見えモデル記憶部１４に記憶された背景見えモデルμ^wのうちの、物体基準画像生成部５３が前時刻物体基準画像QO_t''となる傾き画像を切り出した範囲と同一の範囲の画像を採用することができる。

操作モデル更新部５６は、前景認識部５４からの物体基準座標系O''でのハンドの位置s^m _t''と位置変化△s^m _t''、及び、前景認識部５５からの物体基準座標系O''での操作対象物体の位置変化△s^o _t''と姿勢変化△q^o _t''を、操作モデルの学習データとして、その学習データに基づいて、操作モデル記憶部１６に記憶された操作モデルを更新する。

すなわち、操作モデル更新部５６は、学習データとしてのハンドの位置s^m _t''及び位置変化△s^m _t''、並びに、操作対象物体の位置変化△s^o _t''及び姿勢変化△q^o _tを、それぞれ、インデクス#d，#j，#k、及び、#hに離散化する。

その後、操作モデル更新部５６は、操作モデルの位置テーブル（図１９）から、学習データとしてのハンドの位置s^m _t''を離散化したインデクス#dが割り当てられた位置フィールドを特定し、その位置フィールドが有する頻度テーブル（図２０）から、学習データとしてのハンドの位置変化△s^m _t''、並びに、操作対象物体の位置変化△s^o _t''及び姿勢変化△q^o _tをそれぞれ離散化したインデクス#j，#k、及び、#hが割り当てられた頻度フィールドを、更新対象の更新対象フィールドとして特定する。

そして、操作モデル更新部５６は、更新対象フィールドに記憶された頻度、すなわち、学習データとしてのハンドの位置s^m _t''及び位置変化△s^m _t''、並びに、操作対象物体の位置変化△s^o _t''及び姿勢変化△q^o _t（を離散化したインデクス#d，#j，#k、及び、#h）が出現した出現頻度を、1だけインクリメントする。

図２４は、図２１のエージェントの処理を説明するフローチャートである。

ステップＳ１１では、エージェントのカメラ１２において、画像の撮影が行われることにより、実画像λ~_tが取得され、その実画像λ~_tが、見えモデル学習部１３、及び、操作モデル学習部１５に供給されて、処理は、ステップＳ１２に進む。

ステップＳ１２では、見えモデル学習部１３が、カメラ１２からの実画像λ~_tを用いて、見えモデル記憶部１４に記憶された前景見えモデルμⁱ、及び、背景見えモデルμ^wの学習を行う見えモデルの学習処理を行い、処理は、ステップＳ１３に進む。

ステップＳ１３では、操作モデル学習部１５は、カメラ１２からの実画像λ~_t、及び、見えモデル記憶部１５に記憶された前景見えモデルμⁱ等を用いて、操作モデル記憶部１６に記憶された操作モデルの学習を行う操作モデルの学習処理を行い、処理は、ステップＳ１４に進む。

ステップＳ１４では、アクチュエータ制御部１１、及び、目標状態生成部１７ないし物体基準座標変換部２２が、ハンドにアクションを行わせるアクションの出力処理を行い、処理は、ステップＳ１１に戻る。

なお、図２４では、カメラ１２において、実画像λ~_tが撮影されるごとに、見えモデルの学習処理（ステップＳ１２）、操作モデルの学習処理（ステップＳ１３）、及び、アクションの出力処理（ステップＳ１４）が行われるが、その他、例えば、十分な枚数の実画像を用いて、見えモデルの学習処理、及び、操作モデルの学習処理を行い、その後、カメラ１２において、実画像λ~_tが撮影されるごとに、アクションの出力処理を行うことができる。

すなわち、実画像を用いて、見えモデルの学習処理と、操作モデルの学習処理とを、いわば並列的に行うことを、十分な回数だけ繰り返し、その後、カメラ１２において、実画像λ~_tが撮影されるごとに、アクションの出力処理を行うことができる。

あるいは、十分な枚数の実画像を用いて、見えモデルの学習処理を行い、精度の高い前景見えモデルμⁱ、及び、背景見えモデルμ^wが得られてから、十分な枚数の実画像を用いて、操作モデルの学習処理を行い、その後、カメラ１２において、実画像λ~_tが撮影されるごとに、アクションの出力処理を行うことができる。

図２５は、図２４のステップＳ１２で行われる見えモデルの学習処理を説明するフローチャートである。

見えモデルの学習処理では、カメラ１２で撮影された実画像λ~_tが、見えモデル学習部１３（図２２）の前景状態推定部３１、及び、見えモデル更新部３２に供給される。

前景状態推定部３１は、ステップＳ２１において、実画像λ~_tに対して、まだ、注目モデルに選択していない前景モデル#i（前景見えモデルμⁱ）を、注目モデルに選択し、処理は、ステップＳ２２に進む。

ステップＳ２２では、前景状態推定部３１の状態パーティクル更新部４２が、状態パーティクル記憶部４３に記憶された時刻t-1のL個のパーティクルとしての前景#iの状態（以下、状態パーティクルともいう）zⁱ⁽¹⁾ _t-1ないしz^i(L) _t-1の中から、まだ、注目する注目状態パーティクルに選択していない１つの状態パーティクルz^i(l) _t-1を、注目状態パーティクルに選択して、処理は、ステップＳ２３に進む。

ステップＳ２３では、状態パーティクル更新部４２は、状態パーティクル記憶部４３に記憶された注目状態パーティクルz^i(l) _t-1から、式（１８）に従って、時刻tの注目状態パーティクルz^i(l) _tを予測する。

さらに、状態パーティクル更新部４２は、時刻tの注目状態パーティクルz^i(l) _tを、状態パーティクル記憶部４３に供給し、時刻t-1の注目状態パーティクルz^i(l) _t-1に代えて記憶させて、処理は、ステップＳ２３からステップＳ２４に進む。

ステップＳ２４では、前景状態推定部３１の推定観測値生成部４４が、見えモデル記憶部１４に記憶された前景見えモデルμⁱ、及び、背景見えモデルμ^wを用い、注目モデルになっている前景#iの状態が、状態パーティクル記憶部４３に記憶された注目状態パーティクルz^i(l) _tになっている観測画像（生成モデルにおいて観測される画像）λ^i(l) _tを、式（２０）に従って生成する。

推定観測値生成部４４は、観測画像λ^i(l) _tを、見えモデル尤度計算部４１に供給して、処理は、ステップＳ２４からステップＳ２５に進む。

ステップＳ２５では、見えモデル尤度計算部４１が、カメラ１２から前景状態推定部３１に供給された実画像λ~_tと、推定観測値生成部４４からの観測画像λ^i(l) _tとを用い、式（１９）に従って、注目モデルになっている前景#iが、注目状態パーティクルとしての状態z^i(l) _tになっているときの、前景#iの観測値xⁱ _tの観測尤度p(xⁱ _t|z^i(l) _t)を求める。

さらに、見えモデル尤度計算部４１は、観測尤度p(xⁱ _t|z^i(l) _t)を、状態パーティクル更新部４２に供給して、処理は、ステップＳ２５からステップＳ２６に進む。

ステップＳ２６では、状態パーティクル更新部４２が、見えモデル尤度計算部４１からの観測尤度p(xⁱ _t|z^i(l) _t)を用いて、式（１２）に従い、注目状態パーティクルz^i(l) _tの重みw^i(l) _tを求め、状態パーティクルz^i(l) _tと同様に、状態パーティクル記憶部４３に供給して記憶させ、処理は、ステップＳ２７に進む。

ステップＳ２７では、状態パーティクル更新部４２は、状態パーティクル記憶部４３に記憶された時刻t-1のL個の状態パーティクルzⁱ⁽¹⁾ _t-1ないしz^i(L) _t-1のすべてを、注目状態パーティクルに選択したかどうかを判定する。

ステップＳ２７において、L個の状態パーティクルzⁱ⁽¹⁾ _t-1ないしz^i(L) _t-1を、まだ、注目状態パーティクルに選択していないと判定された場合、処理は、ステップＳ２２に戻り、状態パーティクル更新部４２は、L個の状態パーティクルzⁱ⁽¹⁾ _t-1ないしz^i(L) _t-1のうちの、まだ、注目状態パーティクルに選択していない１つの状態パーティクルを、注目状態パーティクルに新たに選択して、以下、同様の処理が繰り返す。

また、ステップＳ２７において、L個の状態パーティクルzⁱ⁽¹⁾ _t-1ないしz^i(L) _t-1のすべてを、注目状態パーティクルに選択したと判定された場合、処理は、ステップＳ２８に進み、見えモデル更新部３２は、カメラ１２から供給される実画像λ~_tと、ステップＳ２３で状態パーティクル記憶部４３に記憶された時刻tの状態パーティクルz^i(l) _t、及び、ステップＳ２６で状態パーティクル記憶部４３に記憶された重みw^i(l) _tとを用いて、見えモデル記憶部１４に記憶された前景見えモデルμⁱを更新し、処理は、ステップＳ２９に進む。

ステップＳ２９では、見えモデル更新部３２は、カメラ１２から供給される実画像λ~_tと、ステップＳ２３で状態パーティクル記憶部４３に記憶された時刻tの状態パーティクルz^i(l) _t、及び、ステップＳ２６で状態パーティクル記憶部４３に記憶された重みw^i(l) _tとを用いて、見えモデル記憶部１４に記憶された背景見えモデルμ^wを更新し、処理は、ステップＳ３０に進む。

すなわち、見えモデル更新部３２は、式（２５）ないし式（３０）に従って、背景見えモデルμ^w（背景テクスチャモデルτ^w）を更新する。

ステップＳ３０では、エージェントは、実画像λ~_tに対して、N個の前景モデル#1ないし#Nのすべてを、注目モデルに選択したかどうかを判定する。

ステップＳ３０において、N個の前景モデル#1ないし#Nのすべてが、まだ、注目モデルに選択されていないと判定された場合、処理は、ステップＳ２１に戻る。ステップＳ２１では、前景状態推定部３１は、実画像λ~_tに対して、まだ、注目モデルに選択していない前景モデル#iの１つを、注目モデルに新たに選択し、以下、同様の処理が繰り返される。

また、ステップＳ３０において、N個の前景モデル#1ないし#Nのすべてが、注目モデルに選択されたと判定された場合、処理は、ステップＳ３１に進み、状態パーティクル更新部４２は、状態パーティクル記憶部４３に記憶された重みw^i(l) _tに対応する確率で、同じく状態パーティクル記憶部４３に記憶された状態パーティクルz^i(l) _tを選択するリサンプリングを行い、状態パーティクル記憶部４３に記憶された状態パーティクルz^i(l) _tを、リサンプリング結果に書き換えて、処理はリターンする。

なお、ステップＳ１３でのリサンプリングの結果得られる状態パーティクルz^i(l) _tは、次の時刻t+1の観測尤度p(xⁱ _t+1|z^i(l) _t+1)が得られた後に、式（１８）に従って、時刻t+1の状態zⁱ _t+1としての状態パーティクルz^i(l) _t+1を予測するときに用いられる。

また、図２５において、ステップＳ２２ないしＳ２７が、EMアルゴリズムのEステップに相当し、ステップＳ２８及びＳ２９が、EMアルゴリズムのMステップに相当する。

図２６は、図２４のステップＳ１３で行われる操作モデルの学習処理を説明するフローチャートである。

操作モデルの学習処理では、カメラ１２で撮影された実画像λ~_tが、操作モデル学習部１４（図２３）の前景状態推定部５１、並びに、物体基準画像生成部５２及び５３に供給される。

前景状態推定部５１は、カメラ１２からの実画像λ~_t、並びに、見えモデル記憶部１４に記憶された前景見えモデルμⁱ、及び、背景見えモデルμ^wを用いて、カメラ１２からの実画像λ~_t上の前景#iの状態zⁱ _tを推定し、アクチュエータ制御部１１、目標状態生成部１７、変化量算出部１８、世界座標変換部１９、及び、物体基準座標変換部２２に供給して、処理は、ステップＳ５２に進む。

すなわち、前景状態推定部５１は、図２２の前景状態推定部３１と同様に、カメラ１２からの実画像λ~_t上の前景#iの状態zⁱ _tの推定を行うことにより、その推定の結果として、状態zⁱ _tのL個のパーティクルz^i(l) _t及び重みw^i(l) _tを求める。

さらに、前景状態推定部５１は、例えば、L個のパーティクルz^i(l) _tの重み付け平均値を、そのパーティクルz^i(l) _tの重みw^i(l) _tを重みとして用いて求める。そして、前景状態推定部５１は、L個のパーティクルz^i(l) _tの重み付け平均値を、前景#iの状態zⁱ _tとして、アクチュエータ制御部１１、目標状態生成部１７、変化量算出部１８、世界座標変換部１９、及び、物体基準座標変換部２２に供給する。

ステップＳ５２では、物体基準画像生成部５２は、前景状態推定部５１からの現在時刻tの前景#iの状態zⁱ _tのうちの、現在時刻tの操作対象物体（の前景#o）の状態z^o _tとしての位置s^o _tと姿勢q^o _tを、現在時刻tの物体基準座標系O_t''（現在時刻tの実画像λ~_tに映る操作対象物体を基準とする物体基準座標系O''）の原点と姿勢として認識する。

さらに、物体基準画像生成部５２は、図１６及び図１７で説明したように、カメラ１２からの現在時刻tの実画像λ~_tから、現在時刻tの物体基準座標系O_t''を基準とする所定の範囲を、傾き画像として切り出す。

そして、物体基準画像生成部５２は、傾き画像を、現在時刻tの物体基準座標系O_t''の傾きが0になるように回転することにより、現在時刻物体基準画像PO_t''を生成し、前景認識部５４に供給して、処理は、ステップＳ５２からステップＳ５３に進む。

ステップＳ５３では、前景認識部５４は、物体基準画像生成部５２からの現在時刻物体基準画像PO_t''から、見えモデル記憶部１４に前景見えモデルμ^mが記憶されたハンドを認識することにより、図１７で説明したように、物体基準座標系O''でのハンドの位置s^m _t''と位置変化△s^m _t''を求め、操作モデル更新部５６に供給して、処理は、ステップＳ５４に進む。

ステップＳ５４では、物体基準画像生成部５３は、前景状態推定部５１からの前時刻t-△tの前景#iの状態zⁱ _t-△tのうちの、前時刻t-△tの操作対象物体（の前景#o）の状態z^o _t-△tとしての位置s^o _t-△tと姿勢q^o _t-△tを、前時刻t-△tの物体基準座標系O_t-△t''（前時刻t-△tの実画像λ~_t-△tに映る操作対象物体を基準とする物体基準座標系O''）の原点と姿勢として認識する。

さらに、物体基準画像生成部５３は、図１６及び図１７で説明したように、カメラ１２からの現在時刻tの実画像λ~_tから、前時刻t-△tの物体基準座標系O_t-△t''を基準とする所定の範囲を、傾き画像として切り出す。

そして、物体基準画像生成部５３は、傾き画像を、前時刻t-△tの物体基準座標系O_t-△t''の傾きが0になるように回転することにより、前時刻物体基準画像QO_t''を生成し、前景認識部５５に供給して、処理は、ステップＳ５４からステップＳ５５に進む。

ステップＳ５５では、前景認識部５５は、物体基準画像生成部５３からの前時刻物体基準画像QO_t''から、見えモデル記憶部１４に前景見えモデルμ^oが記憶された操作対象物体を認識することにより、図１７で説明したように、物体基準座標系O''での操作対象物体の位置変化△s^o _t''と姿勢変化△q^o _t''を求め、操作モデル更新部５６に供給して、処理は、ステップＳ５６に進む。

ステップＳ５６では、操作モデル更新部５６は、前景認識部５４からの物体基準座標系O''でのハンドの位置s^m _t''と位置変化△s^m _t''、及び、前景認識部５５からの物体基準座標系O''での操作対象物体の位置変化△s^o _t''と姿勢変化△q^o _t''を、操作モデルの学習データとして、その学習データに基づいて、操作モデル記憶部１６に記憶された操作モデルを更新して、処理はリターンする。

すなわち、操作モデル更新部５６は、操作モデル（図２０）の頻度テーブルの頻度フィールドのうちの、学習データとしてのハンドの位置s^m _t''及び位置変化△s^m _t''、並びに、操作対象物体の位置変化△s^o _t''及び姿勢変化△q^o _tに対応する頻度フィールド（ハンドの位置s^m _t''及び位置変化△s^m _t''、並びに、操作対象物体の位置変化△s^o _t''及び姿勢変化△q^o _tをそれぞれ離散化したインデクス#d，#j，#k、及び、#hが割り当てられた頻度フィールド）を、更新対象の更新対象フィールドとして特定し、その更新対象フィールドに記憶された頻度を、1だけインクリメントすることにより、操作モデルを更新する。

図２７は、図２４のステップＳ１４で行われるアクションの出力処理を説明するフローチャートである。

目標状態生成部１７は、操作モデル学習部１５から、各前景#iの状態zⁱ _tが供給されると、ステップＳ６１において、その各前景#iの状態zⁱ _tのうちの、操作対象物体（の前景#o）の状態z^o _tが、直前に生成された目標状態z^o,tgt _tに一致しているかどうかを判定する。

ステップＳ６１において、操作対象物体の状態z^o _tが、直前に生成された目標状態z^o,tgt _tに一致していると判定された場合、すなわち、操作対象物体が、直前に生成された目標状態z^o,tgt _tになっている場合、処理は、ステップＳ６２に進み、目標状態生成部１７は、新たな目標状態z^o,tgt _tを生成して、変化量算出部１８に供給し、処理は、ステップＳ６３に進む。

一方、ステップＳ６１において、操作対象物体の状態z^o _tが、直前に生成された目標状態z^o,tgt _tに一致していないと判定された場合、すなわち、操作対象物体が、直前に生成された目標状態z^o,tgt _tになっていない場合、目標状態生成部１７は、直前に生成された目標状態z^o,tgt _tを、変化量算出部１８に供給し（供給し続け）、処理は、ステップＳ６２をスキップして、ステップＳ６３に進む。

ステップＳ６３では、変化量算出部１８は、操作モデル学習部１５から供給される前景#iの状態zⁱ _tのうちの、操作対象物体の（現在の）状態z^o _tと、目標状態生成部１７からの操作対象物体の目標状態z^o,tgt _tとを用い、式（４０）に従って、世界座標系O上での目標状態変化dz^o,tgt _t（目標位置変化ds^o,tgt _t及び目標姿勢変化dq^o,tgt _t）を求めて、世界座標変換部１９に供給し、処理は、ステップＳ６４に進む。

ステップＳ６４では、世界座標変換部１９は、操作モデル学習部１５から供給される前景#iの状態zⁱ _tのうちの、操作対象物体の状態z^o _tのうちの姿勢q^o _tを用い、式（４２）に従って、変化量算出部１８からの世界座標系O上での目標状態変化dz^o,tgt _t（目標位置変化dq^o,tgt _t及び目標姿勢変化dq^o,tgt _t）を、式（４１）の物体基準座標系O''上での目標状態変化dz^o,tgt _t''（目標位置変化dq^o,tgt _t''及び目標姿勢変化dq^o,tgt _t''）に変換する。

そして、世界座標変換部１９は、式（４１）の物体基準座標系O''上での目標状態変化dz^o,tgt _t''を、変化量時分割部２０に供給して、処理は、ステップＳ６４からステップＳ６５に進む。

ステップＳ６５では、変化量時分割部２０は、式（４７）に従い、世界座標変換部１９からの目標状態変化dz^o,tgt _t''を、達成回数T_tgtに基づいて分割することで、単位変化量△z^o,tgt _t''＝（△s^o,tgt _t''，△q^o,tgt _t''）＝（ds^o,tgt _t''／T_tgt，dq^o,tgt _t''／T_tgt）を求める。

そして、変化量時分割部２０は、単位変化量△z^o,tgt _t''を、アクション決定部２１に供給して、処理は、ステップＳ６５からステップＳ６６に進む。

ステップＳ６６では、アクション決定部２１は、操作モデル記憶部１６に記憶された操作モデルを用い、変化量時分割部２０からの単位変化量△z^o,tgt _t''だけの状態変化としての位置変化△s^o,tgt _t''＝ds^o,tgt _t''／T_tgt及び姿勢変化△q^o,tgt _t''＝dq^o,tgt _t''／T_tgtを操作対象物体に生じさせる頻度（確率）が最も高い物体基準座標系O''上のハンドの位置s^m _t''及び位置変化△s^m _t''を、ハンドのアクションu^m _t''に決定し、物体基準座標変換部２２に供給する。

その後、処理は、ステップＳ６６からステップＳ６７に進み、物体基準座標変換部２２は、操作モデル学習部１５から供給される前景#iの状態zⁱ _tのうちの、操作対象物体の状態z^o _tのうちの姿勢q^o _tを用い、式（３８）に従って、アクション決定部２１からのハンドのアクションu^m _t''、すなわち、物体基準座標系O''で表現されるアクションアクションu^m _t''を、世界座標系Oで表現されるアクションu^m _tに変換する。

そして、物体基準座標変換部２２は、以上のようにして得られたアクションu^m _t、すなわち、単位変化量△z^o,tgt _t''だけの状態変化を操作対象物体に生じさせる（可能性が高い）ハンドのアクションu^m _tを、アクチュエータ制御部１１に供給して、処理は、ステップＳ６７からステップＳ６８に進む。

ステップＳ６８では、アクチュエータ制御部１１は、操作モデル学習部１５からの前景#iの状態zⁱ _tのうちの、ハンド（の前景#m）の状態z^m _tと、物体基準座標変換部２２からのアクションu^m _tとに基づいて、エージェントのアーム等を駆動するアクチュエータを制御して、処理はリターンする。

ステップＳ６８でのアクチュエータ制御部１１によるアクチュエータの制御により、アームの先端に取り付けられたハンドは、アクションu^m _tを行う。

以上のように、エージェントでは、操作対象物体とハンドとが映る実画像λ~_tを用いて、操作対象物体を基準とする物体基準座標系O''の各位置において、ハンドの状態としての位置s^m _tが変化したときの、ハンドの位置s^m _t及び位置変化△s^m _tと、ハンドの状態変化によって生じる操作対象物体の状態変化としての位置変化△s^o _t及び姿勢変化△q^o _tとを対応付ける操作モデルの学習を行うので、汎用性が高い操作モデルを提供することができる。

すなわち、操作モデルでは、物体基準座標系O''上のハンドの位置s^m _t''と位置変化△s^m _t''、つまり、操作対象物体から見たハンドの位置s^m _t''と位置変化△s^m _t''に対して、操作対象物体に生じる物体基準座標系O''上の位置変化△s^o _t''及び姿勢変化△q^o _t''が対応付けられるので、世界座標系O上のハンドの位置s^m _tと位置変化△s^m _tに対して、操作対象物体に生じる世界座標系O上の位置変化△s^o _t及び姿勢変化△q^o _tを対応付ける場合に比較して、少ない学習データ（経験）で、ハンドの位置s^m _t''及び位置変化△s^m _t''と、操作対象物体に生じる位置変化△s^o _t''及び姿勢変化△q^o _t''との関係を獲得することができ、短時間の学習で、物体を正確に操作することができる操作モデルを得ることができる。

さらに、操作モデルにおいて、物体基準座標系O''上のハンドの各位置s^m _t''及び各位置変化△s^m _t''について、操作対象物体に生じる位置変化△s^o _t''及び姿勢変化△q^o _t''との関係が獲得されていれば、操作対象物体が、世界座標系O上で未知の位置や姿勢で置かれていても、操作モデルを使い回して、操作対象物体を正確に操作することができる物体基準座標系O''上のハンドのアクションu^m _t''としての位置s^m _t''及び位置変化△s^m _t''、ひいては、世界座標系O上のハンドのアクションu^m _tを決定することができる。

また、操作モデルについては、追加学習を行うことができるので、環境の変化等に対して、操作モデルを、適応的に更新することができ、変化後の環境と操作モデルとの間に、齟齬（食い違い）が生じることを防止することができる。

さらに、本実施の形態では、前景見えモデル及び背景見えモデル、並びに、操作モデルの学習が行われるので、前景となるハンド及び操作対象物体の幾何学的な形状や見え、背景となる環境の見え、操作対象物体の運動に関して、人手によって、モデルを作り込む必要がなく、そのようなモデルの作り込みの手間を省くことができる。

［第6章シミュレーション］

図２８は、コンピュータにおいて、背景上に、操作対象物体の前景#o、及び、ハンドの前景#mを合成することにより作成した画像を、実画像λ~_tとして用いた行った、見えモデルの学習処理、及び、操作モデルの学習処理のシミュレーションの結果を、模式的に示す図である。

シミュレーションでは、L字型の操作対象物体の前景#oが、円形のハンドの前景#mによって操作される様子が映った画像を、実画像λ~_tとして用いて、見えモデルの学習処理、及び、操作モデルの学習処理を行った。

図２８Ａは、見えモデルの学習処理、及び、操作モデルの学習処理のシミュレーションで用いた時刻tの実画像λ~_tを示している。

図２８Ｂは、見えモデルの学習処理により得られた、操作対象物体の前景#oの前景見えモデルμ^oと、ハンドの前景#mの前景見えモデルμ^mとを示している。

図２８Ｃは、見えモデルの学習処理により得られた、背景見えモデルμ^w＝τ^wを示している。

図２８Ｄは、図２８Ａの実画像λ~_tから、操作対象物体（の前景#o）、及び、ハンド（の前景#m）を認識した認識結果と、実画像λ~_tから、傾き画像として切り出される所定の範囲とを示している。

図２８Ｄにおいて、点線で囲む部分B1は、実画像λ~_tから、操作対象物体を認識する状態推定を行うことによって得られる状態（位置及び姿勢）で、操作対象物体の前景見えモデルμ^oを配置した場合の、その前景見えモデルμ^oの外縁を表す。

また、点線で囲む部分B2は、実画像λ~_tから、ハンドを認識する状態推定を行うことによって得られる状態で、ハンドの前景見えモデルμ^mを配置した場合の、その前景見えモデルμ^mの外縁を表す。

さらに、点線で囲む部分B3は、点線で囲む部分B1及びB2のように、操作対象物体及びハンドが認識された場合に、実画像λ~_tから、その時刻t（現在時刻t）の物体基準座標系O_t''を基準として切り出される所定の範囲（傾き画像）を示している。

図２８Ｅは、図２８Ａの実画像λ~_tから生成された現在時刻物体基準画像PO_t''を示している。

図２８Ｆは、図２８Ｅの現在時刻物体基準画像PO_t''から、ハンド（の前景#m）を認識した認識結果を示している。

図２８Ｆにおいて、点線で囲む部分B11は、現在時刻物体基準画像PO_t''から、ハンドを認識する状態推定を行うことによって得られる状態（位置及び姿勢）で、ハンドの前景見えモデルμ^mを配置した場合の、その前景見えモデルμ^mの外縁を表す。

図２８Ｇは、図２８Ａの実画像λ~_tから生成された前時刻物体基準画像QO_t''を示している。

図２８Ｈは、図２８Ｇの前時刻物体基準画像QO_t''から、操作対象物体（の前景#o）を認識した認識結果を示している。

図２８Ｈにおいて、点線で囲む部分B21は、前時刻物体基準画像QO_t''から、操作対象物体を認識する状態推定を行うことによって得られる状態（位置及び姿勢）で、操作対象物体の前景見えモデルμ^oを配置した場合の、その前景見えモデルμ^oの外縁を表す。

なお、図２８のシミュレーションでは、見えモデルの学習処理を、前景見えモデルμⁱ及び背景見えモデルμ^wが収束するまで行い、その後、その前景見えモデルμⁱ及び背景見えモデルμ^wを用いて、操作モデルの学習処理を行ったため、操作モデルの学習処理の当初から、ハンドや操作対象物体について、精度の高い状態推定の結果が得られた。

１枚の実画像λ~_tに対して、見えモデルの学習処理を行い、その後、操作モデルの学習処理を行うことを繰り返す場合には、前景見えモデルμⁱ及び背景見えモデルμ^wが、ある程度収束するまでは、操作モデルの学習処理でのハンドや操作対象物体の状態推定の結果の精度は、低くなるが、前景見えモデルμⁱ及び背景見えモデルμ^wが、徐々に収束するにつれて、操作モデルの学習処理でのハンドや操作対象物体の状態推定の結果の精度は、向上していく。

図２９は、操作モデルを用いたアクションの出力処理のシミュレーションの結果を、模式的に示す図である。

図２９Ａは、アクションの出力処理のシミュレーションで用いた時刻tの実画像λ~_tを示している。

図２９Ｂは、図２９Ａの実画像λ~_tからのハンド及び操作対象物体の状態推定の結果としての状態、並びに、目標状態z^o,tgt _t、及び、目標状態変化dz^o,tgt _tを示している。

すなわち、図２９Ｂは、世界座標系O上のハンドの状態としての位置s^m _t及び姿勢q^m _t、操作対象物体の状態としての位置s^o _t及び姿勢q^o _t、目標状態z^o,tgt _tとしての位置s^o,tgt _t及び姿勢q^o,tgt _t、並びに、目標状態変化dz^o,tgt _tを示している。

なお、図２９Ｂにおいて、線分は、姿勢、又は、目標状態変化を表し、丸印及びバツ印は、位置を表す。図２９Ｃにおいても、同様である。

図２９Ｃは、物体基準座標系O''上のハンドの位置s^m _t''及び位置変化△s^m _t''、並びに、目標状態変化dz^o,tgt _t''を示している。物体基準座標系O''の原点は、操作対象物体の重心になっている。

図２９Ｄは、操作モデルを用いてのハンドのアクションu^m _t''の決定の様子を示す図である。

エージェントは、単位変化量△z^o,tgt _t''だけの状態変化としての位置変化ds^o,tgt _t''／T_tgt及び姿勢変化dq^o,tgt _t''／T_tgtを、それぞれ離散化し、位置変化ds^o,tgt _t''／T_tgt及び姿勢変化dq^o,tgt _t''／T_tgtを離散化したインデクス#k及び#hの値#k^*及び#h^*を求める。

さらに、エージェントは、操作モデル（図２０）としての位置テーブルの各位置s^m _t''を離散化した各インデクス#dの位置フィールドが有する頻度テーブルにおいて、インデクス#k及び#hが、それぞれ、値#k^*及び#h^*である頻度フィールドの中で、頻度フィールドに記憶されている頻度が最大の最大頻度フィールドを選択する。

図２９Ｄでは、頻度テーブルにおいて、黒く塗りつぶしてある頻度フィールドが、最大頻度フィールドとして選択されている。

エージェントは、最大頻度フィールドに割り当てられている、ハンドの位置変化△s^m _t''を離散化したインデクス#jの値#j^*を求めるとともに、最大頻度フィールドを含む頻度テーブルを有する位置テーブルの位置フィールド（図２９Ｄにおいて斜線を付してある部分）に割り当てられている、ハンドの位置s^m _t''を離散化したインデクス#dの値#d^*を求める。

そして、エージェントは、インデクス#d^*に離散化されるハンドの位置の範囲の代表値を、ハンドのアクションu^m _t''のコンポーネントとなる位置s^m _t''に決定するとともに、インデクス#j^*に離散化されるハンドの位置変化の範囲の代表値を、ハンドのアクションu^m _t''のコンポーネントとなる位置変化△s^m _t''に決定する。

ここで、位置テーブルにおいて、最大頻度フィールドを含む頻度テーブルを有する位置フィールド（図２９Ｄにおいて斜線を付してある部分）が、操作対象物体を目標状態にするためにハンドを動かすときの、そのハンドの動きが開始される位置（物体基準座標系O''上の位置）に対応する。

なお、シミュレーションでは、横×縦が20×20個の位置フィールドに区切られた位置テーブルを採用した。

図３０は、操作モデルを用いたアクションの出力処理のシミュレーションの他の結果を示す図である。

図３０Ａは、ハンドによって操作される操作対象物体の移動軌跡（世界座標系O上の移動軌跡）を示している。

図３０Ｂは、ハンドによって操作される操作対象物体の位置の誤差、及び、姿勢の誤差を示している。

図３０Ｂにおいて、横軸は、ハンドを動かした回数（ハンドのアクションを決定した回数）である試行ステップ数を表しており、縦軸は、目標状態に対する、操作対象物体の位置の誤差、及び、姿勢の誤差を示している。

エージェントは、位置と姿勢の両方を、同時に目標状態に到達させるように、ハンドを動かしており、そのため、図３０Ａに示すように、操作対象物体の移動軌道は、操作対象物体の最初の位置から目標状態としての位置までの最短の軌道に対して、左右に振れた軌跡になっている。

シミュレーションでは、操作対象物体の位置の誤差、及び、姿勢の誤差は、ハンドによって操作されるごとに、傾向として減少していくこと、及び、操作対象物体は、先に、目標状態としての位置に到達し、その後、目標状態としての位置と姿勢の両方に到達することが確認された。

図３０Ｂでは、操作対象物体は、約350ステップ（試行ステップ数）で、目標状態としての位置に到達し、600ステップで、目標状態としての位置及び姿勢の両方に到達している。

［第7章本技術を適用したコンピュータの説明］

次に、上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。

そこで、図３１は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。

プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク１０５やROM１０３に予め記録しておくことができる。

あるいはまた、プログラムは、リムーバブル記録媒体１１１に格納（記録）しておくことができる。このようなリムーバブル記録媒体１１１は、いわゆるパッケージソフトウエアとして提供することができる。ここで、リムーバブル記録媒体１１１としては、例えば、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory)，MO(Magneto Optical)ディスク，DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリ等がある。

なお、プログラムは、上述したようなリムーバブル記録媒体１１１からコンピュータにインストールする他、通信網や放送網を介して、コンピュータにダウンロードし、内蔵するハードディスク１０５にインストールすることができる。すなわち、プログラムは、例えば、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送することができる。

コンピュータは、CPU(Central Processing Unit)１０２を内蔵しており、CPU１０２には、バス１０１を介して、入出力インタフェース１１０が接続されている。

CPU１０２は、入出力インタフェース１１０を介して、ユーザによって、入力部１０７が操作等されることにより指令が入力されると、それに従って、ROM(Read Only Memory)１０３に格納されているプログラムを実行する。あるいは、CPU１０２は、ハードディスク１０５に格納されたプログラムを、RAM(Random Access Memory)１０４にロードして実行する。

これにより、CPU１０２は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU１０２は、その処理結果を、必要に応じて、例えば、入出力インタフェース１１０を介して、出力部１０６から出力、あるいは、通信部１０８から送信、さらには、ハードディスク１０５に記録等させる。

なお、入力部１０７は、キーボードや、マウス、マイク等で構成される。また、出力部１０６は、LCD(Liquid Crystal Display)やスピーカ等で構成される。

ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含む。

また、プログラムは、１のコンピュータ（プロセッサ）により処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。

さらに、本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

また、本実施の形態では、ハンドの姿勢が変化しないこととしたが、本技術は、ハンドの姿勢が変化する場合にも適用することができる。

さらに、本技術は、任意の第１の物体を、他の任意の第２の物体によって操作する場合に適用することができる。

また、本実施の形態では、重心原点座標系O''（図１３）を、操作モデルを扱う物体基準座標系として用いたが、かかる物体基準座標系としては、その他、例えば、ローカル座標系O'（図１３）を採用することができる。

なお、本技術は、以下のような構成をとることができる。

［１］
第１の物体と第２の物体とが映る、実際に観測される画像である実画像を用いて、前記第１の物体を基準とする物体基準座標系の各位置において、前記第２の物体の状態が変化したときの、前記第２の物体の位置及び状態変化と、前記第２の物体の状態変化によって生じる前記第１の物体の状態変化とを対応付ける、前記第２の物体による前記第１の物体の操作に関する操作モデルの学習を行う操作モデル学習部を備える
情報処理装置。
［２］
前記操作モデルは、前記物体基準座標系の各位置について、その位置から、前記第２の物体の各状態変化が生じたときに、前記第１の物体の各状態変化が生じる頻度を表す頻度テーブルを含む
［１］に記載の情報処理装置。
［３］
前記操作モデル学習部は、
前記物体基準座標系の所定の位置において、前記第２の物体に、所定の状態変化が生じることによって、前記第１の物体に、他の所定の状態変化が生じた場合に、前記頻度テーブルの、前記所定の位置において生じた前記第２の物体の前記所定の状態変化によって、前記第１の物体に前記他の所定の状態変化が生じる頻度をインクリメントすることにより、前記操作モデルを更新する操作モデル更新部
を有する
［２］に記載の情報処理装置。
［４］
前記操作モデル学習部は、
現在時刻の実画像から、前記現在時刻の実画像に映る前記第１の物体を基準とする前記物体基準座標系である現在時刻の物体基準座標系を基準とする所定の範囲を切り出し、前記現在時刻の物体基準座標系の傾きが0になるように回転することにより得られる画像である現在時刻物体基準画像を生成する第１の物体基準画像生成部と、
前記現在時刻物体基準画像から、前記第２の物体を認識することにより、その第２の物体の位置と状態変化を、前記物体基準座標系での前記第２の物体の位置と状態変化として求める第１の認識部と、
前記現在時刻の実画像から、前記現在時刻の直前の時刻である前時刻の実画像に映る前記第１の物体を基準とする前記物体基準座標系である前時刻の物体基準座標系を基準とする所定の範囲を切り出し、前記前時刻の物体基準座標系の傾きが0になるように回転することにより得られる画像である前時刻物体基準画像を生成する第２の物体基準画像生成部と、
前記前時刻物体基準画像から、前記第１の物体を認識することにより、その第１の物体の状態を、前記物体基準座標系での前記第１の物体の状態変化として求める第２の認識部と
をさらに有し、
前記操作モデル更新部は、前記第１の認識部で求められる前記物体基準座標系での前記第２の物体の位置と状態変化、及び、前記第２の認識部で求められる前記物体基準座標系での前記第１の物体の状態変化に基づいて、前記操作モデルを更新する
［３］に記載の情報処理装置。
［５］
前記操作モデルを用いて、前記第１の物体の状態を所定の目標状態にするように、前記第１の物体を操作するための前記第２の物体のアクションを決定するアクション決定部をさらに備える
［２］ないし［４］のいずれかに記載の情報処理装置。
［６］
前記アクション決定部は、前記操作モデルを用いて、前記第１の物体の状態が前記所定の目標状態になるために現在時刻に必要な前記第１の物体の状態の変化量である単位変化量だけの状態変化を前記第１の物体に生じさせる頻度が最も高い前記物体基準座標系上の前記第２の物体の位置と状態変化とを、前記第２の物体のアクションに決定する
［５］に記載の情報処理装置。
［７］
前記実画像を用いて、前記実画像の、前記第１の物体と前記第２の物体とのそれぞれに対応する前景の見えのモデルである前景見えモデル、及び、背景の見えのモデルである背景見えモデルの学習を行う見えモデル学習部をさらに備える
［１］ないし［６］のいずれかに記載の情報処理装置。
［８］
前記見えモデル学習部は、
前記実画像を用いて、前記前景の状態を推定する前景状態推定部と、
前記前景の状態の推定結果を用いて、前記前景見えモデル、及び、前記背景見えモデルを更新する見えモデル更新部と
を有する
［７］に記載の情報処理装置。
［９］
前記背景見えモデルは、前記背景のテクスチャを表す背景テクスチャモデルを含み、
前記前景見えモデルは、前記前景のテクスチャを表す前景テクスチャモデルと、前記前景の形状を表す前景形状モデルとを含み、
前記前景の状態は、前記前景の位置、及び、前記位置が変化する速度、並びに、前記前景の姿勢、及び、前記姿勢が変化する速度を含む
［８］に記載の情報処理装置。
［１０］
前記背景見えモデル、及び、前記前景見えモデルは、パーティクルフィルタを用いたEMアルゴリズムに従って更新される
［９］に記載の情報処理装置。
［１１］
前記前景状態推定部は、前記前景の状態を表すパーティクルである状態パーティクルの重みと、前記状態パーティクルの遷移先とを算出する処理を、前記パーティクルフィルタを用いたEMアルゴリズムのEステップとして行う
［１０］に記載の情報処理装置。
［１２］
前記前景状態推定部は、
前記前景の状態が、前記状態パーティクルが表す状態である場合に、画像の観測値を生成する生成モデルにおいて観測される観測値の観測尤度に対応する値を、前記状態パーティクルの重みとして算出するとともに、
前記状態パーティクルが、前記状態パーティクルが表す前記前景の状態のうちの前記位置変化の速度、及び、前記姿勢変化の速度に従い、かつ、確率的に揺らぎながら遷移することとして、前記状態パーティクルの遷移先を算出し、
前記生成モデルでは、
前記前景見えモデルが表す画像上の点については、前記前景テクスチャモデルが表すテクスチャと、前記背景テクスチャモデルが表すテクスチャとを、前記前景形状モデルをα値としてαブレンディングし、
前記前景見えモデルが表す画像上の点以外の点については、前記背景テクスチャモデルが表すテクスチャを採用する
ことにより、前記生成モデルにおいて観測される前記画像の観測値が生成される
［１１］に記載の情報処理装置。
［１３］
前記見えモデル更新部は、
前記状態パーティクルが表す状態に従って、前記実画像から画像を切り出し、前記実画像から切り出した画像である切り出し画像を、前記状態パーティクルの重みに従って重み付け加算することにより、前記前景テクスチャモデルを更新する処理、
前記状態パーティクルが表す状態に従って、前記実画像から、前記状態に対応する前景を除去し、前記前景を除去した実画像を、前記状態パーティクルの重みに従って重み付け加算することにより、前記背景テクスチャモデルを更新する処理、
及び、前記前景テクスチャモデルが表すテクスチャの各画素が前景であることの尤度、及び、背景であることの尤度を求め、前記前景であることの尤度、及び、背景であることの尤度を用いて、前記前景テクスチャモデルが表すテクスチャの各画素が前景である確率を求めることにより、前記前景形状モデルを更新する処理
を、前記パーティクルフィルタを用いたEMアルゴリズムのMステップとして行う
［１１］又は［１２］に記載の情報処理装置。
［１４］
前記見えモデル更新部は、
前記切り出し画像を、前記状態パーティクルの重みに従って重み付け加算した重み付け加算値を、所定時間分だけ平均化することにより、前記前景テクスチャモデルを更新するとともに、
前記前景を除去した実画像を、前記状態パーティクルの重みに従って重み付け加算した重み付け加算値を、所定時間分だけ平均化することにより、前記背景テクスチャモデルを更新する
［１３］に記載の情報処理装置。
［１５］
第１の物体と第２の物体とが映る、実際に観測される画像である実画像を用いて、前記第１の物体を基準とする物体基準座標系の各位置において、前記第２の物体の状態が変化したときの、前記第２の物体の位置及び状態変化と、前記第２の物体の状態変化によって生じる前記第１の物体の状態変化とを対応付ける、前記第２の物体による前記第１の物体の操作に関する操作モデルの学習を行うステップを含む
情報処理方法。
［１６］
第１の物体と第２の物体とが映る、実際に観測される画像である実画像を用いて、前記第１の物体を基準とする物体基準座標系の各位置において、前記第２の物体の状態が変化したときの、前記第２の物体の位置及び状態変化と、前記第２の物体の状態変化によって生じる前記第１の物体の状態変化とを対応付ける、前記第２の物体による前記第１の物体の操作に関する操作モデルの学習を行う操作モデル学習部
として、コンピュータを機能させるためのプログラム。

１１アクチュエータ制御部，１２カメラ，１３見えモデル学習部，１４見えモデル記憶部，１５操作モデル学習部，１６操作モデル記憶部，１７目標状態生成部，１８変化量算出部，１９世界座標変換部，２０変化量時分割部，２１アクション決定部，２２物体基準座標変換部，３１前景状態推定部，３２見えモデル更新部，４１見えモデル尤度計算部，４２状態パーティクル更新部，４３状態パーティクル記憶部，４４推定観測値生成部，５１前景状態推定部，５２，５３物体基準画像生成部，５４，５５前景認識部，５６操作モデル更新部，１０１バス，１０２ CPU，１０３ ROM，１０４ RAM，１０５ハードディスク，１０６出力部，１０７入力部，１０８通信部，１０９ドライブ，１１０入出力インタフェース，１１１リムーバブル記録媒体

Claims

第１の物体と第２の物体とが映る、実際に観測される画像である実画像を用いて、前記第１の物体を基準とする物体基準座標系の各位置において、前記第２の物体の状態が変化したときの、前記第２の物体の位置及び状態変化と、前記第２の物体の状態変化によって生じる前記第１の物体の状態変化とを対応付ける、前記第２の物体による前記第１の物体の操作に関する操作モデルの学習を行う操作モデル学習部を備える
情報処理装置。
前記操作モデルは、前記物体基準座標系の各位置について、その位置から、前記第２の物体の各状態変化が生じたときに、前記第１の物体の各状態変化が生じる頻度を表す頻度テーブルを含む
請求項１に記載の情報処理装置。
前記操作モデル学習部は、
前記物体基準座標系の所定の位置において、前記第２の物体に、所定の状態変化が生じることによって、前記第１の物体に、他の所定の状態変化が生じた場合に、前記頻度テーブルの、前記所定の位置において生じた前記第２の物体の前記所定の状態変化によって、前記第１の物体に前記他の所定の状態変化が生じる頻度をインクリメントすることにより、前記操作モデルを更新する操作モデル更新部
を有する
請求項２に記載の情報処理装置。
前記操作モデル学習部は、
現在時刻の実画像から、前記現在時刻の実画像に映る前記第１の物体を基準とする前記物体基準座標系である現在時刻の物体基準座標系を基準とする所定の範囲を切り出し、前記現在時刻の物体基準座標系の傾きが0になるように回転することにより得られる画像である現在時刻物体基準画像を生成する第１の物体基準画像生成部と、
前記現在時刻物体基準画像から、前記第２の物体を認識することにより、その第２の物体の位置と状態変化を、前記物体基準座標系での前記第２の物体の位置と状態変化として求める第１の認識部と、
前記現在時刻の実画像から、前記現在時刻の直前の時刻である前時刻の実画像に映る前記第１の物体を基準とする前記物体基準座標系である前時刻の物体基準座標系を基準とする所定の範囲を切り出し、前記前時刻の物体基準座標系の傾きが0になるように回転することにより得られる画像である前時刻物体基準画像を生成する第２の物体基準画像生成部と、
前記前時刻物体基準画像から、前記第１の物体を認識することにより、その第１の物体の状態を、前記物体基準座標系での前記第１の物体の状態変化として求める第２の認識部と
をさらに有し、
前記操作モデル更新部は、前記第１の認識部で求められる前記物体基準座標系での前記第２の物体の位置と状態変化、及び、前記第２の認識部で求められる前記物体基準座標系での前記第１の物体の状態変化に基づいて、前記操作モデルを更新する
請求項３に記載の情報処理装置。
前記操作モデルを用いて、前記第１の物体の状態を所定の目標状態にするように、前記第１の物体を操作するための前記第２の物体のアクションを決定するアクション決定部をさらに備える
請求項３に記載の情報処理装置。
前記アクション決定部は、前記操作モデルを用いて、前記第１の物体の状態が前記所定の目標状態になるために現在時刻に必要な前記第１の物体の状態の変化量である単位変化量だけの状態変化を前記第１の物体に生じさせる頻度が最も高い前記物体基準座標系上の前記第２の物体の位置と状態変化とを、前記第２の物体のアクションに決定する
請求項５に記載の情報処理装置。
前記実画像を用いて、前記実画像の、前記第１の物体と前記第２の物体とのそれぞれに対応する前景の見えのモデルである前景見えモデル、及び、背景の見えのモデルである背景見えモデルの学習を行う見えモデル学習部をさらに備える
請求項３に記載の情報処理装置。
前記見えモデル学習部は、
前記実画像を用いて、前記前景の状態を推定する前景状態推定部と、
前記前景の状態の推定結果を用いて、前記前景見えモデル、及び、前記背景見えモデルを更新する見えモデル更新部と
を有する
請求項７に記載の情報処理装置。
前記背景見えモデルは、前記背景のテクスチャを表す背景テクスチャモデルを含み、
前記前景見えモデルは、前記前景のテクスチャを表す前景テクスチャモデルと、前記前景の形状を表す前景形状モデルとを含み、
前記前景の状態は、前記前景の位置、及び、前記位置が変化する速度、並びに、前記前景の姿勢、及び、前記姿勢が変化する速度を含む
請求項８に記載の情報処理装置。
前記背景見えモデル、及び、前記前景見えモデルは、パーティクルフィルタを用いたEMアルゴリズムに従って更新される
請求項９に記載の情報処理装置。
前記前景状態推定部は、前記前景の状態を表すパーティクルである状態パーティクルの重みと、前記状態パーティクルの遷移先とを算出する処理を、前記パーティクルフィルタを用いたEMアルゴリズムのEステップとして行う
請求項１０に記載の情報処理装置。
前記前景状態推定部は、
前記前景の状態が、前記状態パーティクルが表す状態である場合に、画像の観測値を生成する生成モデルにおいて観測される観測値の観測尤度に対応する値を、前記状態パーティクルの重みとして算出するとともに、
前記状態パーティクルが、前記状態パーティクルが表す前記前景の状態のうちの前記位置変化の速度、及び、前記姿勢変化の速度に従い、かつ、確率的に揺らぎながら遷移することとして、前記状態パーティクルの遷移先を算出し、
前記生成モデルでは、
前記前景見えモデルが表す画像上の点については、前記前景テクスチャモデルが表すテクスチャと、前記背景テクスチャモデルが表すテクスチャとを、前記前景形状モデルをα値としてαブレンディングし、
前記前景見えモデルが表す画像上の点以外の点については、前記背景テクスチャモデルが表すテクスチャを採用する
ことにより、前記生成モデルにおいて観測される前記画像の観測値が生成される
請求項１１に記載の情報処理装置。
前記見えモデル更新部は、
前記状態パーティクルが表す状態に従って、前記実画像から画像を切り出し、前記実画像から切り出した画像である切り出し画像を、前記状態パーティクルの重みに従って重み付け加算することにより、前記前景テクスチャモデルを更新する処理、
前記状態パーティクルが表す状態に従って、前記実画像から、前記状態に対応する前景を除去し、前記前景を除去した実画像を、前記状態パーティクルの重みに従って重み付け加算することにより、前記背景テクスチャモデルを更新する処理、
及び、前記前景テクスチャモデルが表すテクスチャの各画素が前景であることの尤度、及び、背景であることの尤度を求め、前記前景であることの尤度、及び、背景であることの尤度を用いて、前記前景テクスチャモデルが表すテクスチャの各画素が前景である確率を求めることにより、前記前景形状モデルを更新する処理
を、前記パーティクルフィルタを用いたEMアルゴリズムのMステップとして行う
請求項１１に記載の情報処理装置。
前記見えモデル更新部は、
前記切り出し画像を、前記状態パーティクルの重みに従って重み付け加算した重み付け加算値を、所定時間分だけ平均化することにより、前記前景テクスチャモデルを更新するとともに、
前記前景を除去した実画像を、前記状態パーティクルの重みに従って重み付け加算した重み付け加算値を、所定時間分だけ平均化することにより、前記背景テクスチャモデルを更新する
請求項１３に記載の情報処理装置。
第１の物体と第２の物体とが映る、実際に観測される画像である実画像を用いて、前記第１の物体を基準とする物体基準座標系の各位置において、前記第２の物体の状態が変化したときの、前記第２の物体の位置及び状態変化と、前記第２の物体の状態変化によって生じる前記第１の物体の状態変化とを対応付ける、前記第２の物体による前記第１の物体の操作に関する操作モデルの学習を行うステップを含む
情報処理方法。
第１の物体と第２の物体とが映る、実際に観測される画像である実画像を用いて、前記第１の物体を基準とする物体基準座標系の各位置において、前記第２の物体の状態が変化したときの、前記第２の物体の位置及び状態変化と、前記第２の物体の状態変化によって生じる前記第１の物体の状態変化とを対応付ける、前記第２の物体による前記第１の物体の操作に関する操作モデルの学習を行う操作モデル学習部
として、コンピュータを機能させるためのプログラム。