JP2012212323A

JP2012212323A - 情報処理装置、情報処理方法、及び、プログラム

Info

Publication number: JP2012212323A
Application number: JP2011077697A
Authority: JP
Inventors: Kuniaki Noda; 邦昭野田; Takashi Hasuo; 高志蓮尾; Kenta Kawamoto; 献太河本; Kotaro Sabe; 浩太郎佐部
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2011-03-31
Filing date: 2011-03-31
Publication date: 2012-11-01
Also published as: US20120250981A1; CN102737279A; US9104980B2

Abstract

【課題】エージェントがアクションを行う環境中の物体の学習を、容易に行う。
【解決手段】分離学習モデルは、画像の背景のモデルである背景モデルと、背景上を移動可能な、画像の前景のモデルである１以上の前景モデルとを有する。背景モデルは、背景の見えを表す背景見えモデルを有する。１以上の前景モデルのうちの少なくとも１つは、前景に対応する物体が行うアクションによって、背景上の前景の位置に対応する状態が遷移する、アクションごとの遷移確率と、前景の見えを表す前景見えモデルとを有する。以上のような分離学習モデルの学習が、物体が行うアクションと画像の観測値とを学習データとして用いて行われる。本技術は、例えば、物体を操作するエージェントの学習を行う場合等に適用できる。
【選択図】図３

Description

本技術は、情報処理装置、情報処理方法、及び、プログラムに関し、特に、例えば、ロボット等の、アクションを行うことが可能なエージェントがアクションを行う環境中の物体等の学習を、容易に行うことができるようにする情報処理装置、情報処理方法、及び、プログラムに関する。

従来、ある環境をカメラで撮影することによって得られる画像を用いて、その環境中の物体の学習（や認識）を行うには、学習対象（や認識対象）の画像領域の切り出しを行う必要がある。

学習対象の画像領域を切り出す方法としては、主に学習対象の外見に関する事前知識を用いるアプローチ（特許文献１）と、対象物体の運動を利用するアプローチ（特許文献２,３，４）がある。

外見に関する事前知識を用いるアプローチでは、物体を特定するためのマーキングや、あらかじめ学習対象（対象物体）に関して学習を行うことで認識モデルを作っておくことが行われる。

対象物体の運動を利用するアプローチでは、画像差分やオプティカルフローなどを用いて運動している画像領域のみが抽出される。

但し、運動している画像領域の抽出では、背景（画像）が静止していることが求められる。したがって、例えば、画像を撮影するカメラが、各種のアクションを行うことが可能なロボットに搭載されている場合に、ロボットの視点が移動することによって、カメラで撮影された画像の背景が乱れると、領域の切り出しを適切に行うことが困難なことがある。

また、ロボットが物体を操作する物体操作タスクにおいて、操作対象の物体と、ロボットが物体を操作する（ロボット自体の）ハンドとを区別するには、外見に関する事前知識を用いるアプローチでは、物体とハンドに、それぞれを区別するためのラベルをマーキングしておき、ロボットが、そのラベルを識別する必要があり、対象物体の運動を利用するアプローチでは、カメラで撮影された画像から切り出した画像領域が、物体の画像領域かどうかを認識する必要がある。

さらに、カメラで撮影された画像から切り出した画像領域が、対象物体の画像領域であるかどうかを認識するにあたっては、その認識を行う認識器に、ハンドと物体とを区別することができるように、ハンドを指定しておく（ハンドの知識を与えておく）必要がある。

また、特許文献４に記載の技術では、カメラで撮像された画像中で、ハンドを含むロボットアームがどのように写るかや、ロボットアームに対してどのようなコマンドを出力すると、ロボットアームの手先位置（ハンド）がどこに移動するか等といった幾何モデルが、あらかじめ作成され、その幾何モデルに従って物体操作が行われる。

特許文献４に記載の技術では、以上のような幾何モデルに従って物体操作が行われるため、カメラとロボットアームの相対位置を変化させた場合や、カメラのレンズを交換した場合、ロボットアームのサイズを変化させた場合等には、そのつど、幾何モデルを、人手によって修正する必要がある。

特開平7-88791号公報特開平5-282275号公報特開平7-29081号公報特開2005-128959号公報

ロボット等の、アクションを行うことが可能なエージェントがアクションを行う環境中の物体の学習を行う場合、物体を特定するためのマーキングや、運動している画像領域の抽出を行う必要があり、面倒であった。

本技術は、このような状況に鑑みてなされたものであり、ロボット等の、アクションを行うことが可能なエージェントがアクションを行う環境中の物体等の学習を、容易に行うことができるようにするものである。

本技術の一側面の情報処理装置、又は、プログラムは、画像の背景のモデルである背景モデルと、前記背景上を移動可能な、前記画像の前景のモデルである１以上の前景モデルとを有し、前記背景モデルは、前記背景の見えを表す背景見えモデルを有し、前記１以上の前景モデルのうちの少なくとも１つは、前記前景に対応する物体が行うアクションによって、前記背景上の前記前景の位置に対応する状態が遷移する、前記アクションごとの遷移確率と、前記前景の見えを表す前景見えモデルとを有する分離学習モデルの学習を、前記物体が行うアクションと前記画像の観測値とを学習データとして用いて行う学習部を備える情報処理装置、又は、情報処理装置として、コンピュータを機能させるためのプログラムである。

本技術の一側面の情報処理方法は、画像の背景のモデルである背景モデルと、前記背景上を移動可能な、前記画像の前景のモデルである１以上の前景モデルとを有し、前記背景モデルは、前記背景の見えを表す背景見えモデルを有し、前記１以上の前景モデルのうちの少なくとも１つは、前記前景に対応する物体が行うアクションによって、前記背景上の前記前景の位置に対応する状態が遷移する、前記アクションごとの遷移確率と、前記前景の見えを表す前景見えモデルとを有する分離学習モデルの学習を、前記物体が行うアクションと前記画像の観測値とを学習データとして用いて行うステップを含む情報処理方法である。

以上のような一側面においては、画像の背景のモデルである背景モデルと、前記背景上を移動可能な、前記画像の前景のモデルである１以上の前景モデルとを有し、前記背景モデルは、前記背景の見えを表す背景見えモデルを有し、前記１以上の前景モデルのうちの少なくとも１つは、前記前景に対応する物体が行うアクションによって、前記背景上の前記前景の位置に対応する状態が遷移する、前記アクションごとの遷移確率と、前記前景の見えを表す前景見えモデルとを有する分離学習モデルの学習が、前記物体が行うアクションと前記画像の観測値とを学習データとして用いて行われる。

なお、情報処理装置は、独立した装置であっても良いし、１つの装置を構成している内部ブロックであっても良い。

また、プログラムは、伝送媒体を介して伝送することにより、又は、記録媒体に記録して、提供することができる。

本技術の一側面によれば、環境中の物体等の学習を、容易に行うことができる。

本技術の概要を説明する図である。分離学習モデルを模式的に示す図である。背景上の位置f_iと、背景上に配置される前景モデルの移動としての状態遷移とを説明する図である。アクション条件なしのHMMの遷移確率A＝a_ij、及び、アクション条件付きのHMMの遷移確率A＝a_ij(w_k)を示す図である。エージェントの視野が限定される場合の分離学習モデルの学習を説明する図である。分離学習モデルを模式的に示す図である。排他制約処理を説明する図である。背景中に、１以上のアクション付き前景と１以上のアクションなし前景とが混在している環境の画像を生成する生成モデルとしてのグラフィカルモデルを示す図である。切り替え促進処理を説明する図である。アクション条件付きの前景モデルの遷移確率を説明する図である。本技術を適用したエージェントの一実施の形態の構成例を示すブロック図である。学習処理を説明するフローチャートである。最小エントロピー検出処理を説明するフローチャートである。シミュレーションの環境設定を示す図である。シミュレーションで用いた画像を示す図である。シミュレーションに用いたシミュレータと分離学習モデルとを示す図である。シミュレーションの結果を示す図である。シミュレーションの結果を示す図である。本技術を適用したコンピュータの一実施の形態の構成例を示すブロック図である。

［本技術の概要］

図１は、本技術の概要を説明する図である。

本技術は、環境中の物体を操作することが可能なマニピュレータとしてのハンドと、環境を観測（撮影）することが可能なカメラとを具備したロボット等の、アクション可能なエージェントによって、実環境下での物体操作を実現する際に必要な環境、物体、及び、身体（ハンド）の認識を行うための認識アルゴリズムに適用可能な汎用的なフレームワークである。

本技術では、特に、環境中の物体（操作対象の物体の外観や、その物体が環境下でどのように運動するか）や、エージェント自身（アクションに対してどのようにエージェントの身体（ハンド）が環境の中で運動するのか）に関するモデルを、設計者があらかじめ作成することなく、エージェントと環境とのインタラクションを通じて得られる経験（sensory-motor pattern）から、学習によって自己組織的に獲得する。

本技術では、エージェントと環境とのインタラクションを通じて得られる物体操作の経験は、エージェントに搭載されたカメラを通じて、画像（データ）の時系列として知覚（獲得）される。

そして、本技術では、エージェントのハンドや物体には、明示的なラベルのマーキングがされてなく、かつ、ハンドや物体の外観に関する事前知識が何も与えられない状態から学習を開始し、ハンドや物体が混在して運動（移動）している画像から、ハンドや物体の外観や運動に関するモデルを学習する。

さらに、本技術では、学習したモデルのうちの、どれが制御可能な自分の身体（ハンド）で、どれが操作対象となる物体であるのかの識別を、モデルの学習と同時に実現する。

そのために、本技術では、エージェントのハンドや操作対象の物体の外観や運動に関するモデルとしての前景モデルと、物体操作が行われる環境のモデルとしての背景モデルとに分離して、ハンドや操作対象の物体を含む環境を表現するフレームワークを用意する。

すなわち、本技術では、分離学習モデルによって、ハンドや操作対象の物体を含む環境の全体を学習する。

分離学習モデルは、画像の背景のモデルである背景モデルと、背景上を移動可能な、画像の前景のモデルである１以上の前景モデルとを有する。分離学習モデルでは、背景モデルにおいて、観測される画像の背景となる環境が獲得され、前景モデルにおいて、観測される画像の前景となるハンドや操作対象の物体が獲得されることにより、環境としての背景と、ハンドや操作対象の物体としての前景とが、分離して学習される。

本技術では、エージェントによる物体操作の経験から得られる画像の観測値の系列である観測系列を用いて、確率モデルであるHMM等の最尤推定の手法の１つであるBaum-Welchアルゴリズムに従って、分離学習モデルのパラメータを推定（再推定）（更新）することで、自己組織的に、分離学習モデルを学習する。

なお、観測系列としては、例えば、カメラで撮影した画像（動画）や、コンピュータゲームの画面をキャプチャした画像（動画）等を採用することができる。

［第１章分離学習モデルの学習］

図２は、分離学習モデルを模式的に示す図である。

分離学習モデルは、観測される画像が、環境に対応する背景と、物体等に対応する前景とで構成されることを前提として、そのような画像を、確率モデルである、例えば、HMMの定式化にしたがってモデル化したモデルであり、画像の背景のモデルである背景モデルと、背景上を移動可能な、画像の前景のモデルである１以上の前景モデルとを有する。

図２では、分離学習モデルは、背景モデルと、１つの前景モデルとを有する。

分離学習モデルでは、背景モデルが表す背景上の位置f_iに、前景モデルが表す前景が配置されることによって、観測される画像が表現される。

図３は、前景が配置される背景上の位置f_iと、背景上に配置される前景モデルの移動としての状態遷移とを説明する図である。

背景モデルは、背景の見えを表す背景見えモデルを、パラメータとして有する。

ここで、背景見えモデル（ひいては、背景モデル）としては、例えば、背景を表す画像、つまり、背景の見えである（矩形の）画像のテンプレートを採用することができる。

前景モデルは、背景上の位置f_iに対応する、HMMの状態S_iを（内部変数として）有し、状態S_iから状態S_jへの状態遷移の遷移確率と、前景の見えを表す前景見えモデルとを、パラメータとして有する。

ここで、前景見えモデルとしては、例えば、前景を表す画像、つまり、前景の見えである（矩形の）画像のテンプレートを採用することができる。

また、背景モデル（背景見えモデル）については、状態S_iに対応する位置f_iが、あらかじめ定められている。

すなわち、いま、HMMの状態の数（総数）がN個あるとすると、例えば、図３に示すように、背景見えモデル（背景モデル）としての背景の画像のテンプレートに、等間隔に格子状に配置されたN個の格子点を、N個の各状態S_iに対応する位置f_iとして採用することができる。

ここで、背景見えモデル（としての背景の矩形の画像のテンプレート）の左上の点を原点とし、横方向のx軸と、縦方向のy軸とで規定される２次元座標系を、背景座標系という。

また、位置f_iの背景座標系の座標を、(x_i,y_i)と表す。

分離学習モデルでは、図３に示すように、背景見えモデルとしての背景の画像のテンプレート上の位置f_iに、前景見えモデルとしての前景の画像のテンプレートを、例えば、その前景の画像のテンプレートの左上の点が、位置f_iに一致するように配置した画像が観測される。

ここで、背景見えモデルの位置f_iに配置された前景見えモデル（としての前景の画像のテンプレート）の左上の点、つまり、位置f_iを原点とし、横方向のu軸と、縦方向のv軸とで規定される２次元座標系を、前景座標系という。

なお、前景見えモデルのサイズは、例えば、想定される前景の最大のサイズ（以下、前景サイズともいう）に、あらかじめ定められている。前景サイズの横の長さ及び縦の長さを、それぞれ、u_max+1及びv_max+1と表すこととすると、前景座標系において、前景見えモデルとしての前景の画像のテンプレートが存在する範囲は、式(0,0)≦(u,v)≦(u_max,v_max)で表される。

状態S_iから状態S_jへの状態遷移は、図３に示すように、背景見えモデル上に配置された前景見えモデルが、状態S_iに対応する位置f_iから、状態S_jに対応する位置f_jに遷移（移動）することに対応する。

分離学習モデルでは、背景見えモデル、前景見えモデル、及び、背景見えモデル上の前景見えモデルの位置f_i（に対応する状態S_i）が、分離学習モデルにおいて観測される（画像の）観測値を生成する観測モデルを規定するパラメータとなる。

なお、本実施の形態では、画像の観測値として、例えば、白黒２値の画像、又は、グレースケールの画像を採用することとする。

但し、観測モデルのフレームワークを変えることにより、カラーの画像を、画像の観測値として採用することができる。

また、本実施の形態では、前景見えモデル、及び、背景見えモデルとして、画像のテンプレートを採用するが、前景見えモデル、及び、背景見えモデルとしては、その他、例えば、画像の局所特徴量等を採用することが可能である。

［第1.1節アクション条件なしのHMMを利用した分離学習モデル］

分離学習モデルは、観測される画像が、環境に対応する背景と、物体等に対応する前景とで構成されることを前提として、そのような画像を、HMMの定式化に基づいてモデル化したモデルであり、Baum-Welchアルゴリズムに従って、（モデル）パラメータの推定を行うことができる。

ここで、分離学習モデルとしてのHMMの定式化に用いる変数（パラメータ）を、下記のように定める。

T：観測系列の長さ
O＝{o₁,o₂,・・・,o_T}：観測系列（カメラで撮影された画像の観測値の系列）
N：HMMの状態数
S＝{1,2,・・・,N}又は{S₁,S₂,・・・,S_N}：状態集合
s_t：時刻tの状態（番号）
i,j：状態番号
A＝{a_ij|a_ij=P(s_t+1=j|s_t=i)}：（状態）遷移確率
π＝{π_i|π_i=P(s₀=i)}：初期状態確率

また、分離学習モデルにおいて、（画像の）ある観測値が観測される観測尤度の計算に用いる観測モデル（のパラメータ）を、下記のように定める。

b_world：：背景見えモデル
b_fg：前景見えモデル
F＝{f₁,f₂,・・・,f_N}：背景（背景見えモデルb_world）上での状態（前景（前景見えモデルb_fg）の位置）の分布

上述したように、本技術において、HMMの状態iは、背景上の前景の位置f_iに対応する。したがって、状態i={1, 2, ..., N}が決定すれば、背景上での前景の位置が、一意に定まる。

また、以下では、分離学習モデルとしてのHMMを、λと表すとともに、分離学習モデルλの（モデル）パラメータを、λ（π，A，b_world，b_fg）と表す。

［(i) 観測尤度の計算］

一般の離散型HMMは、ある状態iで、離散の観測値であるシンボルV＝{v₁,v₂,・・・,v_Q}が観測される確率である観測確率B＝{b_i(v_q)}をパラメータとして有している。一般の離散型HMMでは、観測確率B＝{b_i(v_q)}を用いて、ある状態iにいると仮定したときの、観測値o_t＝v_qの観測確率p(o_t|s_t=i)=b_i(o_t)を計算し、Forward-Backwardアルゴリズムに従った尤度計算を行い、パラメータを更新（再推定）する。

一方、分離学習モデルは、シンボルの観測確率Bの代わりに、普遍的な背景見えモデルb_world、背景上を移動する前景見えモデルb_fg、及び、背景（背景見えモデルb_world）上での前景（前景見えモデルb_fg）の位置f_iに対応する状態iの分布で規定される観測モデルを有する。

そこで、本技術では、観測モデルとしての背景見えモデルb_world、前景見えモデルb_fg、及び、状態iの分布を用い、背景見えモデルb_world上の、状態iに対応する位置f_iに、前景見えモデルb_fgを配置することで得られる画像を、状態iにいると仮定したときに、分離学習モデルにおいて観測される観測値（以下、仮想観測値ともいう）o^model(i)として生成する。さらに、本技術では、その仮想観測値o^model(i)を用い、式（１）に従って、分離学習モデルにおいて、状態iで、観測値o_tが観測される尤もらしさである観測尤度p(o_t|s_t=i)を求め、一般の離散型HMMの観測確率b_i(o_t)の代わりに用いる。

・・・（１）

ここで、式（１）において、関数g(o_t-o^model(i))は、引数である、画像の観測値（実際の観測値）o_tと仮想観測値o^model(i)との差分（誤差）o_t-o^model(i)に対応するスカラー値の距離を算出する関数である。

また、式（１）において、σ及びDは、画像の観測値o_tと仮想観測値o^model(i)との差分o_t-o^model(i)である誤差に対する観測尤度p(o_t|s_t=i)の変化の鋭敏さを決定する定数であり、あらかじめ設定される。

式（１）によれば、背景見えモデルb_world上の、状態iに対応する位置f_iに、前景見えモデルb_fgを配置した画像が、分離学習モデルにおいて、状態iで観測される観測値（仮想観測値）o^model(i)として求められる。

そして、画像の観測値o_tと仮想観測値o^model(i)との差分o_t-o^model(i)に対応する値が、分離学習モデルにおいて、状態iで、画像の観測値o_tが観測される観測尤度p(o_t|s_t=i)として求められる。

［(ii) Forward-Backwardアルゴリズム］

分離学習モデルλについて、式（１）に従って、観測尤度p(o_t|s_t=i)を求めることにより、その観測尤度p(o_t|s_t=i)を用いることによって、Forward-Backwardアルゴリズムにおける前向き確率(Forward probability)α_t+1(j)、及び、後ろ向き確率(Backward probability)β_t+1(i)を、それぞれ、式（２）及び式（３）に従って計算することができる。

ここで、前向き確率α_t+1(j)は、分離学習モデルλにおいて、観測系列o₁,o₂,・・・o_t+1を観測して、時刻t+1に、状態jにいる確率を表す。また、後ろ向き確率β_t+1(i)は、分離学習モデルλにおいて、時刻tに状態iにいて、その後、観測系列o_t+1,o_t+2,・・・,o_Tを観測する確率を表す。

・・・（２）

・・・（３）

式（２）によれば、状態jの初期状態確率π_jが、初期値である時刻t=0の前向き確率α₀(j)として求められる。さらに、式（２）によれば、時刻t=1以降の時刻の前向き確率α_t+1(j)は、時刻tに状態iにいる状態確率としての前向き確率α_t(i)を用いて求められる。すなわち、時刻tに状態iにいて、時刻t+1に、観測値o_t+1を観測して、状態jにいる確率が、時刻t=1以降の時刻の前向き確率α_t+1(j)として求められる。

また、式（３）によれば、初期値である時刻t=Tの後ろ向き確率β_T(i)は、すべての状態i（1≦i≦N）に関して、1とされるが、これは、時刻t=Tの、すべての状態iの状態確率を1とすることを表している。さらに、式（３）によれば、時刻t=T-1以前の時刻の後ろ向き確率β_t(i)は、時刻t+1に状態jにいる状態確率としての後ろ向き確率β_t+1(j)を用いて求められる。すなわち、時刻t+1に、観測値o_t+1を観測して、状態jにいるとしたときに、時刻tに、状態iにいる確率が、時刻t=T-1以前の時刻の後ろ向き確率β_t(i)として求められる。

ここで、式（２）及び式（３）のa_ijは、状態iから状態jに遷移する（状態）遷移確率を表す。

なお、Forward-Backwardアルゴリズムにおける事後確率としての前向き確率α_t(i)（及び後ろ向き確率β_t(i)）は、分離学習モデルλにおいて、観測系列o₁,o₂,・・・,o_Tを観測したときに、時刻tに、状態iにいる確率を表すが、このような事後確率としての前向き確率α_t(i)を求めることは、観測系列o₁,o₂,・・・,o_Tが観測されたときの状態認識を行っていることと等価である。

したがって、分離学習モデルλの学習が、ある程度進行した後は、事後確率としての前向き確率α_t(i)を求めることにより、背景上の前景の位置f_iを推定することができる。

［(iii) Baum-Welchアルゴリズム］

HMMを利用した分離学習モデルλのパラメータλ（π，A，b_world，b_fg）は、例えば、EＭ(Expectation-Maximization)アルゴリズムに基づくBaum-Welchアルゴリズムに従って推定（再推定）（更新）することができる。

Baum-Welchアルゴリズムによれば、分離学習モデルλにおいて、観測系列O={o₁,o₂,・・・o_T}が観測される場合に、時刻t-1での状態iから時刻tでの状態jに（状態）遷移する確率ξ_t(i,j)は、式（４）に従って求めることができる。

・・・（４）

また、分離学習モデルλにおいて、観測系列O={o₁,o₂,・・・o_T}が観測される場合に、時刻t-1で状態iにいる確率γ_t-1(i)は、確率ξ_t(i,j)について、時刻tでの状態jに関して周辺化した確率として、式（５）に従って計算することができる。

・・・（５）

Baum-Welchアルゴリズムでは、式（４）の確率ξ_t(i,j)、及び、式（５）の確率γ_t-1(i)を用いて、パラメータλ（π，A，b_world，b_fg）が再推定される。

ここで、再推定後の分離学習モデルを、λ'と表すとともに、パラメータを、λ'（π'，A'，b'_world，b'_fg）と表すこととする。

再推定後のパラメータλ'（π'，A'，b'_world，b'_fg）は、式（６）、式（７）、式（８）、及び、式（９）に従って求めることができる。

すなわち、更新後の初期状態確率π'_iは、式（６）に従って求めることができる。

・・・（６）

更新後の遷移確率a'_ijは、式（７）に従って求めることができる。

・・・（７）

ここで、式（７）の分子は、状態iから状態jに遷移する回数の期待値を表し、分母は、状態iから遷移する回数の期待値を表す。

更新後の前景見えモデルb'_fgは、式（８）に従って求めることができる。

・・・（８）

ここで、式（８）の(u,v)は、前景座標系（図３）上の位置（座標）を表し、図３で説明した前景サイズ内の値をとる変数、すなわち、式(0,0)≦(u,v)≦(u_max,v_max)で表される（整数の）範囲内の変数である。

また、式（８）のb'_fg(u,v)は、前景見えモデルとしての画像のテンプレートの、前景座標系（図３）上の位置(u,v)の画素値を表す。

さらに、o_t(x_j+u,y_j+v)は、時刻tの観測値o_tとしての画像の、背景座標系上の位置(x_j+u,y_j+v)の画素値、すなわち、時刻tの観測値o_tとしての画像のうちの、背景座標系上の位置f_j＝(x_j,y_j)における前景サイズの領域（の画素値）を表す。

したがって、式（８）によれば、時刻tの観測値o_tとしての画像のうちの、状態jに対応する位置(x_j,y_j)における前景サイズの領域を用いて、更新後の前景見えモデルb'_fgが求められる。

なお、式（８）の分子は、時刻tの観測値o_tから、状態jに対応する位置(x_j,y_j)における前景サイズの領域の観測値（画像）o_t(x_j+u,y_j+v)を切り出し、その画像o_t(x_j+u,y_j+v)に、時刻tに状態jにいる確率α_t(j)β_t(j)を重み付けして（乗算して）、その結果得られる重み付け値（乗算値）の、すべての時刻、及び、すべての状態についての総和になっており、前景サイズの領域(x_j+u,y_j+v)に観測される観測値（画像）o_t(x_j+u,y_j+v)の期待値を表す。

また、式（８）の分母は、すべての時刻、すべての状態についての、（状態）遷移の回数の期待値を表す。

更新後の背景見えモデルb'_worldは、式（９）に従って求めることができる。

・・・（９）

式（９）において、(x,y)は、背景座標系（図３）上の位置（座標）を表す。o_t ^world(x,y)は、状態jに対応する位置(x_j,y_j)における前景サイズの領域（の観測値）o_t(x_j+u,y_j+v)を0にした時刻tの観測値o_t、つまり、時刻tの観測値o_tとしての画像のうちの、前景の領域の画素値を0にした画像を表す。

したがって、式（９）の分子は、状態jに対応する位置(x_j,y_j)における前景サイズの領域の観測値（画素値）o_t(x_j+u,y_j+v)を0にした時刻tの観測値o_t ^world(x,y)としての画像に、時刻tに状態jにいる確率α_t(j)β_t(j)を重み付けして（乗算して）、その結果得られる重み付け値（乗算値）の、すべての時刻、及び、すべての状態についての総和になっており、前景の移動（遷移）によらない普遍的な画像、すなわち、背景として観測される画像の期待値を表す。

また、式（９）の分母は、式（８）の分母と同様に、すべての時刻、すべての状態についての、（状態）遷移の回数の期待値を表す。

以上のように、前景見えモデルb_fgの更新では、画像の観測値o_tのうちの、状態jに対応する位置(x_j,y_j)における前景サイズの領域の観測値o_t(x_j+u,y_j+v)を用い、背景見えモデルb_worldの更新では、状態_jに対応する位置における前景サイズの領域の観測値を0にした画像の観測値o_t ^world(x,y)を用いることにより、背景と、その背景上を移動する前景とが、自己組織的に分離されて学習され、その結果、物体を特定するためのマーキングや、運動（移動）している画像領域の抽出を行うことなく、背景と、その背景上を移動する前景との学習を、容易に行うことができる。

［(iv) パラメータの初期値］

分離学習モデルλの学習にあたり、パラメータλ（π，A，b_world，b_fg）の初期値としては、例えば、0ないし1の範囲のランダムな値が設定される。

但し、本技術では、遷移確率a_ijについては、例えば、式（１０）に従って、背景上を移動する前景の移動を、現在の位置から近傍の位置に制約する近傍制約を設けた初期値が設定される。

・・・（１０）

ここで、式（１０）において、rand[0,1]は、0ないし1の範囲のランダムな値を表す。

また、式（１０）において、d_ijは、状態iに対応する背景上の位置f_iと、状態jに対応する背景上の位置f_jとの間の距離を表し、d_minは、近傍を定義する定数の閾値である。

背景座標系において、例えば、状態に対応する位置どうし（の横及び縦）の距離が1である場合に、前景の移動を、現在の位置から4近傍までの位置の遷移に制約するときには、閾値d_minは、式1≦d_min＜√2で表される範囲の値に設定される。また、前景の移動を、現在の位置から8近傍までの位置の遷移に制約するときには、閾値d_minは、式√2≦d_min＜2で表される範囲の値に設定される。

［第1.2節アクションで状態遷移を条件付けたHMM（アクション条件付きのHMM）を利用した分離学習モデル］

上述の分離学習モデルで利用したHMMでは、遷移確率a_ijは、ある状態iからの遷移の総数に対する、ある状態jへの遷移の回数の比率であり、単純に（特に条件のない）、状態間の遷移の確率を表している。

本技術では、HMMの表現を拡張し、状態遷移に関して遷移を引き起こすアクションwを条件付けた遷移確率a_ij(w)を有するHMM（以下、アクション条件付きのHMMともいう）を扱い、以下では、そのようなアクション条件付きのHMM（の遷移確率）を利用した分離学習モデルについて説明する。

ここで、アクションwを条件付けない、アクションwとは無関係の遷移確率a_ijを有するHMMを、アクション条件付きのHMMと区別するために、アクション条件なしのHMMともいう。

アクション条件付きのHMMでは、状態iから状態jへの遷移確率のテーブルを、アクションごとに有することになり、遷移確率について、遷移元の状態i及び遷移先の状態jの次元に、アクションの次元が追加される。

すなわち、アクション条件なしのHMMの遷移確率a_ijは、遷移元の状態i及び遷移先の状態jの次元の２次元表現になるが、アクション条件付きのHMMの遷移確率a_ij(w)は、遷移元の状態i、遷移先の状態j、及び、アクションの次元の３次元表現になる。

なお、アクション条件付きのHMMについては、アクション条件なしのHMMで用いた変数に加えて、下記の変数を用いる。

U＝{u₀,u₁,・・・,u_T-1}：アクション系列（アクションの時系列）
w＝{w₁,w₂,・・・,w_K}：アクション集合（前景に対応する物体（アクション可能なエージェントのハンド）が行うことが可能なアクションの集合）

図４は、アクション条件なしのHMMの遷移確率A＝a_ij、及び、アクション条件付きのHMMの遷移確率A＝a_ij(w_k)を示す図である。

上述したように、アクション条件なしのHMMの遷移確率a_ijは、遷移元の状態i及び遷移先の状態jの次元の2次元表現になり、アクション条件付きのHMMの遷移確率a_ij(w_k)は、遷移元の状態i、遷移先の状態j、及び、アクションw_kの次元の3次元表現になる。

アクション条件付きのHMMの遷移確率a_ij(w_k)は、アクションw_kがあったときに、状態iから状態jに遷移する確率である、アクションw_kごとの遷移確率である。

アクション条件付きのHMMを利用した分離学習モデルでは、前景モデルが、アクションwとは無関係の遷移確率a_ijに代えて、アクションw_kごとの遷移確率a_ij(w_k)を有する。

［(i) Forward-Backwardアルゴリズム］

アクション条件付きHMMを利用した分離学習モデルλについては、Forward-Backwardアルゴリズムにおける前向き確率(Forward probability)α_t+1(j)は、分離学習モデルλにおいて、アクション系列u₁,u₂,・・・,u_tのアクションが行われることに伴って、観測系列o₁,o₂,・・・,o_tが観測され、時刻t+1に、状態jにいる確率となり、式（１１）に従って求めることができる。

・・・（１１）

式（１１）によれば、状態jの初期状態確率π_jが、初期値である時刻t=0の前向き確率α₀(j)として求められる。さらに、式（１１）によれば、時刻t=1以降の時刻の前向き確率α_t+1(j)は、時刻tに状態iにいる状態確率としての前向き確率α_t(i)を用いて求められる。すなわち、時刻tに状態iにいて、アクションu_tが行われることによって生じる状態遷移により、時刻t+1に、観測値o_t+1を観測して、状態jにいる確率が、時刻t=1以降の時刻の前向き確率α_t+1(j)として求められる。

アクション条件付きHMMを利用した分離学習モデルλについては、Forward-Backwardアルゴリズムにおける後ろ向き確率β_t(i)は、分離学習モデルλにおいて、時刻tに、状態iにいて、以後、アクション系列u_t+1,u_t+2,・・・,u_T-1のアクションが行われることに伴って、観測系列o_t+1,o_t+2,・・・,o_Tが観測される確率となり、式（１２）に従って求めることができる。

・・・（１２）

式（１２）によれば、初期値である時刻t=Tの後ろ向き確率β_T(i)は、すべての状態i（1≦i≦N）に関して、1とされるが、これは、時刻t=Tの、すべての状態iの状態確率を1とすることを表している。さらに、式（１２）によれば、時刻t=T-1以前の時刻の後ろ向き確率β_t(i)は、時刻t+1に状態jにいる状態確率としての後ろ向き確率β_t+1(j)を用いて求められる。すなわち、時刻tに、状態iにいて、アクションu_tが行われることによって生じる状態遷移により、時刻t+1に、観測値o_t+1を観測して、状態jにいるとしたときに、時刻tに、状態iにいる確率が、時刻t=T-1以前の時刻の後ろ向き確率β_t(i)として求められる。

［(ii) Baum-Welchアルゴリズム］

アクション条件付きのHMMを利用した分離学習モデルλのパラメータλ（π，A，b_world，b_fg）は、アクション条件なしのHMMを利用した分離学習モデルλのパラメータλ（π，A，b_world，b_fg）を求めるBaum-Welchアルゴリズムを、アクションw_kについて拡張することにより推定（再推定）（更新）することができる。

すなわち、分離学習モデルλにおいて、アクション系列U＝{u₀,u₁,・・・,U_T-1}のアクションが行われることに伴って、観測系列O={o₁,o₂,・・・o_T}が観測される場合に、時刻t-1での状態iにおいて、アクションw_kが行われることにより、時刻t-1での状態iから時刻tでの状態jに（状態）遷移する確率ξ_t(i,j,w_k)は、式（１３）に従って求めることができる。

・・・（１３）

また、分離学習モデルλにおいて、アクション系列U＝{u₀,u₁,・・・,U_T-1}のアクションが行われることに伴って、観測系列O={o₁,o₂,・・・o_T}が観測される場合に、時刻t-1に、状態iにいて、アクションu_t-1=w_kが行われる確率γ_t-1(i,w_k)は、確率ξ_t(i,j,w_k)について、時刻tでの状態jに関して周辺化した確率として、式（１４）に従って求めることができる。

・・・（１４）

アクション条件付きのHMMを利用した分離学習モデルλのパラメータλ（π，A，b_world，b_fg）は、式（１３）の確率ξ_t(i,j,w_k)、及び、式（１４）の確率γ_t-1(i,w_k)を用いて再推定することができる。

すなわち、更新後の初期状態確率π'_iは、式（１５）に従って求めることができる。

・・・（１５）

更新後の遷移確率a'_ij(w_k)は、式（１６）に従って求めることができる。

・・・（１６）

ここで、式（１６）の分子は、状態iで、アクションw_kが行われることにより、状態jに遷移する回数の期待値を表し、分母は、状態iで、アクションw_kが行われて状態遷移が行われる回数の期待値を表す。

なお、更新後の前景見えモデルb'_fgは、アクション条件なしのHMMと同様に、式（８）に従って求めることができ、更新後の背景見えモデルb'_worldも、アクション条件なしのHMMと同様に、式（９）に従って求めることができる。

［第1.3節 Baum-Welchアルゴリズムの追加学習への拡張］

第1.1節及び第1.2節では、分離学習モデルの学習に用いる学習データ（観測系列及びアクション系列）のすべてが、一度に得られる場合のBaum-Welchアルゴリズムに従った学習、すなわち、バッチ学習の定式化を行ったが、Baum-Belchアルゴリズムは、追加学習に拡張することができる。

ここで、追加学習とは、1回の学習（パラメータの更新）には、全体の学習データの一部の区間しか観測できないため、学習データを、複数回に分けて学習することで、過去の学習結果を残しつつ、（モデル）パラメータを、徐々に更新し、最終的には、すべての学習データを学習することで、一度にすべての学習データを学習するのと同等の結果を得る学習である。

Baum-Welchアルゴリズムの追加学習への拡張は、式（７）の遷移確率a'_ij、式（８）の前景見えモデルb'_fg（b'_fg(u,v))、式（９）の背景見えモデルb'_world、及び、式（１６）の遷移確率a'_ij(w_k)を求める更新演算の途中結果としての、各更新演算の分子と分母とを累積的に保持して計算することによって実現することができる。

例えば、全体でTステップ（サンプル）ある学習データを、1回あたりT/Cステップずつ用いて、分離学習モデルの学習を、C回に分けて行う追加学習を行う場合、式（７）ないし式（９）、及び、式（１６）に代えて、それぞれ、式（１７）、式（１８）、式（１９）、及び、式（２０）が用いられる。

・・・（１７）

・・・（１８）

・・・（１９）

・・・（２０）

ここで、式（１７）では、分子のa_ij ^n(new)及び分母のa_ij ^d(new)が、式（１７）の更新演算の途中結果であり、追加学習では、途中結果a_ij ^n(new)及びa_ij ^d(new)が保持され、次の更新演算において、途中結果a_ij ^n(new)及びa_ij ^d(new)は、それぞれ、式（１７）のa_ij ⁿ及びa_ij ^dとして用いられる。

式（１８）では、分子のb_fg ^n(new)及び分母のb^d(new)が、式（１８）の更新演算の途中結果であり、追加学習では、途中結果b_fg ^n(new)及びb^d(new)が保持され、次の更新演算において、途中結果b_fg ^n(new)及びb^d(new)は、それぞれ、式（１８）のb_fg ⁿ及びb^dとして用いられる。

式（１９）では、分子のb_world ^n(new)及び分母のb^d(new)が、式（１９）の更新演算の途中結果であり、追加学習では、途中結果b_world ^n(new)及びb^d(new)が保持され、次の更新演算において、途中結果b_world ^n(new)及びb^d(new)は、それぞれ、式（１９）のb_world ⁿ及びb^dとして用いられる。

なお、式（１８）及び式（１９）の分母である途中結果b^d(new)は、同一なので、式（１８）及び式（１９）の分母のb^d(new)は、どちらか一方を、途中結果として保持しておけばよい。

式（２０）では、分子のa_ij ^n(new)(w_k)及び分母のa_ij ^d(new)(w_k)が、式（２０）の更新演算の途中結果であり、追加学習では、途中結果a_ij ^n(new)(w_k)及びa_ij ^d(new)(w_k)が保持され、次の更新演算において、途中結果a_ij ^n(new)(w_k)及びa_ij ^d(new)(w_k)は、それぞれ、式（２０）のa_ij ⁿ(w_k)及びa_ij ^d(w_k)として用いられる。

以上のように、更新演算の途中結果を記憶し、次の学習データと、更新演算の途中結果とを用いて、分離学習モデルのパラメータを更新する更新演算を行うことにより、分離学習モデルの追加学習を行うことができる。

すなわち、新しい学習データが入ってくるたびに、分離学習モデルのパラメータとしての変数の分母と分子に更新量を累積していくことで、過去の学習結果を保持しながら、新しい学習データによる更新内容を、分離学習モデルのパラメータに反映することができる。

［第２章視野が限定される場合の分離学習モデルの学習］

図５は、エージェントの視野が限定される場合の分離学習モデルの学習を説明する図である。

第１章では、前景が配置された背景の全体の画像を観測することができることを、暗黙の前提としたが、エージェントに搭載されたカメラで撮影された画像を、観測値o_tとして用いる場合には、前景が配置された背景の一部の領域だけが、観測値o_tとして得られることがある。

すなわち、エージェントに、視野があることとすると、エージェントでは、前景が配置された背景の全体の画像のうちの、エージェントの視野の領域（視野領域）の画像のみが、観測値o_tとして観測される。

なお、視野領域は、エージェントが、頭部を動かすこと等により、視線の方向を移動することで変化することとする。

但し、時刻tごとの視野領域R＝{r₁,r₂,・・・,r_T}は、既知のデータとして与えられることとする。

この場合、視野領域に、前景が完全に含まれる場合の前景の位置f_iに対応する状態S_i∈r_iのみを対象として、パラメータの更新を行うことで、分離学習モデルの学習を行うことができる。

図５は、前景（前景見えモデル）が配置された背景（背景見えモデル）のうちの、既知の視野領域r_tの画像のみが、時刻tの観測値o_tとして観測される様子を示している。

図５において、丸印は、前景が配置される位置f_iに対応する状態iを表しており、また、丸印のうちの黒丸印は、前景サイズの領域全体が視野領域r_tに含まれる位置f_iに対応する状態iを表している。

図５に示すように、前景（前景見えモデル）が配置された背景（背景見えモデル）のうちの、既知の視野領域r_tの画像のみが、時刻tの観測値o_tとして観測される場合には、遷移確率の更新は、すべての状態からの遷移確率のうちの、前景サイズの領域全体が視野領域r_tに含まれる位置f_iに対応する状態i（図５において、黒丸印で示す）からの遷移確率のみを対象として行う。

また、前景見えモデル、及び、背景見えモデルの更新は、すべての状態についての事後確率としての前向き確率及び後ろ向き確率のうちの、前景サイズの領域全体が視野領域r_tに含まれる位置f_iに対応する状態i（図５において、黒丸印で示す）についての前向き確率α_t(i)及び後ろ向き確率β_t(i)のみを用いて行う。

［第３章複数の前景モデルを有する分離学習モデルの学習］

図６は、分離学習モデルを模式的に示す図である。

分離学習モデルは、複数の前景モデルを有することができる。

図６では、分離学習モデルは、背景モデルと、２つの前景モデル#1及び#2とを有する。この場合、分離学習モデルでは、背景モデルが表す背景上の位置f_iに、前景モデル#1が表す前景が配置されるとともに、位置f_i'に、前景モデル#2が表す前景が配置されることによって、観測される画像が表現される。

ここで、分離学習モデルが、複数であるM個の前景モデル#1ないし#Mを有する場合のm番目の前景モデル#mが有する遷移確率a_ij（又はa_ij(w_k)）、及び、前景見えモデルb_fgを、それぞれ、a_ij{m}、及び、b_fg{m}と表す。

複数であるM個の前景モデル#1ないし#Mを有する分離学習モデルでは、そのM個の前景モデル#1ないし#Mが、１つの背景モデル（の背景見えモデルb_world）を共有する。

なお、観測される画像に含まれる前景の数Mは、既知であることとし、分離学習モデルは、その既知である前景の数M（以上）の前景モデルを有することとする。

また、分離学習モデルが有する前景モデル#mの遷移確率a_ij{m}は、アクション条件なしのHMMの遷移確率a_ijであっても良いし、アクション条件付きのHMMの遷移確率a_ij(w_k)であっても良い。

ここで、アクション条件付きのHMMの遷移確率a_ij(w_k)を有する前景モデルを、アクション条件付きの前景モデルともいい、アクション条件なしのHMMの遷移確率a_ijを有する前景モデルを、アクション条件なしの前景モデルともいう。

分離学習モデルが有する複数の前景モデルは、アクション条件付きの前景モデルと、アクション条件なしの前景モデルとが混在していても良い。

［第3.1節観測尤度の計算］

分離学習モデルが、複数の前景モデルを有する場合に、分離学習モデルにおいて、（画像の）ある観測値が観測される観測尤度p(o_t|s_t=i)を計算するときには、分離学習モデルが有する複数の前景モデルが表す前景すべてを、背景に配置し、各状態iに対応する背景上の位置f_iに、分離学習モデルが有する複数の前景モデルが表す前景を配置するすべての組み合わせを考慮して、式（１）の仮想的な観測値o^model(i)を生成する。

但し、この場合、分離学習モデルが有する前景モデルの数に対して、観測尤度p(o_t|s_t=i)の計算量が指数的に増加する。

そこで、本技術では、分離学習モデルが、複数の前景モデルを有する場合には、近似的に、観測尤度p(o_t|s_t=i)を求めることができる。

すなわち、本技術では、複数の前景モデル（が表す前景）を、個別に、背景モデル（が表す背景）に配置し、個別の前景モデルごとに、式（１）に従って、観測尤度p(o_t|s_t=i)を求めることができる。

この場合、状態確率（事後確率）としての前向き確率α_t(i)、及び、後ろ向き確率β_t(i)は、前景モデル#mごとに個別に求められる。

ここで、前景モデル#mについての前向き確率α_t(i)、及び、後ろ向き確率β_t(i)を、それぞれ、α_t{m}(i)（又はα_t{m}）、及び、β_t{m}(i)（又はβ_t{m}）とも表す。

前景モデル#mが、アクション条件なしの前景モデルである場合、その前景モデル#mについての前向き確率α_t{m}(i)、及び、後ろ向き確率β_t{m}(i)は、その前景モデル#mについての観測尤度p(o_t|s_t=i)を用いて、それぞれ、式（２）、及び、式（３）に従って求められる。

また、前景モデル#mが、アクション条件付きの前景モデルである場合、その前景モデル#mについての前向き確率α_t{m}(i)、及び、後ろ向き確率β_t{m}(i)は、その前景モデル#mについての観測尤度p(o_t|s_t=i)を用いて、それぞれ、式（１１）、及び、式（１２）に従って求められる。

［第3.2節 Baum-Welchアルゴリズム］

複数の前景モデルを有する分離学習モデルλのパラメータλ（π，A，b_world，b_fg）の、Baum-Welchアルゴリズムに従った推定（再推定）（更新）は、以下のようにして行うことができる。

すなわち、前景モデル#mの初期状態確率、遷移確率、前景見えモデルを、それぞれ、π_i{m}、a_ij{m}、及び、b_fg{m}と表すこととすると、前景モデル#mが、アクション条件なしの前景モデルである場合には、前景モデル#mの初期状態確率π_i{m}、遷移確率a_ij{m}、及び、前景見えモデルb_fg{m}は、その前景モデル#mについての観測尤度p(o_t|s_t=i)、前向き確率α_t{m}(i)、及び、後ろ向き確率β_t{m}(i)を必要に応じて用い、それぞれ、式（６）ないし式（８）に従って更新される。

また、前景モデル#mが、アクション条件付きの前景モデルである場合には、前景モデル#mの初期状態確率π_i{m}、遷移確率a_ij{m}、及び、前景見えモデルb_fg{m}は、その前景モデル#mについての観測尤度p(o_t|s_t=i)、前向き確率α_t{m}(i)、及び、後ろ向き確率β_t{m}(i)を必要に応じて用い、それぞれ、式（１５）、式（１６）、及び、式（８）に従って更新される。

なお、追加学習を行う場合には、前景モデル#mの遷移確率a_ij{m}、及び、前景見えモデルb_fg{m}は、その前景モデル#mについての観測尤度p(o_t|s_t=i)、前向き確率α_t{m}(i)、及び、後ろ向き確率β_t{m}(i)を必要に応じて用い、それぞれ、式（１７）（又は式（２０））、及び、式（１８）に従って更新される。

背景見えモデルb_worldは、各前景モデル#mについての前向き確率α_t{m}(i)、及び、後ろ向き確率β_t{m}(i)を用いて、式（２１）に従って更新される。

・・・（２１）

なお、追加学習を行う場合には、背景見えモデルb_worldは、式（２２）に従って更新される。

・・・（２２）

ここで、式（２１）及び式（２２）において、o_t ^world{m}は、m番目の前景モデル#mの位置f_iにおける前景サイズの領域（の観測値）を0にした時刻tの観測値o_t、つまり、時刻tの観測値o_tのうちの、前景モデル#mが表す前景の領域の画素値を0にした画像を表す。

したがって、式（２１）及び式（２２）によれば、背景見えモデルb_worldは、M個の前景モデル#1ないし#Mのすべてに関する知識を統合して更新される。

［第４章前景モデルの排他的学習］

分離学習モデルλが、複数の前景モデルを有する場合には、その分離学習モデルλの学習、すなわち、パラメータλ（π，A，b_world，b_fg）の更新は、第３章で説明した方法によって行うことができる。

但し、第３章で説明した方法では、画像の観測系列中の複数の前景と、前景モデルとの対応関係に何ら制約をしていないため、分離学習モデルが有する複数の前景モデルのうちの２個以上の前景モデルによって、画像の観測系列中の同一の前景が重複して学習（モデル化）されることや、いずれの前景モデルによっても学習されない前景が生じることがあり得る。

そこで、本技術では、分離学習モデルλが、複数の前景モデルを有する場合には、前景モデル（のパラメータである初期状態確率、遷移確率、及び、前景見えモデル）の更新に、排他制約処理を導入することができる。

排他制約処理は、ある前景モデルで学習された前景を、他の前景モデルで学習しないように、学習が制限される。

排他制約処理は、前景モデルの更新の優先順位付けと、割引処理とによって実現することができる。

前景モデルの更新の優先順位付けでは、パラメータの更新を行う前景モデルに、優先順位が付けられ、その優先順位順に、前景モデルが、学習（パラメータの更新）の対象の対象モデルに選択される。

割引処理では、対象モデルの学習に用いられた学習データとしての画像の観測系列から、対象モデルの前景見えモデルの更新に用いられた分の観測値が割り引かれる。そして、次の対象モデルの更新は、割引処理後の画像の観測値を用いて行われる。

図７は、排他制約処理を説明する図である。

いま、分離学習モデルλが有するM個の前景モデル#1ないし#Mのm番目の前景モデル#mの優先順位が第m位であるとする。

また、m番目の前景モデル#mの学習（パラメータの更新）に用いられる時刻tの画像の観測値を、o_t ^(m)と表すこととする。

排他制約処理では、上述したように、対象モデルの学習に用いられた学習データとしての画像の観測系列から、対象モデルの前景見えモデルの更新に用いられた分の観測値を割り引く割引処理が行われ、その割引処理後の画像の観測値を用いて、次の対象モデルの更新が行われる。

割引処理は、式（２３）に従って行われる。

・・・（２３）

ここで、優先順位が第1位の前景モデル#1の学習に用いられる時刻tの観測値o_t ⁽¹⁾は、時刻tの画像の観測値o_tに等しい。

式（２３）では、状態iに対応する位置(x_i,y_i)における前景サイズの（矩形）領域内の、m番目の前景モデル#mの学習に用いられた観測値o_t ^(m)(x_i+u,y_i+v)に、時刻tに状態iにいる確率α_t(i)β_t(i)(α_t{m}(i)β_t{m}(i))を重み付けして（乗算して）、その結果得られる重み付け値（乗算値）（重み付け画像）の、すべての状態についての総和Σα_t(i)β_t(i)o_t ^(m)(x_i+u,y_i+v)が求められる。

そして、観測値o_t ^(m)(x_i+u,y_i+v)から、総和Σα_t(i)β_t(i)o_t ^(m)(x_i+u,y_i+v)を減算することで、次の優先順位の前景モデル#(m+1)の学習に用いられる時刻tの観測値o_t ^(m+1)が求められる。

なお、式（２３）の右辺の第１項のo_tと、第２項のΣα_t(i)β_t(i)o_t ^(m)(x_i+u,y_i+v)とは、同一サイズの行列、すなわち、２次元変数であり、第２項の総和（Σ）をとるときのα_t(i)β_t(i)o_t ^(m)(x_i+u,y_i+v)の足し込みは、o_tと同一サイズの２次元変数V(a1,a2)のうちの、インデクス(a1,a2)が、式(x_i,y_i)≦(a1,a2)≦(x_i+u,y_i+v)の範囲の２次元変数V(a1,a2)に対して行われる。

排他制約処理によれば、優先順位の高い前景モデルが学習した前景の情報が差し引かれた観測値が、優先順位の低い前景モデルの学習で用いられるので、優先順位の高い前景モデルが学習した前景を、優先順位が低い前景モデルが学習してしまうことを防止すること、すなわち、同一の前景を、複数の前景モデルで学習することを防止することができる。

［第５章アクション条件付きの前景モデルとアクション条件なしの前景モデルとが混在する分離学習モデルの前景モデルと、前景との自己組織的な対応付け］

［第5.1節アクション条件付きの前景モデルとアクション条件なしの前景モデルとが混在する分離学習モデル］

分離学習モデルが、複数の前景モデルとして、アクション条件付きの前景モデルとアクション条件なしの前景モデルとの両方を有する場合の、分離学習モデルの学習について説明する。

アクション条件付きの前景モデルとアクション条件なしの前景モデルとの両方を有する分離学習モデルによれば、背景中に、複数の前景があり、その複数の前景として、既知のアクションに伴って移動する前景（以下、アクション付き前景ともいう）と、どのようなアクションに伴って移動するかは未知であるが、移動を観測することができる前景（以下、アクションなし前景ともいう）とが混在している環境を、その環境から観測される観測系列を用いて学習することができる。

ここで、背景中に、（１以上の）アクション付き前景と（１以上の）アクションなし前景とが混在している環境とは、例えば、図１に示したように、エージェントが、自分の身体に搭載されたカメラで撮影された画像と、エージェントのハンドとしてのマニピュレータとを用いて、物体操作を行う環境等に相当する。

この場合、エージェントの視野中に知覚される画像（カメラで撮影された画像）の観測系列には、操作対象の物体の画像としての前景と、物体を操作するエージェント自身のハンドの画像としての前景とが共存する。

そして、エージェントの視野中のハンドの移動は、エージェントが自らが出力したアクションによって生じるので、エージェントのハンドに対応する前景は、既知のアクションに伴って移動するアクション付き前景である。

一方、操作対象の物体の移動は、エージェントのハンドが物体に接触することによって生じるが、どのようなアクションに伴って生じるのかは未知であるので、操作対象の物体に対応する前景は、アクションなし前景である。

なお、分離学習モデルが、以上のようなアクション付き前景とアクションなし前景とが混在している環境から観測される観測系列を学習する場合、分離学習モデルは、アクション付き前景の数（以上）のアクション条件付きの前景モデルを有するとともに、アクションなし前景の数（以上）のアクション条件なしの前景モデルを有することとする。

図８は、背景中に、１以上のアクション付き前景と１以上のアクションなし前景とが混在している環境を、カメラで撮影することにより得られる画像の観測値を生成する生成モデルとしてのグラフィカルモデルを示す図である。

すなわち、図８は、背景中に、アクション付き前景に対応するエージェントのハンドと、アクションなし前景としての操作対象の物体とが存在する環境を想定した場合の、その想定環境のグラフィカルモデルを示している。

背景中に、アクション付き前景に対応するエージェントのハンドと、アクションなし前景としての操作対象の物体とが存在する想定環境は、複数の前景モデルとして、エージェントのハンドに対応する前景モデルであるアクション条件付きの前景モデル#1と、操作対象の物体に対応する前景モデルであるアクション条件なしの前景モデル#2とを有する分離学習モデルによって表現することができる。

すなわち、アクション付き前景に対応するエージェントのハンドの画像は、ハンドの見え、ハンドの状態（位置）、初期位置、及び、ハンドの動き（移動）によって生成することができる。

アクション条件付きの前景モデル#1では、ハンドの見えは、前景見えモデルb_fg{1}に、ハンドの状態（位置）は、前景モデル#1の内部変数としての状態S_i{1}（背景上の前景見えモデルb_fg{1}の位置f_i）に、初期位置は、初期状態確率π_i{1}に、ハンドの動きは、アクション条件付きのHMMの遷移確率a_ij{1}に、それぞれ相当する。

なお、ハンドは、そのハンドを駆動する駆動信号により駆動されるが、この駆動信号が、アクション系列（アクションの時系列）Uに相当し、ハンドの状態（位置）、つまり、前景モデル#1の状態S_i{1}は、アクション系列Uに伴って遷移（移動）する。

アクションなし前景に対応する操作対象の物体の画像は、物体の見え、物体の状態（位置）、初期位置、及び、物体の動き（移動）によって生成することができる。

アクション条件なしの前景モデル#2では、物体の見えは、前景見えモデルb_fg{2}に、物体の状態（位置）は、前景モデル#2の内部変数としての状態S_i{2}（背景上の前景見えモデルb_fg{2}の位置f_i）に、初期位置は、初期状態確率π_i{2}に、物体の動きは、アクション条件なしのHMMの遷移確率a_ij{2}に、それぞれ相当する。

そして、想定環境の背景の画像（背景の見え）は、背景モデルの背景見えモデルb_worldに相当する。

想定環境の全体の見え（環境の見え）は、エージェントのハンドの画像、及び、操作対象の物体の画像を、想定環境の背景の画像に配置することで生成することができる。

さらに、想定環境の全体の見えから、エージェントの視野の範囲を切り出すことで、エージェントのカメラで撮影される画像の観測系列Oを得ることができる。

ここで、エージェントの視野は、図５で説明した視野領域Rに相当する。

分離学習モデルでは、カメラで撮影される画像の観測系列O、ハンドを駆動する駆動信号としての（既知の）アクション系列U、及び、視野領域Rを、学習データとして用いて、想定環境の学習が行われ、分離学習モデルのパラメータが求められる。

すなわち、ハンドに対応する前景モデル#1については、ハンドの見えに相当する前景見えモデルb_fg{1}、ハンドの初期位置に相当する初期状態確率π_i{1}、及び、ハンドの動きに相当するアクション条件付きのHMMの遷移確率a_ij{1}が求められる。

物体に対応する前景モデル#2については、物体の見えに相当する前景見えモデルb_fg{2}、物体の初期位置に相当する初期状態確率π_i{2}、及び、物体の動きに相当するアクション条件なしのHMMの遷移確率a_ij{2}が求められる。

また、想定環境の背景に対応する背景モデルについては、その背景の見えに相当する背景見えモデルb_worldが求められる。

なお、図８では、説明を簡単にするため、背景中に、１つのアクション付き前景と、１つのアクションなし前景とが存在する想定環境を示したが、複数のアクション付き前景や、複数のアクションなし前景が存在する環境も、図８と同様のグラフィカルモデルによって表現すること、ひいては、分離学習モデルで学習することができる。

［第5.2節遷移確率のエントロピー評価に基づくパラメータ更新］

アクション条件付きの前景モデルとアクション条件なしの前景モデルとが混在する分離学習モデル（以下、混在モデルともいう）については、第３章で説明した方法により学習を行うことができる。

但し、第３章で説明した方法では、エージェントのハンド等に対応するアクション付き前景が、アクション条件付きの前景モデルで学習されること、及び、操作対象の物体等に対応するアクションなし前景が、アクション条件なしの前景モデルで学習されることは、保証されない。

これは、Baum-Welchアルゴリズムの学習原理が、gradient（勾配）学習によるパラメータ収束の学習方法であるため、（モデル）パラメータの初期値依存性によりローカルミニマムにトラップされてしまうことがあるからである。

典型的なローカルミニマムのパターンでは、アクションなし前景の学習が、あるアクション条件付きの前景モデルによって開始され、又は、アクション付き前景の学習が、あるアクション条件なしの前景モデルによって開始され、その後、学習を開始した前景モデルが、学習の対象を、他の前景に切り替えることができなくなる。

理論的には、アクション付き前景については、アクション条件付きの前景モデルによって学習した方が、アクション条件なしの前景モデルで学習するよりも、尤度が大きくなることが保証されているが、本技術では、初期値依存で学習が停滞することを防止するため、前景モデルが学習の対象とする前景を、外的に切り替えることを促す評価プロセス（以下、切り替え促進処理ともいう）を導入することができる。

図９は、切り替え促進処理を説明する図である。

切り替え促進処理では、第４章で説明した前景モデルの更新の優先順位付けにおいて、アクション条件付きの前景モデルが、アクション条件なしの前景モデルよりも、優先的に、対象モデルに選択されるように、順位付けが行われる。

さらに、切り替え促進処理では、対象モデルに選択されたアクション条件付きの前景モデル#mの前景見えモデルb_fg{m}として、混在モデルが有するM個の前景モデル#1ないし#Mの前景見えモデルb_fg{1}ないしb_fg{M}をそれぞれ採用したと仮定した仮定モデルVM#1ないしVM#Mが、画像の観測値O及びアクションUを用いて更新される。

ここで、図９では、前景モデル#1が、対象モデルに選択されている。

その後、切り替え促進処理では、更新後の仮定モデルVM#1ないしVM#Mそれぞれについて、遷移確率の平均エントロピーH_meanが、式（２４）に従って求められる。

・・・（２４）

ここで、式（２４）の遷移確率a_ij(w_k)は、（更新後の）仮定モデルの遷移確率である。また、lnは、自然対数（ネイピア数を底とする対数）を表す。

さらに、切り替え促進処理では、更新後の仮定モデルVM#1ないしVM#Mのうちの、遷移確率のエントロピーH_meanが最小の仮定モデルVM#m'が、式（２５）に従って求められる（検出される）。

・・・（２５）

ここで、式（２５）において、argmin[]は、かっこ[]内の最小値を与える変数mを表す。また、a_ij{m}(w_k)は、（更新後の）仮定モデルVM#mの遷移確率を表し、H_mean{m}は、仮定モデルVM#mの遷移確率a_ij{m}(w_k)の平均エントロピーを表す。

切り替え促進処理では、更新後の仮定モデルVM#1ないしVM#Mのうちの、遷移確率のエントロピーが最小の仮定モデルVM#m'を用いて、式（１）の観測尤度p(o_t|s_t=i)が求められ、その観測尤度p(o_t|s_t=i)を、対象モデルの観測尤度として用いて、対象モデルの初期状態確率π_i{m}、遷移確率a_ij{m}、及び、前景見えモデルb_fg{m}が更新される。

以上のように、アクション条件付きの前景モデルを、優先的に、対象モデルに選択し、対象モデルに選択されたアクション条件付きの前景モデル#mの前景見えモデルb_fg{m}として、混在モデルが有するM個の前景モデル#1ないし#Mの前景見えモデルb_fg{1}ないしb_fg{M}をそれぞれ採用したと仮定した仮定モデルVM#1ないしVM#Mを、画像の観測値O及びアクションUを用いて更新し、更新後の仮定モデルVM#1ないしVM#Mのうちの、遷移確率の平均エントロピーが最小の仮定モデルVM#m'を用いて、観測尤度p(o_t|s_t=i)を求め、その観測尤度p(o_t|s_t=i)を対象モデルの観測尤度として用いて、対象モデルの初期状態確率π_i{m}、遷移確率a_ij{m}、及び、前景見えモデルb_fg{m}を更新することで、アクション条件付きの前景モデルが学習の対象とする前景が、アクション付き前景になるように、アクション条件付きの前景モデルが学習の対象とする前景の切り替えが促される。

図１０は、アクション条件付きの前景モデルの遷移確率を説明する図である。

アクション条件付きの前景モデルは、アクションごとの遷移確率a_ij(w_k)を有するので、ある状態iからの遷移確率は、アクションごとに存在する。

対象モデルとしてのアクション条件付きの前景モデルに対して与えられるアクション系列Uと、対象モデルが有する前景見えモデルb_fgの移動とが対応している場合、状態iからの状態遷移は、アクションw_kごとに分離される。

すなわち、対象モデルに学習データとして与えられるアクションw_kと、対象モデルの前景見えモデルb_fgの移動とが対応（リンク）していれば、対象モデルの状態iにおいて、あるアクションw_kが行われたときに、特定の１つの状態jに遷移する遷移確率a_ij(w_k)が、1となる。

具体的には、例えば、状態iから、４つの状態j={1,2,3,4}に遷移する可能性があり、４つのアクションw_k={w₁,w₂,w₃,w₄}を行うことが可能である場合において、あるアクションw_jが行われたときに、状態iに対応する位置f_iから、ある状態jに対応する位置f_jに、対象モデルの前景見えモデルb_fgが移動するのであれば、遷移確率a_ij(w_j)は、1となり、jに等しくないkについて、遷移確率a_ij(w_k)は、0になる。

以上のように、対象モデルに学習データとして与えられるアクションw_kと、対象モデルの前景見えモデルb_fgの移動とが対応している場合、状態iにおいてアクションw_kが行われたときに、そのアクションw_kに対応する前景見えモデルb_fgの移動に相当する状態iからの状態遷移の遷移確率は、1となり、状態iからの他の状態遷移の遷移確率は、0となる。

その結果、対象モデルに学習データとして与えられるアクションw_kと、対象モデルの前景見えモデルb_fgの移動とが対応している場合には、ある状態iにおいて、あるアクションw_kが行われたときの遷移確率については、図１０に示すように、特定の１つの状態jへの状態遷移の遷移確率は1になり、他の状態への状態遷移の遷移確率は0になる。

ここで、図１０は、アクションw_kごとの遷移確率a_ij(w_k)を示しており、図１０において、黒で塗りつぶしてある部分は、0でない遷移確率を表している。

したがって、対象モデルに学習データとして与えられるアクションw_kと、対象モデルの前景見えモデルb_fgの移動とが対応している場合には、各状態iからの遷移確率のうちの、値が0でない遷移確率は、アクションw_kごとに、特定の状態jへの状態遷移に集中するので、遷移確率の平均エントロピーは、小さくなる。

一方、対象モデルとしてのアクション条件付きの前景モデルに対して与えられるアクション系列Uと、対象モデルが有する前景見えモデルb_fgの移動とが対応していない場合、状態iからの状態遷移は、アクションw_kごとには分離されない。

すなわち、対象モデルに学習データとして与えられるアクションw_kと、対象モデルの前景見えモデルb_fgの移動とが対応（リンク）していないと、対象モデルの状態iにおいて、あるアクションw_kが行われたときに、各状態jに遷移する遷移確率a_ij(w_k)は分散する。

具体的には、例えば、状態iから、４つの状態j={1,2,3,4}に遷移する可能性がある場合に、対象モデルに学習データとして与えられるアクションw_kと、対象モデルの前景見えモデルb_fgの移動とが対応していないと、アクションw_kが行われたときに、状態iに対応する位置f_iからは、状態j=1,2,3,4それぞれに対応する位置f₁,f₂,f₃,f₄のいずれにも、対象モデルの前景見えモデルb_fgが移動する可能性があり、その結果、状態iからの遷移確率a_i1(w_j)，a_i2(w_j)，a_i3(w_j)，a_i4(w_j)は、ほぼ同様の値の、例えば、0.25となる。

以上のように、対象モデルに学習データとして与えられるアクションw_kと、対象モデルの前景見えモデルb_fgの移動とが対応していない場合、状態iにおいてアクションw_kが行われたときに、前景見えモデルb_fgの移動に相当する状態iからの状態遷移の遷移確率（値が0でない遷移確率）は、遷移先の各状態jに分散する。

その結果、対象モデルに学習データとして与えられるアクションw_kと、対象モデルの前景見えモデルb_fgの移動とが対応していない場合には、ある状態iにおいて、あるアクションw_kが行われたときの遷移確率については、図１０に示すように、複数の状態jそれぞれへの状態遷移の遷移確率が、0でない値（黒で塗りつぶしてある部分）になる。

したがって、対象モデルに学習データとして与えられるアクションw_kと、対象モデルの前景見えモデルb_fgの移動とが対応していない場合には、各状態iからの遷移確率のうちの、値が0でない遷移確率は、アクションw_kごとに、特定の状態jへの状態遷移に集中しないので、遷移確率の平均エントロピーは、大きくなる。

ここで、対象モデルに学習データとして与えられるアクションw_kと、対象モデルの前景見えモデルb_fgの移動とが対応していない場合とは、対象モデルに学習データとして与えられるアクションw_kに対応する移動を行う前景（アクション付き前景）が、対象モデル以外の前景モデルで学習されている場合と、対象モデルにおいて、アクションなし前景が学習されている場合とがある。

切り替え促進処理では、上述したように、対象モデルに選択されたアクション条件付きの前景モデル#mの前景見えモデルb_fg{m}として、混在モデルが有するM個の前景モデル#1ないし#Mの前景見えモデルb_fg{1}ないしb_fg{M}をそれぞれ採用したと仮定した仮定モデルVM#1ないしVM#Mが、画像の観測値O及びアクションUを用いて更新され、更新後の仮定モデルVM#1ないしVM#Mのうちの、遷移確率の平均エントロピーが最小の仮定モデルVM#m'が検出される。

遷移確率の平均エントロピーが最小の仮定モデルVM#m'で学習されている前景（仮定モデルVM#m'の生成に採用された前景見えモデルb_fgにおいて見えが学習されている前景）は、対象モデルに学習データとして与えられるアクションw_kに対応する移動を行っている前景（アクション付き前景）である可能性が高いので、切り替え促進処理では、その前景が、対象モデルの学習の対象に切り替わることを促すために、遷移確率のエントロピーが最小の仮定モデルVM#m'の観測尤度p(o_t|s_t=i)を、対象モデルの観測尤度として用いて、対象モデルの初期状態確率π_i{m}、遷移確率a_ij{m}、及び、前景見えモデルb_fg{m}が更新される。

本技術では、以上の切り替え促進処理とともに、第４章で説明した排他制約処理を行うことができる。

切り替え促進処理が機能することにより、アクション条件付きの前景モデルによる、アクション付き前景の学習が優先的に行われ、その後に、優先順位の低いアクション条件なしの前景モデルによる、アクションなし前景の学習が行われる。

また、排他制約処理が機能することにより、異なる前景モデルでは、異なる前景が学習される（異なる前景モデルにおいて、同一の前景が学習されることが防止される）。

したがって、切り替え促進処理と排他制約処理との両方が機能することにより、画像の観測値に複数の前景が含まれる場合に、１つの前景は、１つの前景モデルで学習されるとともに、アクション付き前景は、アクション条件付きの前景モデルで学習され、アクションなし前景は、アクション条件なしの前景モデルで学習される。

すなわち、本技術によれば、複数の前景を、自己組織的に分離して学習することができ、さらに、複数の前景に、アクションなし前景とアクション付き前景とが含まれる場合には、アクションなし前景は、アクション条件なしの前景モデルで学習され、アクション付き前景は、アクション条件付きの前景モデルで学習される。

［本技術を適用したエージェントの一実施の形態］

図１１は、本技術を適用したエージェントの一実施の形態の構成例を示すブロック図である。

図１１において、エージェントとしての、例えば、ロボットは、カメラ１、アクション制御部２、モータ３、及び、学習装置４を有する。

カメラ１は、画像を撮影し、画像の観測値Oを、学習装置４に供給する。

アクション制御部２は、モータ３を駆動する駆動信号としてのアクションU（の信号）を生成し、モータ３、及び、学習装置４に供給する。

モータ３は、アクション制御部２からのアクションUに従って駆動し、これにより、例えば、図示せぬハンドが移動する。

学習装置４は、バッファ１１、データ取得部１２、モデル学習部１３、及び、モデル記憶部１４を有し、カメラ１からの画像の観測値O、さらには、アクション制御部２からのアクションUを、学習データとして用いて、分離学習モデルの学習を行う。

ここで、学習データには、画像の観測値OやアクションUの他、図５で説明した視野領域Rが含まれる。例えば、カメラ１が、エージェントの頭部に搭載されている場合、視野領域Rは、例えば、エージェントの頭部の角度等から認識される。

学習装置４において、バッファ１１は、カメラ１からの観測値Oと、アクション制御部２からのアクションUとを一時記憶する。

データ取得部１２は、バッファ１１に記憶された観測値OやアクションUの一部、又は、全部を、学習データとして取得し、モデル学習部１３に供給する。

モデル学習部１３は、データ取得部１２からの学習データを用いて、分離学習モデルの学習（パラメータの更新）を行う。

すなわち、モデル学習部１３は、データ記憶部２１、優先順位設定部２２、割引処理部２３、モデル更新部２４、及び、エントロピー計算部２５を有する。

データ記憶部２１は、データ取得部１２からの学習データを一時記憶する。また、データ記憶部２１は、分離学習モデルの追加学習を行う場合に、更新演算の途中結果を記憶する。

優先順位設定部２２は、分離学習モデルが有する１以上の前景モデルの優先順位を設定する。

割引処理部２３は、データ記憶部２１に記憶された学習データとしての画像の観測値Oの割引処理（図７）を行う。

モデル更新部２４は、データ記憶部２１に記憶された学習データを用いて、分離学習モデルの学習、すなわち、分離学習モデルのパラメータの更新を行う。

エントロピー計算部２５は、図９で説明した切り替え促進処理において、仮定モデルについて、遷移確率の平均エントロピーH_meanを、式（２４）に従って計算する。

モデル記憶部１４は、分離学習モデル（のパラメータ）を記憶する。

［学習処理］

図１２は、図１１の学習装置４が行う、分離学習モデルの学習の処理（学習処理）を説明するフローチャートである。

ステップＳ１１において、モデル更新部２４は、モデル記憶部１４に記憶された分離学習モデル（のパラメータ）を初期化し、処理は、ステップＳ１２に進む。

ステップＳ１２では、優先順位設定部２２が、モデル記憶部１４に記憶された分離学習モデルが有する前景モデルの学習の優先順位を設定して、処理は、ステップＳ１３に進む。

ここで、優先順位設定部２２は、分離学習モデルが、アクション条件付きの前景モデルと、アクション条件なしの前景モデルとを有する場合には、アクション条件付きの前景モデルに対して、アクション条件なしの前景モデルよりも高い順位の優先順位を設定する。

なお、分離学習モデルが、アクション条件付きの前景モデルとして、複数の前景モデルを有する場合、その複数のアクション条件付きの前景モデルの中での優先順位は、任意の順位を採用することができる。

同様に、分離学習モデルが、アクション条件なしの前景モデルとして、複数の前景モデルを有する場合、その複数のアクション条件なしの前景モデルの中での優先順位は、任意の順位を採用することができる。

ステップＳ１３では、データ取得部１２が、バッファ１１に記憶された学習データから、まだ、分離学習モデルの学習に用いていない最新の所定の系列長分の学習データを取得し、データ記憶部２１に供給して記憶させる。

そして、処理は、ステップＳ１３からステップＳ１４に進み、モデル更新部２４は、優先順位設定部２２が設定した優先順位に従い、モデル記憶部１４に記憶された分離学習モデルが有する前景モデルから、データ記憶部２１に記憶された学習データを用いて学習を行っていない前景モデルのうちの、優先順位が最も高い前景モデルを、学習の対象の対象モデルとして選択し、処理は、ステップＳ１５に進む。

ステップＳ１５では、モデル更新部２４は、対象モデルが、優先順位が高い高順位モデル、すなわち、アクション条件付きの前景モデルであるかどうかを判定する。

ステップＳ１５において、対象モデルが、高順位モデルであるアクション条件付きの前景モデルでないと判定された場合、すなわち、対象モデルが、アクション条件なしの前景モデルである場合、処理は、ステップＳ１６をスキップして、ステップＳ１７に進む。

また、ステップＳ１５において、対象モデルが、高順位モデルであるアクション条件付きの前景モデルであると判定された場合、処理は、ステップＳ１６に進み、モデル学習部１３は、最小エントロピー検出処理を行って、処理は、ステップＳ１７に進む。

ここで、最小エントロピー検出処理では、対象モデルに選択されたアクション条件付きの前景モデルの前景見えモデルとして、分離学習モデルが有する１以上の前景モデルの前景見えモデルをそれぞれ採用したと仮定した仮定モデルが生成される。そして、仮定モデルが、データ記憶部２１に記憶された学習データを用いて更新され、更新後の仮定モデルのうちの、遷移確率の平均エントロピーが最小の仮定モデルが検出される。

ステップＳ１７では、モデル更新部２４は、対象モデルの更新に用いる観測尤度p(o_t|s_t=i)を、式（１）に従って求め、処理は、ステップＳ１８に進む。

ここで、対象モデルが、アクション条件なしの前景モデルである場合、ステップＳ１７では、そのアクション条件なしの前景モデルを用いて、式（１）の観測尤度p(o_t|s_t=i)が、対象モデルの更新に用いる観測尤度p(o_t|s_t=i)として求められる。

また、対象モデルが、アクション条件付きの前景モデルである場合、ステップＳ１６で検出される、遷移確率の平均エントロピーが最小の仮定モデルを用いて、式（１）の観測尤度p(o_t|s_t=i)が、対象モデルの更新に用いる観測尤度p(o_t|s_t=i)として求められる。

ステップＳ１８では、モデル更新部２４は、ステップＳ１７で求めた対象モデルの更新に用いる観測尤度p(o_t|s_t=i)を用いて、対象モデルの前向き確率α_t(i)、及び、後ろ向き確率β_t(i)を求め、処理は、ステップＳ１９に進む。

ステップＳ１９では、モデル更新部２４は、ステップＳ１８で求めた前向き確率α_t(i)、及び、後ろ向き確率β_t(i)等を用いて、対象モデルの初期状態確率π_iを更新する。

さらに、ステップＳ１９では、モデル更新部２４は、ステップＳ１８で求めた前向き確率α_t(i)、及び、後ろ向き確率β_t(i)等を用いて、対象モデルの遷移確率a_ij（又はa_ij(w_k)）を更新し、必要に応じて、その遷移確率a_ijの更新演算の途中結果を、データ記憶部２１に記憶（上書き）させて、処理は、ステップＳ２０に進む。

なお、対象モデルが、アクション条件付きの前景モデルであり、ステップＳ１７において、遷移確率の平均エントロピーが最小の仮定モデル（以下、最小仮定モデルともいう）を用いて、式（１）の観測尤度p(o_t|s_t=i)が、対象モデルの更新に用いる観測尤度p(o_t|s_t=i)として求められている場合、ステップＳ１９では、対象モデルから生成された最小仮定モデルの遷移確率も、対象モデルの遷移確率と同様に（同一の値に）更新される。

ステップＳ２０では、モデル更新部２４は、ステップＳ１８で求めた前向き確率α_t(i)、及び、後ろ向き確率β_t(i)等を用いて、対象モデルの前景見えモデルb_fgを更新し、必要に応じて、その前景見えモデルb_fgの更新演算の途中結果を、データ記憶部２１に記憶（上書き）させて、処理は、ステップＳ２１に進む。

ステップＳ２１では、モデル更新部２４は、対象モデルの更新後の分離学習モデルにおいて、学習データが観測される尤度Lを計算し、その尤度Lが収束したかどうかを判定する。

ここで、対象モデルの更新後の分離学習モデルにおいて、学習データが観測される尤度Lは、例えば、式（２６）に従って求めることができる。

・・・（２６）

なお、式（２６）のTは、ステップＳ１３でデータ記憶部２１に記憶された学習データの系列長を表す。

対象モデルが、アクション条件なしの前景モデルである場合、式（２６）の尤度Lは、系列長がTの学習データに含まれる画像の観測値O＝{o₁,o₂,・・・,O_T}を用いて求められる式（２）の前向き確率α_t(i)を用いて計算される。

また、対象モデルが、アクション条件付きの前景モデルである場合、式（２６）の尤度Lは、系列長がTの学習データに含まれる画像の観測値O＝{o₁,o₂,・・・,O_T}、及び、アクション系列U＝{u₀,u₁,・・・,U_T-1}を用いて求められる式（１１）の前向き確率α_t(i)を用いて計算される。

ここで、対象モデルについて、ステップＳ２１で求められる最新の尤度Lを、L_newと表すとともに、ステップＳ２１で求められた前回の尤度Lを、L_oldと表すこととすると、ステップＳ２１では、最新の尤度L_newの、前回の尤度L_oldに対する増分L_new-L_oldが、所定の閾値ε未満（以下）であるかどうかによって、尤度Lが収束したかどうかが判定される。

すなわち、尤度の増分L_new-L_oldが、所定の閾値ε未満である場合に、尤度Lが収束したと判定される。

なお、前回の尤度（としての変数）L_oldは、対象モデルの最初のパラメータの更新時に、十分に小さな負の値で初期化される。

ステップＳ２１において、尤度Lが収束していないと判定された場合、処理は、ステップＳ１７に戻り、以下、同様の処理が繰り返される。

また、ステップＳ２１において、尤度Lが収束したと判定された場合、処理は、ステップＳ２２に進み、モデル更新部２４は、分離学習モデルが有する前景モデル（のパラメータ）のすべての更新が終了したかどうかを判定する。

ステップＳ２２において、分離学習モデルが有する前景モデルのすべての更新が、まだ終了していないと判定された場合、処理は、ステップＳ２３に進み、割引処理部２３は、データ記憶部２１に記憶された学習データに含まれる画像の観測値Oの割引処理を行う。

そして、処理は、ステップＳ２３からステップＳ１４に戻り、モデル更新部２４は、優先順位設定部２２が設定した優先順位に従って、対象モデルとなる前景モデルを新たに選択し、以下、同様の処理が繰り返される。

また、ステップＳ２２において、分離学習モデルが有する前景モデルのすべての更新が終了したと判定された場合、処理は、ステップＳ２４に進み、モデル更新部２４は、ステップＳ１８で求めた各前景モデルの前向き確率α_t(i)、及び、後ろ向き確率β_t(i)等を用いて、分離学習モデルの背景見えモデルb_worldを更新し、必要に応じて、その背景見えモデルb_worldの更新演算の途中結果を、データ記憶部２１に記憶（上書き）させて、処理は、ステップＳ２５に進む。

ステップＳ２５では、データ取得部１２が、バッファ１１に記憶された学習データをすべて取得した（学習データが終了した）かどうかを判定する。

ステップＳ２５において、バッファ１１に記憶された学習データのすべてを、まだ取得していないと判定された場合、処理は、ステップＳ１３に戻り、以下、同様の処理が繰り返される。

また、ステップＳ２５において、バッファ１１に記憶された学習データのすべてを取得したと判定された場合、処理は終了する。

なお、ステップＳ１９，Ｓ２０、及び、Ｓ２４において、データ記憶部２１に記憶された更新演算の途中結果は、追加学習であるステップＳ１３ないしＳ２５のループの処理において、次の学習データを用いた更新演算を行うときに用いられる。

ここで、図１２において、ステップＳ１６で、最小エントロピー検出処理を行い、ステップＳ１７で、遷移確率の平均エントロピーが最小の仮定モデルを用いて、対象モデルの更新に用いる観測尤度p(o_t|s_t=i)を求め、その後、その観測尤度p(o_t|s_t=i)を用いて、対象モデル（のパラメータ）の更新を行うことが、第５章で説明した切り替え促進処理に相当する。

また、図１２において、ステップＳ１２で優先順位を設定し、ステップＳ２３で割引処理を行うことが、第４章で説明した排他制約処理に相当する。

図１３は、図１２のステップＳ１６で行われる最小エントロピー検出処理を説明するフローチャートである。

ステップＳ３１において、モデル更新部２４は、分離学習モデルが有する１以上の前景モデルから、注目する注目モデルに選択していない前景モデルの１つを、注目モデルに選択し、処理は、ステップＳ３２に進む。

ステップＳ３２では、モデル更新部２４は、対象モデルの前景見えモデルとして、注目モデルの前景見えモデルを採用した仮定モデルを生成し、処理は、ステップＳ３２に進む。

すなわち、モデル更新部２４は、例えば、対象モデルのコピーしたコピーモデルを生成し、そのコピーモデルの前景見えモデルを、注目モデルの前景見えモデルに置換することで、仮定モデルを生成する。

ステップＳ３３では、モデル更新部２４は、データ記憶部２１に記憶された学習データを用いて、仮定モデルの観測尤度p(o_t|s_t=i)を求め、処理は、ステップＳ３４に進む。

ステップＳ３４では、モデル更新部２４は、仮定モデルの観測尤度p(o_t|s_t=i)を用いて、事後確率としての前向き確率α_t(i)及び後ろ向き確率β_t(i)を求め、処理は、ステップＳ３５に進む。

ステップＳ３５では、モデル更新部２４は、ステップＳ３４で求めた前向き確率α_t(i)、及び、後ろ向き確率β_t(i)等を用いて、仮定モデルの遷移確率a_ij（又はa_ij(w_k)）を更新し、処理は、ステップＳ３６に進む。

ステップＳ３６では、エントロピー計算部２５が、ステップＳ３５で遷移確率が更新された仮定モデル（更新後の仮定モデル）の遷移確率の平均エントロピーH_meanを求め、処理は、ステップＳ３７に進む。

ステップＳ３７では、モデル更新部２４は、分離学習モデルが有する前景モデルのすべてを、注目モデルとしたかどうかを判定する。

ステップＳ３７において、分離学習モデルが有する前景モデルのすべてを、まだ、注目モデルとしていないと判定された場合、処理は、ステップＳ３１に戻り、以下、同様の処理が繰り返される。

また、ステップＳ３７において、分離学習モデルが有する前景モデルのすべてを、注目モデルとしたと判定された場合、処理は、ステップＳ３８に進み、エントロピー計算部２５は、対象モデルの前景見えモデルとして、分離学習モデルが有する１以上の前景モデルの前景見えモデルそれぞれを採用した仮定モデルの中で、遷移確率のエントロピーH_meanが最小の仮定モデルを、最小仮定モデルとして検出し、処理は、リターンする。

［シミュレーション］

以下、本件発明者が、本技術について行ったシミュレーションについて説明する。

図１４は、シミュレーションの環境設定を示す図である。

シミュレーションでは、２次元平面上に、手先に矩形のハンドがついた１つのアームと、操作対象としての矩形の１つの物体とがあり、図中点線で囲まれた矩形の視野の範囲の画像が観測値Oとして得られる環境設定を想定した。

なお、ハンドと視野は、上下左右の４方向に移動し、物体も、ハンドとの干渉（接触）によって４方向に移動する。

図１５は、シミュレーションで用いた画像を示す図である。

シミュレーションでは、2値のビットマップ画像によって、背景と前景の見え（テクスチャ）を表現した。

図１５Ａは、環境全体の画像を示しており、図１５Ｂは、エージェントの視野の範囲の画像、すなわち、観測値Oとして用いられる画像を示している。

図１５Ａには、環境全体の画像とともに、ハンド、物体、及び、視野それぞれの領域が示されている。

図１５Ｂの観測値Oとしての画像は、図１５Ａの視野の範囲の画像である。

シミュレーションでは、ハンド、物体、及び、視野それぞれの領域は、１ステップ（１時刻）ごとに、１画素だけ、上下左右のうちのいずれか一方向に移動することができることとした。

そして、シミュレーションでは、１ステップごとの視野の範囲の画像を、学習データとしての観測値Oとして用いた。

図１６は、シミュレーションに用いたシミュレータと分離学習モデルとを示す図である。

シミュレータは、図１４で説明した環境設定を（仮想的に）生成する。

すなわち、シミュレータは、ハンドの画像である前景#1、物体の画像である前景#2、及び、背景（の画像）を記憶している。

また、シミュレータは、ハンドに対して、アクションU{1}を与えることによって、ハンドの画像である前景#1を移動させる。さらに、シミュレータは、物体に対して、ハンドの、物体に対する干渉に対応するアクションU{2}を与えることによって、物体の画像である前景#2を移動させる。

そして、シミュレータは、前景#1及び#2を、背景に重ね合わせ、その、前景#1及び#2が重ね合わされた背景から、エージェントの視野の視野領域Rを切り出すことによって、エージェントが観測する画像の観測値Oを生成する。

分離学習モデルは、２つの前景モデル#1及び#2と、背景モデルとを有する。

前景モデル#1は、アクション条件付きの前景モデルであり、アクション条件付きのHMMの遷移確率a_ij{1}(w_k)、及び、前景見えモデルb_fg{1}を有する。

前景モデル#2は、アクション条件なしの前景モデルであり、アクション条件なしのHMMの遷移確率a_ij{2}、及び、前景見えモデルb_fg{2}を有する。

背景モデルは、背景見えモデルb_worldを有する。

なお、前景モデル#1及び#2は、さらに、初期状態確率π_iを有するが、図１６では、初期状態確率π_iの図示は、省略してある。

シミュレーションでは、アクション条件付きの前景モデルである前景モデル#1に対して、シミュレータから、アクションU[1}を、学習データとして与えるとともに、前景モデル#1及び#2、並びに、背景モデルに対して、シミュレータから、画像の観測値Oと視野領域Rを、学習データとして与えた。

なお、シミュレーションにおいて、ハンドに与えられるアクションU{1}は、エージェントがハンドに与える、エージェントにとって既知のアクションであるため、学習データとして用いられるが、ハンドの、物体に対する干渉に対応するアクションU{2}は、エージェントにとって未知のアクションであるため、学習データとしては、用いられない。

以上のように、シミュレーションでは、アクションU{1}、画像の観測値O、及び、視野領域Rを、学習データとして、分離学習モデルに与え、遷移確率a_ij{1}(w_k)、及び、前景見えモデルb_fg{1}、遷移確率a_ij{2}、及び、前景見えモデルb_fg{2}、並びに、背景見えモデルb_worldの５つのパラメータを推定した。

図１７、及び、図１８は、シミュレーションの結果を示す図である。

図１７Ａは、学習の回数に対する前景モデル#1の尤度の変化を示す図である。

図１７Ａにおいて、横軸は、学習の回数（学習回数）(Iteration)を示しており、縦軸は、前景モデル#1の尤度を示している。

なお、図１７では、学習回数Cが200回で、分離学習モデルの学習が終了している。

図１７Ａでは（図１７Ｂでも同様）、丸印は、T/Cの長さ分の学習データを用いて、学習を行い、分離学習モデルの尤度L（式（２６））が収束したときの、前景モデル#1の尤度(Immediate Value)を示している。

図１７Ａでは（図１７Ｂでも同様）、前景モデル#1の尤度が、学習回数Cごとに上下していることが確認される。これは、学習回数Cごとに、学習に用いられる学習データが異なり、さらに、未学習の領域（まだ、画像の観測値Oを観測したことがない領域）の観測値Oが学習データとして与えられたときに、前景モデル#1の尤度が低下するためである。

図１７Ａにおいて（図１７Ｂでも同様）、星印は、５回分の尤度の移動平均(Moving Average)を示している。

シミュレーションでは、学習回数Cが40回程度で、アクション付き前景であるハンドの前景#1が、アクション条件付きの前景モデルである前景モデル#1の前景見えモデルb_fg{1}で学習されるとともに、アクションなし前景である物体の前景#2が、アクション条件なしの前景モデルである前景モデル#2の前景見えモデルb_fg{2}で学習された。

そのため、尤度の移動平均は、学習回数Cが40回程度までは、減少する傾向にあるが、それ以降は、増加する傾向にある。

図１７Ｂは、学習回数Cに対する前景モデル#2の尤度の変化を示す図である。

前景モデル#2の尤度も、図１７Ａの前景モデル#1の尤度と同様の傾向がある。

図１７Ｃは、学習回数Cに対する平均エントロピーの差分値の変化を示す図である。

図１７Ｃにおいて、横軸は、学習回数Cを示しており、縦軸は、平均エントロピーの差分値を示している。

ここで、平均エントロピーの差分値とは、アクション条件付きの前景モデルである前景モデル#1の前景見えモデルとして、その前景モデル#1の前景見えモデルb_fg{1}を採用したと仮定した第１の仮定モデルと、前景モデル#2の前景見えモデルb_fg{2}を採用したと仮定した第２の仮定モデルとを、学習データを用いて更新し、更新後の第１の仮定モデルの遷移確率の平均エントロピーH_mean{1}と、更新後の第２の仮定モデルの遷移確率の平均エントロピーH_mean{2}との差分H_mean{1}-H_mean{2}である。

切り替え促進処理により、差分H_mean{1}-H_mean{2}が0以上であれば、アクション条件付きの前景モデルである前景モデル#1の観測尤度として、その前景モデル#1の観測尤度が求められ、差分H_mean{1}-H_mean{2}が負であれば、アクション条件付きの前景モデルである前景モデル#1の観測尤度として、前景モデル#2の前景見えモデルb_fg{2}が採用された第２の仮定モデルの観測尤度が求められる。

図１７Ｄは、前景見えモデルの、シミュレータが記憶している前景に対する誤差の変化を示す図である。

図１７Ｄにおいて、横軸は、学習回数Cを示しており、縦軸は、前景見えモデルの誤差を示している。

すなわち、図１７Ｄにおいて、実線は、前景見えモデルb_fg{1}の、ハンドの前景#1に対する誤差を示しており、点線は、前景見えモデルb_fg{2}の、物体の前景#2に対する誤差を示している。

前景見えモデルb_fg{1}の誤差、及び、前景見えモデルb_fg{2}の誤差は、いずれも、学習回数Cが40回程度になったときに、0に近づいており、したがって、前景見えモデルb_fg{1}において、ハンドの見えとしての前景#1が獲得され、前景見えモデルb_fg{2}において、物体の見えとしての前景#2が獲得されたことを確認することができる。

図１８は、前景見えモデルb_fg{1}、及び、前景見えモデルb_fg{2}の変化を示す図である。

すなわち、図１８は、４回目から４４回目までの学習回数Cのうちの、４回ごとの学習回数の前景見えモデルb_fg{1}、及び、前景見えモデルb_fg{2}を示している。

学習の初期の段階では、前景見えモデルb_fg{1}が、物体の前景#2を学習して獲得している。

前景見えモデルb_fg{1}が、物体の前景#2を獲得したために、排他制約処理の機能が働き、前景見えモデルb_fg{2}は、ハンドの前景#1を学習し、学習回数Cが20回程度のときに、ハンドの前景#1を獲得している。

また、同時に、切り替え促進処理の機能が働き、アクション条件付きの前景モデルである前景モデル#1において、アクションなし前景である物体の前景#2ではなく、アクション付き前景であるハンドの前景#1を学習するように、前景モデル#1が学習の対象とする前景を切り替えることが促され、その結果、学習回数Cが28回程度のときに、物体の前景#2を獲得した前景見えモデルb_fg{1}が、一旦、破壊されている。

その後、学習回数Cが40回程度のときに、前景見えモデルb_fg{1}が、ハンドの前景#1を獲得し、前景見えモデルb_fg{2}は、排他制約処理の機能が働くことによって、物体の前景#2を獲得している。

以上のように、本技術では、学習（認識）対象の運動（移動）、及び、エージェントの視点の運動（移動）を考慮に入れ、観測される画像を生成する生成モデルとして、画像を記述する分離学習モデルを用意し、画像の観測系列を説明する（モデル）パラメータを、最尤推定のアプローチで推定することにより、あらかじめ学習（認識）対象の外見に関する事前知識を持ったり、学習（認識）対象にマーキングをしたりしなくとも、画像の観測系列から、学習（認識）対象の分離学習モデルを学習によって獲得することができ、学習後には、対象物体の認識ができるようになる。

また、本技術では、分離学習モデルは、エージェントの視点の運動（移動）による背景の変化を考慮に入れたモデルとなっているので、エージェントの視点が運動することで、背景が移動しても学習や認識は影響を受けない。

さらに、本技術では、ハンドを移動させるアクション系列で条件付けしたモデル化を行い、その最尤推定を実行することで、ハンドの外見（見え）に関するモデルを指定しなくとも、エージェントのハンドの観測モデル（前景見えモデル）が自動的にモデル化される。

また、本技術では、ハンドの位置を認識して特定するとともに、ハンドに対してアクションを与えたときにどのようにハンドの位置が変化するか、という身体モデルを、遷移確率として学習によって獲得するので、カメラや、ハンドの幾何的条件が変化しても、追加学習によって、適応的に追従することができる。

［本技術を適用したコンピュータの説明］

次に、上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。

そこで、図１９は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。

プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク１０５やROM１０３に予め記録しておくことができる。

あるいはまた、プログラムは、リムーバブル記録媒体１１１に格納（記録）しておくことができる。このようなリムーバブル記録媒体１１１は、いわゆるパッケージソフトウエアとして提供することができる。ここで、リムーバブル記録媒体１１１としては、例えば、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory)，MO(Magneto Optical)ディスク，DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリ等がある。

なお、プログラムは、上述したようなリムーバブル記録媒体１１１からコンピュータにインストールする他、通信網や放送網を介して、コンピュータにダウンロードし、内蔵するハードディスク１０５にインストールすることができる。すなわち、プログラムは、例えば、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送することができる。

コンピュータは、CPU(Central Processing Unit)１０２を内蔵しており、CPU１０２には、バス１０１を介して、入出力インタフェース１１０が接続されている。

CPU１０２は、入出力インタフェース１１０を介して、ユーザによって、入力部１０７が操作等されることにより指令が入力されると、それに従って、ROM(Read Only Memory)１０３に格納されているプログラムを実行する。あるいは、CPU１０２は、ハードディスク１０５に格納されたプログラムを、RAM(Random Access Memory)１０４にロードして実行する。

これにより、CPU１０２は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU１０２は、その処理結果を、必要に応じて、例えば、入出力インタフェース１１０を介して、出力部１０６から出力、あるいは、通信部１０８から送信、さらには、ハードディスク１０５に記録等させる。

なお、入力部１０７は、キーボードや、マウス、マイク等で構成される。また、出力部１０６は、LCD(Liquid Crystal Display)やスピーカ等で構成される。

ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含む。

また、プログラムは、１のコンピュータ（プロセッサ）により処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。

なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

すなわち、エージェントとしては、現実のロボットの他、ゲームのキャラクタ等の仮想的なキャラクタを採用することができる。

また、カメラ１（図１１）は、必ずしも、エージェントに搭載されている必要はない。

なお、本技術は、以下のような構成も取ることができる。

［１］
画像の背景のモデルである背景モデルと、
前記背景上を移動可能な、前記画像の前景のモデルである１以上の前景モデルと
を有し、
前記背景モデルは、前記背景の見えを表す背景見えモデルを有し、
前記１以上の前景モデルのうちの少なくとも１つは、
前記前景に対応する物体が行うアクションによって、前記背景上の前記前景の位置に対応する状態が遷移する、前記アクションごとの遷移確率と、
前記前景の見えを表す前景見えモデルと
を有する
分離学習モデルの学習を、前記物体が行うアクションと前記画像の観測値とを学習データとして用いて行う学習部を備える
情報処理装置。
［２］
前記学習部は、
前記画像の観測値と、前記分離学習モデルにおいて観測される観測値との差に対応する値を、前記分離学習モデルにおいて前記画像の観測値が観測される観測尤度として求め、
前記観測尤度、及び、前記遷移確率を用いて、前向き確率と後ろ向き確率とを求め、
Baum-Welchアルゴリズムに従い、前記前向き確率、前記後ろ向き確率、及び、前記観測尤度を用いて、前記遷移確率を更新するとともに、前記前向き確率、前記後ろ向き確率、及び、前記画像の観測値を用いて、前記前景見えモデルと前記背景見えモデルとを更新し、
前記前景見えモデルの更新では、前記画像の観測値のうちの、前記状態に対応する位置における、あらかじめ定められた前景サイズの領域の観測値を用い、
前記背景見えモデルの更新では、前記状態に対応する位置における前記前景サイズの領域の観測値を0にした前記画像の観測値を用いる
［１］に記載の情報処理装置。
［３］
前記分離学習モデルは、複数の前景モデルを有し、
前記学習部は、
前記複数の前景モデルを、学習対象の対象モデルに、順次選択して、前記対象モデルの前記遷移確率、及び、前記前景見えモデルを更新し、
その後、前記背景見えモデルを更新する
［２］に記載の情報処理装置。
［４］
前記学習部は、
前記画像の観測値から、前記対象モデルの前記前景見えモデルの更新に用いられた分の観測値を割り引く割引処理を行い、
次の対象モデルの更新を、前記割引処理後の前記画像の観測値を用いて行う
［３］に記載の情報処理装置。
［５］
前記複数の前景モデルとして、
前記アクションごとの遷移確率と、前記前景見えモデルとを有するアクション条件付きの前景モデルと、
前記アクションに無関係の遷移確率と、前記前景見えモデルとを有するアクション条件なしの前景モデルと
が混在し、
前記学習部は、
前記アクション条件付きの前景モデルを、前記アクション条件なしの前景モデルより優先的に、前記対象モデルに選択し、
前記対象モデルに選択された前記アクション条件付きの前景モデルの前記前景見えモデルとして、前記複数の前景モデルの前記前景見えモデルをそれぞれ採用したと仮定した仮定モデルを、前記画像の観測値を用いて更新し、
更新後の仮定モデルのうちの、前記遷移確率のエントロピーが最小の仮定モデルを用いて、前記観測尤度を求め、
前記観測尤度を用いて、前記対象モデルの前記遷移確率、及び、前記前景見えモデルを更新する
［３］又は［４］に記載の情報処理装置。
［６］
前記画像の観測値は、前記画像のうちの既知の視野の視野領域の観測値であり、
前記学習部は、
前記前景モデルの前記遷移確率の更新を、前記前景サイズの領域全体が前記視野領域に含まれる前記状態からの前記遷移確率のみを対象として行い、
前記前景モデルの前記前景見えモデルと、前記背景モデルの前記背景見えモデルとの更新を、前記前景サイズの領域全体が前記視野領域に含まれる前記状態についての前記前向き確率、及び、前記後ろ向き確率を用いて行う
［２］ないし［５］のいずれかに記載の情報処理装置。
［７］
前記学習部は、
前記学習データを用いて、前記分離学習モデルのパラメータとしての前記遷移確率、前記前景見えモデル、及び、前記背景見えモデルを更新する更新演算を行うことにより、前記分離学習モデルの学習を行い、
前記更新演算の途中結果を記憶し、
次の学習データと、前記更新演算の途中結果とを用いて、前記分離学習モデルのパラメータを更新する更新演算を行う
ことにより、前記分離学習モデルの追加学習を行う
［１］ないし［６］のいずれかに記載の情報処理装置。
［８］
画像の背景のモデルである背景モデルと、
前記背景上を移動可能な、前記画像の前景のモデルである１以上の前景モデルと
を有し、
前記背景モデルは、前記背景の見えを表す背景見えモデルを有し、
前記１以上の前景モデルのうちの少なくとも１つは、
前記前景に対応する物体が行うアクションによって、前記背景上の前記前景の位置に対応する状態が遷移する、前記アクションごとの遷移確率と、
前記前景の見えを表す前景見えモデルと
を有する
分離学習モデルの学習を、前記物体が行うアクションと前記画像の観測値とを学習データとして用いて行う
ステップを含む情報処理方法。
［９］
画像の背景のモデルである背景モデルと、
前記背景上を移動可能な、前記画像の前景のモデルである１以上の前景モデルと
を有し、
前記背景モデルは、前記背景の見えを表す背景見えモデルを有し、
前記１以上の前景モデルのうちの少なくとも１つは、
前記前景に対応する物体が行うアクションによって、前記背景上の前記前景の位置に対応する状態が遷移する、前記アクションごとの遷移確率と、
前記前景の見えを表す前景見えモデルと
を有する
分離学習モデルの学習を、前記物体が行うアクションと前記画像の観測値とを学習データとして用いて行う学習部
として、コンピュータを機能させるためのプログラム。

１カメラ，２アクション制御部，３モータ，４学習装置，１１バッファ，１２データ取得部，１３モデル学習部，１４モデル記憶部，２１データ記憶部，２２優先順位設定部，２３割引処理部，２４モデル更新部，２５エントロピー計算部，１０１バス，１０２ CPU，１０３ ROM，１０４ RAM，１０５ハードディスク，１０６出力部，１０７入力部，１０８通信部，１０９ドライブ，１１０入出力インタフェース，１１１リムーバブル記録媒体

Claims

画像の背景のモデルである背景モデルと、
前記背景上を移動可能な、前記画像の前景のモデルである１以上の前景モデルと
を有し、
前記背景モデルは、前記背景の見えを表す背景見えモデルを有し、
前記１以上の前景モデルのうちの少なくとも１つは、
前記前景に対応する物体が行うアクションによって、前記背景上の前記前景の位置に対応する状態が遷移する、前記アクションごとの遷移確率と、
前記前景の見えを表す前景見えモデルと
を有する
分離学習モデルの学習を、前記物体が行うアクションと前記画像の観測値とを学習データとして用いて行う学習部を備える
情報処理装置。
前記学習部は、
前記画像の観測値と、前記分離学習モデルにおいて観測される観測値との差に対応する値を、前記分離学習モデルにおいて前記画像の観測値が観測される観測尤度として求め、
前記観測尤度、及び、前記遷移確率を用いて、前向き確率と後ろ向き確率とを求め、
Baum-Welchアルゴリズムに従い、前記前向き確率、前記後ろ向き確率、及び、前記観測尤度を用いて、前記遷移確率を更新するとともに、前記前向き確率、前記後ろ向き確率、及び、前記画像の観測値を用いて、前記前景見えモデルと前記背景見えモデルとを更新し、
前記前景見えモデルの更新では、前記画像の観測値のうちの、前記状態に対応する位置における、あらかじめ定められた前景サイズの領域の観測値を用い、
前記背景見えモデルの更新では、前記状態に対応する位置における前記前景サイズの領域の観測値を0にした前記画像の観測値を用いる
請求項１に記載の情報処理装置。
前記分離学習モデルは、複数の前景モデルを有し、
前記学習部は、
前記複数の前景モデルを、学習対象の対象モデルに、順次選択して、前記対象モデルの前記遷移確率、及び、前記前景見えモデルを更新し、
その後、前記背景見えモデルを更新する
請求項２に記載の情報処理装置。
前記学習部は、
前記画像の観測値から、前記対象モデルの前記前景見えモデルの更新に用いられた分の観測値を割り引く割引処理を行い、
次の対象モデルの更新を、前記割引処理後の前記画像の観測値を用いて行う
請求項３に記載の情報処理装置。
前記複数の前景モデルとして、
前記アクションごとの遷移確率と、前記前景見えモデルとを有するアクション条件付きの前景モデルと、
前記アクションに無関係の遷移確率と、前記前景見えモデルとを有するアクション条件なしの前景モデルと
が混在し、
前記学習部は、
前記アクション条件付きの前景モデルを、前記アクション条件なしの前景モデルより優先的に、前記対象モデルに選択し、
前記対象モデルに選択された前記アクション条件付きの前景モデルの前記前景見えモデルとして、前記複数の前景モデルの前記前景見えモデルをそれぞれ採用したと仮定した仮定モデルを、前記画像の観測値を用いて更新し、
更新後の仮定モデルのうちの、前記遷移確率のエントロピーが最小の仮定モデルを用いて、前記観測尤度を求め、
前記観測尤度を用いて、前記対象モデルの前記遷移確率、及び、前記前景見えモデルを更新する
請求項４に記載の情報処理装置。
前記画像の観測値は、前記画像のうちの既知の視野の視野領域の観測値であり、
前記学習部は、
前記前景モデルの前記遷移確率の更新を、前記前景サイズの領域全体が前記視野領域に含まれる前記状態からの前記遷移確率のみを対象として行い、
前記前景モデルの前記前景見えモデルと、前記背景モデルの前記背景見えモデルとの更新を、前記前景サイズの領域全体が前記視野領域に含まれる前記状態についての前記前向き確率、及び、前記後ろ向き確率を用いて行う
請求項２に記載の情報処理装置。
前記学習部は、
前記学習データを用いて、前記分離学習モデルのパラメータとしての前記遷移確率、前記前景見えモデル、及び、前記背景見えモデルを更新する更新演算を行うことにより、前記分離学習モデルの学習を行い、
前記更新演算の途中結果を記憶し、
次の学習データと、前記更新演算の途中結果とを用いて、前記分離学習モデルのパラメータを更新する更新演算を行う
ことにより、前記分離学習モデルの追加学習を行う
請求項２に記載の情報処理装置。
画像の背景のモデルである背景モデルと、
前記背景上を移動可能な、前記画像の前景のモデルである１以上の前景モデルと
を有し、
前記背景モデルは、前記背景の見えを表す背景見えモデルを有し、
前記１以上の前景モデルのうちの少なくとも１つは、
前記前景に対応する物体が行うアクションによって、前記背景上の前記前景の位置に対応する状態が遷移する、前記アクションごとの遷移確率と、
前記前景の見えを表す前景見えモデルと
を有する
分離学習モデルの学習を、前記物体が行うアクションと前記画像の観測値とを学習データとして用いて行う
ステップを含む情報処理方法。
画像の背景のモデルである背景モデルと、
前記背景上を移動可能な、前記画像の前景のモデルである１以上の前景モデルと
を有し、
前記背景モデルは、前記背景の見えを表す背景見えモデルを有し、
前記１以上の前景モデルのうちの少なくとも１つは、
前記前景に対応する物体が行うアクションによって、前記背景上の前記前景の位置に対応する状態が遷移する、前記アクションごとの遷移確率と、
前記前景の見えを表す前景見えモデルと
を有する
分離学習モデルの学習を、前記物体が行うアクションと前記画像の観測値とを学習データとして用いて行う学習部
として、コンピュータを機能させるためのプログラム。