JP2012212323A - 情報処理装置、情報処理方法、及び、プログラム - Google Patents
情報処理装置、情報処理方法、及び、プログラム Download PDFInfo
- Publication number
- JP2012212323A JP2012212323A JP2011077697A JP2011077697A JP2012212323A JP 2012212323 A JP2012212323 A JP 2012212323A JP 2011077697 A JP2011077697 A JP 2011077697A JP 2011077697 A JP2011077697 A JP 2011077697A JP 2012212323 A JP2012212323 A JP 2012212323A
- Authority
- JP
- Japan
- Prior art keywords
- model
- foreground
- learning
- background
- action
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Abstract
【課題】エージェントがアクションを行う環境中の物体の学習を、容易に行う。
【解決手段】分離学習モデルは、画像の背景のモデルである背景モデルと、背景上を移動可能な、画像の前景のモデルである1以上の前景モデルとを有する。背景モデルは、背景の見えを表す背景見えモデルを有する。1以上の前景モデルのうちの少なくとも1つは、前景に対応する物体が行うアクションによって、背景上の前景の位置に対応する状態が遷移する、アクションごとの遷移確率と、前景の見えを表す前景見えモデルとを有する。以上のような分離学習モデルの学習が、物体が行うアクションと画像の観測値とを学習データとして用いて行われる。本技術は、例えば、物体を操作するエージェントの学習を行う場合等に適用できる。
【選択図】図3
【解決手段】分離学習モデルは、画像の背景のモデルである背景モデルと、背景上を移動可能な、画像の前景のモデルである1以上の前景モデルとを有する。背景モデルは、背景の見えを表す背景見えモデルを有する。1以上の前景モデルのうちの少なくとも1つは、前景に対応する物体が行うアクションによって、背景上の前景の位置に対応する状態が遷移する、アクションごとの遷移確率と、前景の見えを表す前景見えモデルとを有する。以上のような分離学習モデルの学習が、物体が行うアクションと画像の観測値とを学習データとして用いて行われる。本技術は、例えば、物体を操作するエージェントの学習を行う場合等に適用できる。
【選択図】図3
Description
本技術は、情報処理装置、情報処理方法、及び、プログラムに関し、特に、例えば、ロボット等の、アクションを行うことが可能なエージェントがアクションを行う環境中の物体等の学習を、容易に行うことができるようにする情報処理装置、情報処理方法、及び、プログラムに関する。
従来、ある環境をカメラで撮影することによって得られる画像を用いて、その環境中の物体の学習(や認識)を行うには、学習対象(や認識対象)の画像領域の切り出しを行う必要がある。
学習対象の画像領域を切り出す方法としては、主に学習対象の外見に関する事前知識を用いるアプローチ(特許文献1)と、対象物体の運動を利用するアプローチ(特許文献2,3,4)がある。
外見に関する事前知識を用いるアプローチでは、物体を特定するためのマーキングや、あらかじめ学習対象(対象物体)に関して学習を行うことで認識モデルを作っておくことが行われる。
対象物体の運動を利用するアプローチでは、画像差分やオプティカルフローなどを用いて運動している画像領域のみが抽出される。
但し、運動している画像領域の抽出では、背景(画像)が静止していることが求められる。したがって、例えば、画像を撮影するカメラが、各種のアクションを行うことが可能なロボットに搭載されている場合に、ロボットの視点が移動することによって、カメラで撮影された画像の背景が乱れると、領域の切り出しを適切に行うことが困難なことがある。
また、ロボットが物体を操作する物体操作タスクにおいて、操作対象の物体と、ロボットが物体を操作する(ロボット自体の)ハンドとを区別するには、外見に関する事前知識を用いるアプローチでは、物体とハンドに、それぞれを区別するためのラベルをマーキングしておき、ロボットが、そのラベルを識別する必要があり、対象物体の運動を利用するアプローチでは、カメラで撮影された画像から切り出した画像領域が、物体の画像領域かどうかを認識する必要がある。
さらに、カメラで撮影された画像から切り出した画像領域が、対象物体の画像領域であるかどうかを認識するにあたっては、その認識を行う認識器に、ハンドと物体とを区別することができるように、ハンドを指定しておく(ハンドの知識を与えておく)必要がある。
また、特許文献4に記載の技術では、カメラで撮像された画像中で、ハンドを含むロボットアームがどのように写るかや、ロボットアームに対してどのようなコマンドを出力すると、ロボットアームの手先位置(ハンド)がどこに移動するか等といった幾何モデルが、あらかじめ作成され、その幾何モデルに従って物体操作が行われる。
特許文献4に記載の技術では、以上のような幾何モデルに従って物体操作が行われるため、カメラとロボットアームの相対位置を変化させた場合や、カメラのレンズを交換した場合、ロボットアームのサイズを変化させた場合等には、そのつど、幾何モデルを、人手によって修正する必要がある。
ロボット等の、アクションを行うことが可能なエージェントがアクションを行う環境中の物体の学習を行う場合、物体を特定するためのマーキングや、運動している画像領域の抽出を行う必要があり、面倒であった。
本技術は、このような状況に鑑みてなされたものであり、ロボット等の、アクションを行うことが可能なエージェントがアクションを行う環境中の物体等の学習を、容易に行うことができるようにするものである。
本技術の一側面の情報処理装置、又は、プログラムは、画像の背景のモデルである背景モデルと、前記背景上を移動可能な、前記画像の前景のモデルである1以上の前景モデルとを有し、前記背景モデルは、前記背景の見えを表す背景見えモデルを有し、前記1以上の前景モデルのうちの少なくとも1つは、前記前景に対応する物体が行うアクションによって、前記背景上の前記前景の位置に対応する状態が遷移する、前記アクションごとの遷移確率と、前記前景の見えを表す前景見えモデルとを有する分離学習モデルの学習を、前記物体が行うアクションと前記画像の観測値とを学習データとして用いて行う学習部を備える情報処理装置、又は、情報処理装置として、コンピュータを機能させるためのプログラムである。
本技術の一側面の情報処理方法は、画像の背景のモデルである背景モデルと、前記背景上を移動可能な、前記画像の前景のモデルである1以上の前景モデルとを有し、前記背景モデルは、前記背景の見えを表す背景見えモデルを有し、前記1以上の前景モデルのうちの少なくとも1つは、前記前景に対応する物体が行うアクションによって、前記背景上の前記前景の位置に対応する状態が遷移する、前記アクションごとの遷移確率と、前記前景の見えを表す前景見えモデルとを有する分離学習モデルの学習を、前記物体が行うアクションと前記画像の観測値とを学習データとして用いて行うステップを含む情報処理方法である。
以上のような一側面においては、画像の背景のモデルである背景モデルと、前記背景上を移動可能な、前記画像の前景のモデルである1以上の前景モデルとを有し、前記背景モデルは、前記背景の見えを表す背景見えモデルを有し、前記1以上の前景モデルのうちの少なくとも1つは、前記前景に対応する物体が行うアクションによって、前記背景上の前記前景の位置に対応する状態が遷移する、前記アクションごとの遷移確率と、前記前景の見えを表す前景見えモデルとを有する分離学習モデルの学習が、前記物体が行うアクションと前記画像の観測値とを学習データとして用いて行われる。
なお、情報処理装置は、独立した装置であっても良いし、1つの装置を構成している内部ブロックであっても良い。
また、プログラムは、伝送媒体を介して伝送することにより、又は、記録媒体に記録して、提供することができる。
本技術の一側面によれば、環境中の物体等の学習を、容易に行うことができる。
[本技術の概要]
図1は、本技術の概要を説明する図である。
本技術は、環境中の物体を操作することが可能なマニピュレータとしてのハンドと、環境を観測(撮影)することが可能なカメラとを具備したロボット等の、アクション可能なエージェントによって、実環境下での物体操作を実現する際に必要な環境、物体、及び、身体(ハンド)の認識を行うための認識アルゴリズムに適用可能な汎用的なフレームワークである。
本技術では、特に、環境中の物体(操作対象の物体の外観や、その物体が環境下でどのように運動するか)や、エージェント自身(アクションに対してどのようにエージェントの身体(ハンド)が環境の中で運動するのか)に関するモデルを、設計者があらかじめ作成することなく、エージェントと環境とのインタラクションを通じて得られる経験(sensory-motor pattern)から、学習によって自己組織的に獲得する。
本技術では、エージェントと環境とのインタラクションを通じて得られる物体操作の経験は、エージェントに搭載されたカメラを通じて、画像(データ)の時系列として知覚(獲得)される。
そして、本技術では、エージェントのハンドや物体には、明示的なラベルのマーキングがされてなく、かつ、ハンドや物体の外観に関する事前知識が何も与えられない状態から学習を開始し、ハンドや物体が混在して運動(移動)している画像から、ハンドや物体の外観や運動に関するモデルを学習する。
さらに、本技術では、学習したモデルのうちの、どれが制御可能な自分の身体(ハンド)で、どれが操作対象となる物体であるのかの識別を、モデルの学習と同時に実現する。
そのために、本技術では、エージェントのハンドや操作対象の物体の外観や運動に関するモデルとしての前景モデルと、物体操作が行われる環境のモデルとしての背景モデルとに分離して、ハンドや操作対象の物体を含む環境を表現するフレームワークを用意する。
すなわち、本技術では、分離学習モデルによって、ハンドや操作対象の物体を含む環境の全体を学習する。
分離学習モデルは、画像の背景のモデルである背景モデルと、背景上を移動可能な、画像の前景のモデルである1以上の前景モデルとを有する。分離学習モデルでは、背景モデルにおいて、観測される画像の背景となる環境が獲得され、前景モデルにおいて、観測される画像の前景となるハンドや操作対象の物体が獲得されることにより、環境としての背景と、ハンドや操作対象の物体としての前景とが、分離して学習される。
本技術では、エージェントによる物体操作の経験から得られる画像の観測値の系列である観測系列を用いて、確率モデルであるHMM等の最尤推定の手法の1つであるBaum-Welchアルゴリズムに従って、分離学習モデルのパラメータを推定(再推定)(更新)することで、自己組織的に、分離学習モデルを学習する。
なお、観測系列としては、例えば、カメラで撮影した画像(動画)や、コンピュータゲームの画面をキャプチャした画像(動画)等を採用することができる。
[第1章 分離学習モデルの学習]
図2は、分離学習モデルを模式的に示す図である。
分離学習モデルは、観測される画像が、環境に対応する背景と、物体等に対応する前景とで構成されることを前提として、そのような画像を、確率モデルである、例えば、HMMの定式化にしたがってモデル化したモデルであり、画像の背景のモデルである背景モデルと、背景上を移動可能な、画像の前景のモデルである1以上の前景モデルとを有する。
図2では、分離学習モデルは、背景モデルと、1つの前景モデルとを有する。
分離学習モデルでは、背景モデルが表す背景上の位置fiに、前景モデルが表す前景が配置されることによって、観測される画像が表現される。
図3は、前景が配置される背景上の位置fiと、背景上に配置される前景モデルの移動としての状態遷移とを説明する図である。
背景モデルは、背景の見えを表す背景見えモデルを、パラメータとして有する。
ここで、背景見えモデル(ひいては、背景モデル)としては、例えば、背景を表す画像、つまり、背景の見えである(矩形の)画像のテンプレートを採用することができる。
前景モデルは、背景上の位置fiに対応する、HMMの状態Siを(内部変数として)有し、状態Siから状態Sjへの状態遷移の遷移確率と、前景の見えを表す前景見えモデルとを、パラメータとして有する。
ここで、前景見えモデルとしては、例えば、前景を表す画像、つまり、前景の見えである(矩形の)画像のテンプレートを採用することができる。
また、背景モデル(背景見えモデル)については、状態Siに対応する位置fiが、あらかじめ定められている。
すなわち、いま、HMMの状態の数(総数)がN個あるとすると、例えば、図3に示すように、背景見えモデル(背景モデル)としての背景の画像のテンプレートに、等間隔に格子状に配置されたN個の格子点を、N個の各状態Siに対応する位置fiとして採用することができる。
ここで、背景見えモデル(としての背景の矩形の画像のテンプレート)の左上の点を原点とし、横方向のx軸と、縦方向のy軸とで規定される2次元座標系を、背景座標系という。
また、位置fiの背景座標系の座標を、(xi,yi)と表す。
分離学習モデルでは、図3に示すように、背景見えモデルとしての背景の画像のテンプレート上の位置fiに、前景見えモデルとしての前景の画像のテンプレートを、例えば、その前景の画像のテンプレートの左上の点が、位置fiに一致するように配置した画像が観測される。
ここで、背景見えモデルの位置fiに配置された前景見えモデル(としての前景の画像のテンプレート)の左上の点、つまり、位置fiを原点とし、横方向のu軸と、縦方向のv軸とで規定される2次元座標系を、前景座標系という。
なお、前景見えモデルのサイズは、例えば、想定される前景の最大のサイズ(以下、前景サイズともいう)に、あらかじめ定められている。前景サイズの横の長さ及び縦の長さを、それぞれ、umax+1及びvmax+1と表すこととすると、前景座標系において、前景見えモデルとしての前景の画像のテンプレートが存在する範囲は、式(0,0)≦(u,v)≦(umax,vmax)で表される。
状態Siから状態Sjへの状態遷移は、図3に示すように、背景見えモデル上に配置された前景見えモデルが、状態Siに対応する位置fiから、状態Sjに対応する位置fjに遷移(移動)することに対応する。
分離学習モデルでは、背景見えモデル、前景見えモデル、及び、背景見えモデル上の前景見えモデルの位置fi(に対応する状態Si)が、分離学習モデルにおいて観測される(画像の)観測値を生成する観測モデルを規定するパラメータとなる。
なお、本実施の形態では、画像の観測値として、例えば、白黒2値の画像、又は、グレースケールの画像を採用することとする。
但し、観測モデルのフレームワークを変えることにより、カラーの画像を、画像の観測値として採用することができる。
また、本実施の形態では、前景見えモデル、及び、背景見えモデルとして、画像のテンプレートを採用するが、前景見えモデル、及び、背景見えモデルとしては、その他、例えば、画像の局所特徴量等を採用することが可能である。
[第1.1節 アクション条件なしのHMMを利用した分離学習モデル]
分離学習モデルは、観測される画像が、環境に対応する背景と、物体等に対応する前景とで構成されることを前提として、そのような画像を、HMMの定式化に基づいてモデル化したモデルであり、Baum-Welchアルゴリズムに従って、(モデル)パラメータの推定を行うことができる。
ここで、分離学習モデルとしてのHMMの定式化に用いる変数(パラメータ)を、下記のように定める。
T:観測系列の長さ
O={o1,o2,・・・,oT}:観測系列(カメラで撮影された画像の観測値の系列)
N:HMMの状態数
S={1,2,・・・,N}又は{S1,S2,・・・,SN}:状態集合
st:時刻tの状態(番号)
i,j:状態番号
A={aij|aij=P(st+1=j|st=i)}:(状態)遷移確率
π={πi|πi=P(s0=i)}:初期状態確率
O={o1,o2,・・・,oT}:観測系列(カメラで撮影された画像の観測値の系列)
N:HMMの状態数
S={1,2,・・・,N}又は{S1,S2,・・・,SN}:状態集合
st:時刻tの状態(番号)
i,j:状態番号
A={aij|aij=P(st+1=j|st=i)}:(状態)遷移確率
π={πi|πi=P(s0=i)}:初期状態確率
また、分離学習モデルにおいて、(画像の)ある観測値が観測される観測尤度の計算に用いる観測モデル(のパラメータ)を、下記のように定める。
bworld::背景見えモデル
bfg:前景見えモデル
F={f1,f2,・・・,fN}:背景(背景見えモデルbworld)上での状態(前景(前景見えモデルbfg)の位置)の分布
bfg:前景見えモデル
F={f1,f2,・・・,fN}:背景(背景見えモデルbworld)上での状態(前景(前景見えモデルbfg)の位置)の分布
上述したように、本技術において、HMMの状態iは、背景上の前景の位置fiに対応する。したがって、状態i={1, 2, ..., N}が決定すれば、背景上での前景の位置が、一意に定まる。
また、以下では、分離学習モデルとしてのHMMを、λと表すとともに、分離学習モデルλの(モデル)パラメータを、λ(π,A,bworld,bfg)と表す。
[(i) 観測尤度の計算]
一般の離散型HMMは、ある状態iで、離散の観測値であるシンボルV={v1,v2,・・・,vQ}が観測される確率である観測確率B={bi(vq)}をパラメータとして有している。一般の離散型HMMでは、観測確率B={bi(vq)}を用いて、ある状態iにいると仮定したときの、観測値ot=vqの観測確率p(ot|st=i)=bi(ot)を計算し、Forward-Backwardアルゴリズムに従った尤度計算を行い、パラメータを更新(再推定)する。
一方、分離学習モデルは、シンボルの観測確率Bの代わりに、普遍的な背景見えモデルbworld、背景上を移動する前景見えモデルbfg、及び、背景(背景見えモデルbworld)上での前景(前景見えモデルbfg)の位置fiに対応する状態iの分布で規定される観測モデルを有する。
そこで、本技術では、観測モデルとしての背景見えモデルbworld、前景見えモデルbfg、及び、状態iの分布を用い、背景見えモデルbworld上の、状態iに対応する位置fiに、前景見えモデルbfgを配置することで得られる画像を、状態iにいると仮定したときに、分離学習モデルにおいて観測される観測値(以下、仮想観測値ともいう)omodel(i)として生成する。さらに、本技術では、その仮想観測値omodel(i)を用い、式(1)に従って、分離学習モデルにおいて、状態iで、観測値otが観測される尤もらしさである観測尤度p(ot|st=i)を求め、一般の離散型HMMの観測確率bi(ot)の代わりに用いる。
ここで、式(1)において、関数g(ot-omodel(i))は、引数である、画像の観測値(実際の観測値)otと仮想観測値omodel(i)との差分(誤差)ot-omodel(i)に対応するスカラー値の距離を算出する関数である。
また、式(1)において、σ及びDは、画像の観測値otと仮想観測値omodel(i)との差分ot-omodel(i)である誤差に対する観測尤度p(ot|st=i)の変化の鋭敏さを決定する定数であり、あらかじめ設定される。
式(1)によれば、背景見えモデルbworld上の、状態iに対応する位置fiに、前景見えモデルbfgを配置した画像が、分離学習モデルにおいて、状態iで観測される観測値(仮想観測値)omodel(i)として求められる。
そして、画像の観測値otと仮想観測値omodel(i)との差分ot-omodel(i)に対応する値が、分離学習モデルにおいて、状態iで、画像の観測値otが観測される観測尤度p(ot|st=i)として求められる。
[(ii) Forward-Backwardアルゴリズム]
分離学習モデルλについて、式(1)に従って、観測尤度p(ot|st=i)を求めることにより、その観測尤度p(ot|st=i)を用いることによって、Forward-Backwardアルゴリズムにおける前向き確率(Forward probability)αt+1(j)、及び、後ろ向き確率(Backward probability)βt+1(i)を、それぞれ、式(2)及び式(3)に従って計算することができる。
ここで、前向き確率αt+1(j)は、分離学習モデルλにおいて、観測系列o1,o2,・・・ot+1を観測して、時刻t+1に、状態jにいる確率を表す。また、後ろ向き確率βt+1(i)は、分離学習モデルλにおいて、時刻tに状態iにいて、その後、観測系列ot+1,ot+2,・・・,oTを観測する確率を表す。
式(2)によれば、状態jの初期状態確率πjが、初期値である時刻t=0の前向き確率α0(j)として求められる。さらに、式(2)によれば、時刻t=1以降の時刻の前向き確率αt+1(j)は、時刻tに状態iにいる状態確率としての前向き確率αt(i)を用いて求められる。すなわち、時刻tに状態iにいて、時刻t+1に、観測値ot+1を観測して、状態jにいる確率が、時刻t=1以降の時刻の前向き確率αt+1(j)として求められる。
また、式(3)によれば、初期値である時刻t=Tの後ろ向き確率βT(i)は、すべての状態i(1≦i≦N)に関して、1とされるが、これは、時刻t=Tの、すべての状態iの状態確率を1とすることを表している。さらに、式(3)によれば、時刻t=T-1以前の時刻の後ろ向き確率βt(i)は、時刻t+1に状態jにいる状態確率としての後ろ向き確率βt+1(j)を用いて求められる。すなわち、時刻t+1に、観測値ot+1を観測して、状態jにいるとしたときに、時刻tに、状態iにいる確率が、時刻t=T-1以前の時刻の後ろ向き確率βt(i)として求められる。
ここで、式(2)及び式(3)のaijは、状態iから状態jに遷移する(状態)遷移確率を表す。
なお、Forward-Backwardアルゴリズムにおける事後確率としての前向き確率αt(i)(及び後ろ向き確率βt(i))は、分離学習モデルλにおいて、観測系列o1,o2,・・・,oTを観測したときに、時刻tに、状態iにいる確率を表すが、このような事後確率としての前向き確率αt(i)を求めることは、観測系列o1,o2,・・・,oTが観測されたときの状態認識を行っていることと等価である。
したがって、分離学習モデルλの学習が、ある程度進行した後は、事後確率としての前向き確率αt(i)を求めることにより、背景上の前景の位置fiを推定することができる。
[(iii) Baum-Welchアルゴリズム]
HMMを利用した分離学習モデルλのパラメータλ(π,A,bworld,bfg)は、例えば、EM(Expectation-Maximization)アルゴリズムに基づくBaum-Welchアルゴリズムに従って推定(再推定)(更新)することができる。
Baum-Welchアルゴリズムによれば、分離学習モデルλにおいて、観測系列O={o1,o2,・・・oT}が観測される場合に、時刻t-1での状態iから時刻tでの状態jに(状態)遷移する確率ξt(i,j)は、式(4)に従って求めることができる。
また、分離学習モデルλにおいて、観測系列O={o1,o2,・・・oT}が観測される場合に、時刻t-1で状態iにいる確率γt-1(i)は、確率ξt(i,j)について、時刻tでの状態jに関して周辺化した確率として、式(5)に従って計算することができる。
Baum-Welchアルゴリズムでは、式(4)の確率ξt(i,j)、及び、式(5)の確率γt-1(i)を用いて、パラメータλ(π,A,bworld,bfg)が再推定される。
ここで、再推定後の分離学習モデルを、λ'と表すとともに、パラメータを、λ'(π',A',b'world,b'fg)と表すこととする。
再推定後のパラメータλ'(π',A',b'world,b'fg)は、式(6)、式(7)、式(8)、及び、式(9)に従って求めることができる。
すなわち、更新後の初期状態確率π'iは、式(6)に従って求めることができる。
更新後の遷移確率a'ijは、式(7)に従って求めることができる。
ここで、式(7)の分子は、状態iから状態jに遷移する回数の期待値を表し、分母は、状態iから遷移する回数の期待値を表す。
更新後の前景見えモデルb'fgは、式(8)に従って求めることができる。
ここで、式(8)の(u,v)は、前景座標系(図3)上の位置(座標)を表し、図3で説明した前景サイズ内の値をとる変数、すなわち、式(0,0)≦(u,v)≦(umax,vmax)で表される(整数の)範囲内の変数である。
また、式(8)のb'fg(u,v)は、前景見えモデルとしての画像のテンプレートの、前景座標系(図3)上の位置(u,v)の画素値を表す。
さらに、ot(xj+u,yj+v)は、時刻tの観測値otとしての画像の、背景座標系上の位置(xj+u,yj+v)の画素値、すなわち、時刻tの観測値otとしての画像のうちの、背景座標系上の位置fj=(xj,yj)における前景サイズの領域(の画素値)を表す。
したがって、式(8)によれば、時刻tの観測値otとしての画像のうちの、状態jに対応する位置(xj,yj)における前景サイズの領域を用いて、更新後の前景見えモデルb'fgが求められる。
なお、式(8)の分子は、時刻tの観測値otから、状態jに対応する位置(xj,yj)における前景サイズの領域の観測値(画像)ot(xj+u,yj+v)を切り出し、その画像ot(xj+u,yj+v)に、時刻tに状態jにいる確率αt(j)βt(j)を重み付けして(乗算して)、その結果得られる重み付け値(乗算値)の、すべての時刻、及び、すべての状態についての総和になっており、前景サイズの領域(xj+u,yj+v)に観測される観測値(画像)ot(xj+u,yj+v)の期待値を表す。
また、式(8)の分母は、すべての時刻、すべての状態についての、(状態)遷移の回数の期待値を表す。
更新後の背景見えモデルb'worldは、式(9)に従って求めることができる。
式(9)において、(x,y)は、背景座標系(図3)上の位置(座標)を表す。ot world(x,y)は、状態jに対応する位置(xj,yj)における前景サイズの領域(の観測値)ot(xj+u,yj+v)を0にした時刻tの観測値ot、つまり、時刻tの観測値otとしての画像のうちの、前景の領域の画素値を0にした画像を表す。
したがって、式(9)の分子は、状態jに対応する位置(xj,yj)における前景サイズの領域の観測値(画素値)ot(xj+u,yj+v)を0にした時刻tの観測値ot world(x,y)としての画像に、時刻tに状態jにいる確率αt(j)βt(j)を重み付けして(乗算して)、その結果得られる重み付け値(乗算値)の、すべての時刻、及び、すべての状態についての総和になっており、前景の移動(遷移)によらない普遍的な画像、すなわち、背景として観測される画像の期待値を表す。
また、式(9)の分母は、式(8)の分母と同様に、すべての時刻、すべての状態についての、(状態)遷移の回数の期待値を表す。
以上のように、前景見えモデルbfgの更新では、画像の観測値otのうちの、状態jに対応する位置(xj,yj)における前景サイズの領域の観測値ot(xj+u,yj+v)を用い、背景見えモデルbworldの更新では、状態jに対応する位置における前景サイズの領域の観測値を0にした画像の観測値ot world(x,y)を用いることにより、背景と、その背景上を移動する前景とが、自己組織的に分離されて学習され、その結果、物体を特定するためのマーキングや、運動(移動)している画像領域の抽出を行うことなく、背景と、その背景上を移動する前景との学習を、容易に行うことができる。
[(iv) パラメータの初期値]
分離学習モデルλの学習にあたり、パラメータλ(π,A,bworld,bfg)の初期値としては、例えば、0ないし1の範囲のランダムな値が設定される。
但し、本技術では、遷移確率aijについては、例えば、式(10)に従って、背景上を移動する前景の移動を、現在の位置から近傍の位置に制約する近傍制約を設けた初期値が設定される。
ここで、式(10)において、rand[0,1]は、0ないし1の範囲のランダムな値を表す。
また、式(10)において、dijは、状態iに対応する背景上の位置fiと、状態jに対応する背景上の位置fjとの間の距離を表し、dminは、近傍を定義する定数の閾値である。
背景座標系において、例えば、状態に対応する位置どうし(の横及び縦)の距離が1である場合に、前景の移動を、現在の位置から4近傍までの位置の遷移に制約するときには、閾値dminは、式1≦dmin<√2で表される範囲の値に設定される。また、前景の移動を、現在の位置から8近傍までの位置の遷移に制約するときには、閾値dminは、式√2≦dmin<2で表される範囲の値に設定される。
[第1.2節 アクションで状態遷移を条件付けたHMM(アクション条件付きのHMM)を利用した分離学習モデル]
上述の分離学習モデルで利用したHMMでは、遷移確率aijは、ある状態iからの遷移の総数に対する、ある状態jへの遷移の回数の比率であり、単純に(特に条件のない)、状態間の遷移の確率を表している。
本技術では、HMMの表現を拡張し、状態遷移に関して遷移を引き起こすアクションwを条件付けた遷移確率aij(w)を有するHMM(以下、アクション条件付きのHMMともいう)を扱い、以下では、そのようなアクション条件付きのHMM(の遷移確率)を利用した分離学習モデルについて説明する。
ここで、アクションwを条件付けない、アクションwとは無関係の遷移確率aijを有するHMMを、アクション条件付きのHMMと区別するために、アクション条件なしのHMMともいう。
アクション条件付きのHMMでは、状態iから状態jへの遷移確率のテーブルを、アクションごとに有することになり、遷移確率について、遷移元の状態i及び遷移先の状態jの次元に、アクションの次元が追加される。
すなわち、アクション条件なしのHMMの遷移確率aijは、遷移元の状態i及び遷移先の状態jの次元の2次元表現になるが、アクション条件付きのHMMの遷移確率aij(w)は、遷移元の状態i、遷移先の状態j、及び、アクションの次元の3次元表現になる。
なお、アクション条件付きのHMMについては、アクション条件なしのHMMで用いた変数に加えて、下記の変数を用いる。
U={u0,u1,・・・,uT-1}:アクション系列(アクションの時系列)
w={w1,w2,・・・,wK}:アクション集合(前景に対応する物体(アクション可能なエージェントのハンド)が行うことが可能なアクションの集合)
w={w1,w2,・・・,wK}:アクション集合(前景に対応する物体(アクション可能なエージェントのハンド)が行うことが可能なアクションの集合)
図4は、アクション条件なしのHMMの遷移確率A=aij、及び、アクション条件付きのHMMの遷移確率A=aij(wk)を示す図である。
上述したように、アクション条件なしのHMMの遷移確率aijは、遷移元の状態i及び遷移先の状態jの次元の2次元表現になり、アクション条件付きのHMMの遷移確率aij(wk)は、遷移元の状態i、遷移先の状態j、及び、アクションwkの次元の3次元表現になる。
アクション条件付きのHMMの遷移確率aij(wk)は、アクションwkがあったときに、状態iから状態jに遷移する確率である、アクションwkごとの遷移確率である。
アクション条件付きのHMMを利用した分離学習モデルでは、前景モデルが、アクションwとは無関係の遷移確率aijに代えて、アクションwkごとの遷移確率aij(wk)を有する。
[(i) Forward-Backwardアルゴリズム]
アクション条件付きHMMを利用した分離学習モデルλについては、Forward-Backwardアルゴリズムにおける前向き確率(Forward probability)αt+1(j)は、分離学習モデルλにおいて、アクション系列u1,u2,・・・,utのアクションが行われることに伴って、観測系列o1,o2,・・・,otが観測され、時刻t+1に、状態jにいる確率となり、式(11)に従って求めることができる。
式(11)によれば、状態jの初期状態確率πjが、初期値である時刻t=0の前向き確率α0(j)として求められる。さらに、式(11)によれば、時刻t=1以降の時刻の前向き確率αt+1(j)は、時刻tに状態iにいる状態確率としての前向き確率αt(i)を用いて求められる。すなわち、時刻tに状態iにいて、アクションutが行われることによって生じる状態遷移により、時刻t+1に、観測値ot+1を観測して、状態jにいる確率が、時刻t=1以降の時刻の前向き確率αt+1(j)として求められる。
アクション条件付きHMMを利用した分離学習モデルλについては、Forward-Backwardアルゴリズムにおける後ろ向き確率βt(i)は、分離学習モデルλにおいて、時刻tに、状態iにいて、以後、アクション系列ut+1,ut+2,・・・,uT-1のアクションが行われることに伴って、観測系列ot+1,ot+2,・・・,oTが観測される確率となり、式(12)に従って求めることができる。
式(12)によれば、初期値である時刻t=Tの後ろ向き確率βT(i)は、すべての状態i(1≦i≦N)に関して、1とされるが、これは、時刻t=Tの、すべての状態iの状態確率を1とすることを表している。さらに、式(12)によれば、時刻t=T-1以前の時刻の後ろ向き確率βt(i)は、時刻t+1に状態jにいる状態確率としての後ろ向き確率βt+1(j)を用いて求められる。すなわち、時刻tに、状態iにいて、アクションutが行われることによって生じる状態遷移により、時刻t+1に、観測値ot+1を観測して、状態jにいるとしたときに、時刻tに、状態iにいる確率が、時刻t=T-1以前の時刻の後ろ向き確率βt(i)として求められる。
[(ii) Baum-Welchアルゴリズム]
アクション条件付きのHMMを利用した分離学習モデルλのパラメータλ(π,A,bworld,bfg)は、アクション条件なしのHMMを利用した分離学習モデルλのパラメータλ(π,A,bworld,bfg)を求めるBaum-Welchアルゴリズムを、アクションwkについて拡張することにより推定(再推定)(更新)することができる。
すなわち、分離学習モデルλにおいて、アクション系列U={u0,u1,・・・,UT-1}のアクションが行われることに伴って、観測系列O={o1,o2,・・・oT}が観測される場合に、時刻t-1での状態iにおいて、アクションwkが行われることにより、時刻t-1での状態iから時刻tでの状態jに(状態)遷移する確率ξt(i,j,wk)は、式(13)に従って求めることができる。
また、分離学習モデルλにおいて、アクション系列U={u0,u1,・・・,UT-1}のアクションが行われることに伴って、観測系列O={o1,o2,・・・oT}が観測される場合に、時刻t-1に、状態iにいて、アクションut-1=wkが行われる確率γt-1(i,wk)は、確率ξt(i,j,wk)について、時刻tでの状態jに関して周辺化した確率として、式(14)に従って求めることができる。
アクション条件付きのHMMを利用した分離学習モデルλのパラメータλ(π,A,bworld,bfg)は、式(13)の確率ξt(i,j,wk)、及び、式(14)の確率γt-1(i,wk)を用いて再推定することができる。
すなわち、更新後の初期状態確率π'iは、式(15)に従って求めることができる。
更新後の遷移確率a'ij(wk)は、式(16)に従って求めることができる。
ここで、式(16)の分子は、状態iで、アクションwkが行われることにより、状態jに遷移する回数の期待値を表し、分母は、状態iで、アクションwkが行われて状態遷移が行われる回数の期待値を表す。
なお、更新後の前景見えモデルb'fgは、アクション条件なしのHMMと同様に、式(8)に従って求めることができ、更新後の背景見えモデルb'worldも、アクション条件なしのHMMと同様に、式(9)に従って求めることができる。
[第1.3節 Baum-Welchアルゴリズムの追加学習への拡張]
第1.1節及び第1.2節では、分離学習モデルの学習に用いる学習データ(観測系列及びアクション系列)のすべてが、一度に得られる場合のBaum-Welchアルゴリズムに従った学習、すなわち、バッチ学習の定式化を行ったが、Baum-Belchアルゴリズムは、追加学習に拡張することができる。
ここで、追加学習とは、1回の学習(パラメータの更新)には、全体の学習データの一部の区間しか観測できないため、学習データを、複数回に分けて学習することで、過去の学習結果を残しつつ、(モデル)パラメータを、徐々に更新し、最終的には、すべての学習データを学習することで、一度にすべての学習データを学習するのと同等の結果を得る学習である。
Baum-Welchアルゴリズムの追加学習への拡張は、式(7)の遷移確率a'ij、式(8)の前景見えモデルb'fg(b'fg(u,v))、式(9)の背景見えモデルb'world、及び、式(16)の遷移確率a'ij(wk)を求める更新演算の途中結果としての、各更新演算の分子と分母とを累積的に保持して計算することによって実現することができる。
例えば、全体でTステップ(サンプル)ある学習データを、1回あたりT/Cステップずつ用いて、分離学習モデルの学習を、C回に分けて行う追加学習を行う場合、式(7)ないし式(9)、及び、式(16)に代えて、それぞれ、式(17)、式(18)、式(19)、及び、式(20)が用いられる。
ここで、式(17)では、分子のaij n(new)及び分母のaij d(new)が、式(17)の更新演算の途中結果であり、追加学習では、途中結果aij n(new)及びaij d(new)が保持され、次の更新演算において、途中結果aij n(new)及びaij d(new)は、それぞれ、式(17)のaij n及びaij dとして用いられる。
式(18)では、分子のbfg n(new)及び分母のbd(new)が、式(18)の更新演算の途中結果であり、追加学習では、途中結果bfg n(new)及びbd(new)が保持され、次の更新演算において、途中結果bfg n(new)及びbd(new)は、それぞれ、式(18)のbfg n及びbdとして用いられる。
式(19)では、分子のbworld n(new)及び分母のbd(new)が、式(19)の更新演算の途中結果であり、追加学習では、途中結果bworld n(new)及びbd(new)が保持され、次の更新演算において、途中結果bworld n(new)及びbd(new)は、それぞれ、式(19)のbworld n及びbdとして用いられる。
なお、式(18)及び式(19)の分母である途中結果bd(new)は、同一なので、式(18)及び式(19)の分母のbd(new)は、どちらか一方を、途中結果として保持しておけばよい。
式(20)では、分子のaij n(new)(wk)及び分母のaij d(new)(wk)が、式(20)の更新演算の途中結果であり、追加学習では、途中結果aij n(new)(wk)及びaij d(new)(wk)が保持され、次の更新演算において、途中結果aij n(new)(wk)及びaij d(new)(wk)は、それぞれ、式(20)のaij n(wk)及びaij d(wk)として用いられる。
以上のように、更新演算の途中結果を記憶し、次の学習データと、更新演算の途中結果とを用いて、分離学習モデルのパラメータを更新する更新演算を行うことにより、分離学習モデルの追加学習を行うことができる。
すなわち、新しい学習データが入ってくるたびに、分離学習モデルのパラメータとしての変数の分母と分子に更新量を累積していくことで、過去の学習結果を保持しながら、新しい学習データによる更新内容を、分離学習モデルのパラメータに反映することができる。
[第2章 視野が限定される場合の分離学習モデルの学習]
図5は、エージェントの視野が限定される場合の分離学習モデルの学習を説明する図である。
第1章では、前景が配置された背景の全体の画像を観測することができることを、暗黙の前提としたが、エージェントに搭載されたカメラで撮影された画像を、観測値otとして用いる場合には、前景が配置された背景の一部の領域だけが、観測値otとして得られることがある。
すなわち、エージェントに、視野があることとすると、エージェントでは、前景が配置された背景の全体の画像のうちの、エージェントの視野の領域(視野領域)の画像のみが、観測値otとして観測される。
なお、視野領域は、エージェントが、頭部を動かすこと等により、視線の方向を移動することで変化することとする。
但し、時刻tごとの視野領域R={r1,r2,・・・,rT}は、既知のデータとして与えられることとする。
この場合、視野領域に、前景が完全に含まれる場合の前景の位置fiに対応する状態Si∈riのみを対象として、パラメータの更新を行うことで、分離学習モデルの学習を行うことができる。
図5は、前景(前景見えモデル)が配置された背景(背景見えモデル)のうちの、既知の視野領域rtの画像のみが、時刻tの観測値otとして観測される様子を示している。
図5において、丸印は、前景が配置される位置fiに対応する状態iを表しており、また、丸印のうちの黒丸印は、前景サイズの領域全体が視野領域rtに含まれる位置fiに対応する状態iを表している。
図5に示すように、前景(前景見えモデル)が配置された背景(背景見えモデル)のうちの、既知の視野領域rtの画像のみが、時刻tの観測値otとして観測される場合には、遷移確率の更新は、すべての状態からの遷移確率のうちの、前景サイズの領域全体が視野領域rtに含まれる位置fiに対応する状態i(図5において、黒丸印で示す)からの遷移確率のみを対象として行う。
また、前景見えモデル、及び、背景見えモデルの更新は、すべての状態についての事後確率としての前向き確率及び後ろ向き確率のうちの、前景サイズの領域全体が視野領域rtに含まれる位置fiに対応する状態i(図5において、黒丸印で示す)についての前向き確率αt(i)及び後ろ向き確率βt(i)のみを用いて行う。
[第3章 複数の前景モデルを有する分離学習モデルの学習]
図6は、分離学習モデルを模式的に示す図である。
分離学習モデルは、複数の前景モデルを有することができる。
図6では、分離学習モデルは、背景モデルと、2つの前景モデル#1及び#2とを有する。この場合、分離学習モデルでは、背景モデルが表す背景上の位置fiに、前景モデル#1が表す前景が配置されるとともに、位置fi'に、前景モデル#2が表す前景が配置されることによって、観測される画像が表現される。
ここで、分離学習モデルが、複数であるM個の前景モデル#1ないし#Mを有する場合のm番目の前景モデル#mが有する遷移確率aij(又はaij(wk))、及び、前景見えモデルbfgを、それぞれ、aij{m}、及び、bfg{m}と表す。
複数であるM個の前景モデル#1ないし#Mを有する分離学習モデルでは、そのM個の前景モデル#1ないし#Mが、1つの背景モデル(の背景見えモデルbworld)を共有する。
なお、観測される画像に含まれる前景の数Mは、既知であることとし、分離学習モデルは、その既知である前景の数M(以上)の前景モデルを有することとする。
また、分離学習モデルが有する前景モデル#mの遷移確率aij{m}は、アクション条件なしのHMMの遷移確率aijであっても良いし、アクション条件付きのHMMの遷移確率aij(wk)であっても良い。
ここで、アクション条件付きのHMMの遷移確率aij(wk)を有する前景モデルを、アクション条件付きの前景モデルともいい、アクション条件なしのHMMの遷移確率aijを有する前景モデルを、アクション条件なしの前景モデルともいう。
分離学習モデルが有する複数の前景モデルは、アクション条件付きの前景モデルと、アクション条件なしの前景モデルとが混在していても良い。
[第3.1節 観測尤度の計算]
分離学習モデルが、複数の前景モデルを有する場合に、分離学習モデルにおいて、(画像の)ある観測値が観測される観測尤度p(ot|st=i)を計算するときには、分離学習モデルが有する複数の前景モデルが表す前景すべてを、背景に配置し、各状態iに対応する背景上の位置fiに、分離学習モデルが有する複数の前景モデルが表す前景を配置するすべての組み合わせを考慮して、式(1)の仮想的な観測値omodel(i)を生成する。
但し、この場合、分離学習モデルが有する前景モデルの数に対して、観測尤度p(ot|st=i)の計算量が指数的に増加する。
そこで、本技術では、分離学習モデルが、複数の前景モデルを有する場合には、近似的に、観測尤度p(ot|st=i)を求めることができる。
すなわち、本技術では、複数の前景モデル(が表す前景)を、個別に、背景モデル(が表す背景)に配置し、個別の前景モデルごとに、式(1)に従って、観測尤度p(ot|st=i)を求めることができる。
この場合、状態確率(事後確率)としての前向き確率αt(i)、及び、後ろ向き確率βt(i)は、前景モデル#mごとに個別に求められる。
ここで、前景モデル#mについての前向き確率αt(i)、及び、後ろ向き確率βt(i)を、それぞれ、αt{m}(i)(又はαt{m})、及び、βt{m}(i)(又はβt{m})とも表す。
前景モデル#mが、アクション条件なしの前景モデルである場合、その前景モデル#mについての前向き確率αt{m}(i)、及び、後ろ向き確率βt{m}(i)は、その前景モデル#mについての観測尤度p(ot|st=i)を用いて、それぞれ、式(2)、及び、式(3)に従って求められる。
また、前景モデル#mが、アクション条件付きの前景モデルである場合、その前景モデル#mについての前向き確率αt{m}(i)、及び、後ろ向き確率βt{m}(i)は、その前景モデル#mについての観測尤度p(ot|st=i)を用いて、それぞれ、式(11)、及び、式(12)に従って求められる。
[第3.2節 Baum-Welchアルゴリズム]
複数の前景モデルを有する分離学習モデルλのパラメータλ(π,A,bworld,bfg)の、Baum-Welchアルゴリズムに従った推定(再推定)(更新)は、以下のようにして行うことができる。
すなわち、前景モデル#mの初期状態確率、遷移確率、前景見えモデルを、それぞれ、πi{m}、aij{m}、及び、bfg{m}と表すこととすると、前景モデル#mが、アクション条件なしの前景モデルである場合には、前景モデル#mの初期状態確率πi{m}、遷移確率aij{m}、及び、前景見えモデルbfg{m}は、その前景モデル#mについての観測尤度p(ot|st=i)、前向き確率αt{m}(i)、及び、後ろ向き確率βt{m}(i)を必要に応じて用い、それぞれ、式(6)ないし式(8)に従って更新される。
また、前景モデル#mが、アクション条件付きの前景モデルである場合には、前景モデル#mの初期状態確率πi{m}、遷移確率aij{m}、及び、前景見えモデルbfg{m}は、その前景モデル#mについての観測尤度p(ot|st=i)、前向き確率αt{m}(i)、及び、後ろ向き確率βt{m}(i)を必要に応じて用い、それぞれ、式(15)、式(16)、及び、式(8)に従って更新される。
なお、追加学習を行う場合には、前景モデル#mの遷移確率aij{m}、及び、前景見えモデルbfg{m}は、その前景モデル#mについての観測尤度p(ot|st=i)、前向き確率αt{m}(i)、及び、後ろ向き確率βt{m}(i)を必要に応じて用い、それぞれ、式(17)(又は式(20))、及び、式(18)に従って更新される。
背景見えモデルbworldは、各前景モデル#mについての前向き確率αt{m}(i)、及び、後ろ向き確率βt{m}(i)を用いて、式(21)に従って更新される。
なお、追加学習を行う場合には、背景見えモデルbworldは、式(22)に従って更新される。
ここで、式(21)及び式(22)において、ot world{m}は、m番目の前景モデル#mの位置fiにおける前景サイズの領域(の観測値)を0にした時刻tの観測値ot、つまり、時刻tの観測値otのうちの、前景モデル#mが表す前景の領域の画素値を0にした画像を表す。
したがって、式(21)及び式(22)によれば、背景見えモデルbworldは、M個の前景モデル#1ないし#Mのすべてに関する知識を統合して更新される。
[第4章 前景モデルの排他的学習]
分離学習モデルλが、複数の前景モデルを有する場合には、その分離学習モデルλの学習、すなわち、パラメータλ(π,A,bworld,bfg)の更新は、第3章で説明した方法によって行うことができる。
但し、第3章で説明した方法では、画像の観測系列中の複数の前景と、前景モデルとの対応関係に何ら制約をしていないため、分離学習モデルが有する複数の前景モデルのうちの2個以上の前景モデルによって、画像の観測系列中の同一の前景が重複して学習(モデル化)されることや、いずれの前景モデルによっても学習されない前景が生じることがあり得る。
そこで、本技術では、分離学習モデルλが、複数の前景モデルを有する場合には、前景モデル(のパラメータである初期状態確率、遷移確率、及び、前景見えモデル)の更新に、排他制約処理を導入することができる。
排他制約処理は、ある前景モデルで学習された前景を、他の前景モデルで学習しないように、学習が制限される。
排他制約処理は、前景モデルの更新の優先順位付けと、割引処理とによって実現することができる。
前景モデルの更新の優先順位付けでは、パラメータの更新を行う前景モデルに、優先順位が付けられ、その優先順位順に、前景モデルが、学習(パラメータの更新)の対象の対象モデルに選択される。
割引処理では、対象モデルの学習に用いられた学習データとしての画像の観測系列から、対象モデルの前景見えモデルの更新に用いられた分の観測値が割り引かれる。そして、次の対象モデルの更新は、割引処理後の画像の観測値を用いて行われる。
図7は、排他制約処理を説明する図である。
いま、分離学習モデルλが有するM個の前景モデル#1ないし#Mのm番目の前景モデル#mの優先順位が第m位であるとする。
また、m番目の前景モデル#mの学習(パラメータの更新)に用いられる時刻tの画像の観測値を、ot (m)と表すこととする。
排他制約処理では、上述したように、対象モデルの学習に用いられた学習データとしての画像の観測系列から、対象モデルの前景見えモデルの更新に用いられた分の観測値を割り引く割引処理が行われ、その割引処理後の画像の観測値を用いて、次の対象モデルの更新が行われる。
割引処理は、式(23)に従って行われる。
ここで、優先順位が第1位の前景モデル#1の学習に用いられる時刻tの観測値ot (1)は、時刻tの画像の観測値otに等しい。
式(23)では、状態iに対応する位置(xi,yi)における前景サイズの(矩形)領域内の、m番目の前景モデル#mの学習に用いられた観測値ot (m)(xi+u,yi+v)に、時刻tに状態iにいる確率αt(i)βt(i)(αt{m}(i)βt{m}(i))を重み付けして(乗算して)、その結果得られる重み付け値(乗算値)(重み付け画像)の、すべての状態についての総和Σαt(i)βt(i)ot (m)(xi+u,yi+v)が求められる。
そして、観測値ot (m)(xi+u,yi+v)から、総和Σαt(i)βt(i)ot (m)(xi+u,yi+v)を減算することで、次の優先順位の前景モデル#(m+1)の学習に用いられる時刻tの観測値ot (m+1)が求められる。
なお、式(23)の右辺の第1項のotと、第2項のΣαt(i)βt(i)ot (m)(xi+u,yi+v)とは、同一サイズの行列、すなわち、2次元変数であり、第2項の総和(Σ)をとるときのαt(i)βt(i)ot (m)(xi+u,yi+v)の足し込みは、otと同一サイズの2次元変数V(a1,a2)のうちの、インデクス(a1,a2)が、式(xi,yi)≦(a1,a2)≦(xi+u,yi+v)の範囲の2次元変数V(a1,a2)に対して行われる。
排他制約処理によれば、優先順位の高い前景モデルが学習した前景の情報が差し引かれた観測値が、優先順位の低い前景モデルの学習で用いられるので、優先順位の高い前景モデルが学習した前景を、優先順位が低い前景モデルが学習してしまうことを防止すること、すなわち、同一の前景を、複数の前景モデルで学習することを防止することができる。
[第5章 アクション条件付きの前景モデルとアクション条件なしの前景モデルとが混在する分離学習モデルの前景モデルと、前景との自己組織的な対応付け]
[第5.1節 アクション条件付きの前景モデルとアクション条件なしの前景モデルとが混在する分離学習モデル]
分離学習モデルが、複数の前景モデルとして、アクション条件付きの前景モデルとアクション条件なしの前景モデルとの両方を有する場合の、分離学習モデルの学習について説明する。
アクション条件付きの前景モデルとアクション条件なしの前景モデルとの両方を有する分離学習モデルによれば、背景中に、複数の前景があり、その複数の前景として、既知のアクションに伴って移動する前景(以下、アクション付き前景ともいう)と、どのようなアクションに伴って移動するかは未知であるが、移動を観測することができる前景(以下、アクションなし前景ともいう)とが混在している環境を、その環境から観測される観測系列を用いて学習することができる。
ここで、背景中に、(1以上の)アクション付き前景と(1以上の)アクションなし前景とが混在している環境とは、例えば、図1に示したように、エージェントが、自分の身体に搭載されたカメラで撮影された画像と、エージェントのハンドとしてのマニピュレータとを用いて、物体操作を行う環境等に相当する。
この場合、エージェントの視野中に知覚される画像(カメラで撮影された画像)の観測系列には、操作対象の物体の画像としての前景と、物体を操作するエージェント自身のハンドの画像としての前景とが共存する。
そして、エージェントの視野中のハンドの移動は、エージェントが自らが出力したアクションによって生じるので、エージェントのハンドに対応する前景は、既知のアクションに伴って移動するアクション付き前景である。
一方、操作対象の物体の移動は、エージェントのハンドが物体に接触することによって生じるが、どのようなアクションに伴って生じるのかは未知であるので、操作対象の物体に対応する前景は、アクションなし前景である。
なお、分離学習モデルが、以上のようなアクション付き前景とアクションなし前景とが混在している環境から観測される観測系列を学習する場合、分離学習モデルは、アクション付き前景の数(以上)のアクション条件付きの前景モデルを有するとともに、アクションなし前景の数(以上)のアクション条件なしの前景モデルを有することとする。
図8は、背景中に、1以上のアクション付き前景と1以上のアクションなし前景とが混在している環境を、カメラで撮影することにより得られる画像の観測値を生成する生成モデルとしてのグラフィカルモデルを示す図である。
すなわち、図8は、背景中に、アクション付き前景に対応するエージェントのハンドと、アクションなし前景としての操作対象の物体とが存在する環境を想定した場合の、その想定環境のグラフィカルモデルを示している。
背景中に、アクション付き前景に対応するエージェントのハンドと、アクションなし前景としての操作対象の物体とが存在する想定環境は、複数の前景モデルとして、エージェントのハンドに対応する前景モデルであるアクション条件付きの前景モデル#1と、操作対象の物体に対応する前景モデルであるアクション条件なしの前景モデル#2とを有する分離学習モデルによって表現することができる。
すなわち、アクション付き前景に対応するエージェントのハンドの画像は、ハンドの見え、ハンドの状態(位置)、初期位置、及び、ハンドの動き(移動)によって生成することができる。
アクション条件付きの前景モデル#1では、ハンドの見えは、前景見えモデルbfg{1}に、ハンドの状態(位置)は、前景モデル#1の内部変数としての状態Si{1}(背景上の前景見えモデルbfg{1}の位置fi)に、初期位置は、初期状態確率πi{1}に、ハンドの動きは、アクション条件付きのHMMの遷移確率aij{1}に、それぞれ相当する。
なお、ハンドは、そのハンドを駆動する駆動信号により駆動されるが、この駆動信号が、アクション系列(アクションの時系列)Uに相当し、ハンドの状態(位置)、つまり、前景モデル#1の状態Si{1}は、アクション系列Uに伴って遷移(移動)する。
アクションなし前景に対応する操作対象の物体の画像は、物体の見え、物体の状態(位置)、初期位置、及び、物体の動き(移動)によって生成することができる。
アクション条件なしの前景モデル#2では、物体の見えは、前景見えモデルbfg{2}に、物体の状態(位置)は、前景モデル#2の内部変数としての状態Si{2}(背景上の前景見えモデルbfg{2}の位置fi)に、初期位置は、初期状態確率πi{2}に、物体の動きは、アクション条件なしのHMMの遷移確率aij{2}に、それぞれ相当する。
そして、想定環境の背景の画像(背景の見え)は、背景モデルの背景見えモデルbworldに相当する。
想定環境の全体の見え(環境の見え)は、エージェントのハンドの画像、及び、操作対象の物体の画像を、想定環境の背景の画像に配置することで生成することができる。
さらに、想定環境の全体の見えから、エージェントの視野の範囲を切り出すことで、エージェントのカメラで撮影される画像の観測系列Oを得ることができる。
ここで、エージェントの視野は、図5で説明した視野領域Rに相当する。
分離学習モデルでは、カメラで撮影される画像の観測系列O、ハンドを駆動する駆動信号としての(既知の)アクション系列U、及び、視野領域Rを、学習データとして用いて、想定環境の学習が行われ、分離学習モデルのパラメータが求められる。
すなわち、ハンドに対応する前景モデル#1については、ハンドの見えに相当する前景見えモデルbfg{1}、ハンドの初期位置に相当する初期状態確率πi{1}、及び、ハンドの動きに相当するアクション条件付きのHMMの遷移確率aij{1}が求められる。
物体に対応する前景モデル#2については、物体の見えに相当する前景見えモデルbfg{2}、物体の初期位置に相当する初期状態確率πi{2}、及び、物体の動きに相当するアクション条件なしのHMMの遷移確率aij{2}が求められる。
また、想定環境の背景に対応する背景モデルについては、その背景の見えに相当する背景見えモデルbworldが求められる。
なお、図8では、説明を簡単にするため、背景中に、1つのアクション付き前景と、1つのアクションなし前景とが存在する想定環境を示したが、複数のアクション付き前景や、複数のアクションなし前景が存在する環境も、図8と同様のグラフィカルモデルによって表現すること、ひいては、分離学習モデルで学習することができる。
[第5.2節 遷移確率のエントロピー評価に基づくパラメータ更新]
アクション条件付きの前景モデルとアクション条件なしの前景モデルとが混在する分離学習モデル(以下、混在モデルともいう)については、第3章で説明した方法により学習を行うことができる。
但し、第3章で説明した方法では、エージェントのハンド等に対応するアクション付き前景が、アクション条件付きの前景モデルで学習されること、及び、操作対象の物体等に対応するアクションなし前景が、アクション条件なしの前景モデルで学習されることは、保証されない。
これは、Baum-Welchアルゴリズムの学習原理が、gradient(勾配)学習によるパラメータ収束の学習方法であるため、(モデル)パラメータの初期値依存性によりローカルミニマムにトラップされてしまうことがあるからである。
典型的なローカルミニマムのパターンでは、アクションなし前景の学習が、あるアクション条件付きの前景モデルによって開始され、又は、アクション付き前景の学習が、あるアクション条件なしの前景モデルによって開始され、その後、学習を開始した前景モデルが、学習の対象を、他の前景に切り替えることができなくなる。
理論的には、アクション付き前景については、アクション条件付きの前景モデルによって学習した方が、アクション条件なしの前景モデルで学習するよりも、尤度が大きくなることが保証されているが、本技術では、初期値依存で学習が停滞することを防止するため、前景モデルが学習の対象とする前景を、外的に切り替えることを促す評価プロセス(以下、切り替え促進処理ともいう)を導入することができる。
図9は、切り替え促進処理を説明する図である。
切り替え促進処理では、第4章で説明した前景モデルの更新の優先順位付けにおいて、アクション条件付きの前景モデルが、アクション条件なしの前景モデルよりも、優先的に、対象モデルに選択されるように、順位付けが行われる。
さらに、切り替え促進処理では、対象モデルに選択されたアクション条件付きの前景モデル#mの前景見えモデルbfg{m}として、混在モデルが有するM個の前景モデル#1ないし#Mの前景見えモデルbfg{1}ないしbfg{M}をそれぞれ採用したと仮定した仮定モデルVM#1ないしVM#Mが、画像の観測値O及びアクションUを用いて更新される。
ここで、図9では、前景モデル#1が、対象モデルに選択されている。
その後、切り替え促進処理では、更新後の仮定モデルVM#1ないしVM#Mそれぞれについて、遷移確率の平均エントロピーHmeanが、式(24)に従って求められる。
ここで、式(24)の遷移確率aij(wk)は、(更新後の)仮定モデルの遷移確率である。また、lnは、自然対数(ネイピア数を底とする対数)を表す。
さらに、切り替え促進処理では、更新後の仮定モデルVM#1ないしVM#Mのうちの、遷移確率のエントロピーHmeanが最小の仮定モデルVM#m'が、式(25)に従って求められる(検出される)。
ここで、式(25)において、argmin[]は、かっこ[]内の最小値を与える変数mを表す。また、aij{m}(wk)は、(更新後の)仮定モデルVM#mの遷移確率を表し、Hmean{m}は、仮定モデルVM#mの遷移確率aij{m}(wk)の平均エントロピーを表す。
切り替え促進処理では、更新後の仮定モデルVM#1ないしVM#Mのうちの、遷移確率のエントロピーが最小の仮定モデルVM#m'を用いて、式(1)の観測尤度p(ot|st=i)が求められ、その観測尤度p(ot|st=i)を、対象モデルの観測尤度として用いて、対象モデルの初期状態確率πi{m}、遷移確率aij{m}、及び、前景見えモデルbfg{m}が更新される。
以上のように、アクション条件付きの前景モデルを、優先的に、対象モデルに選択し、対象モデルに選択されたアクション条件付きの前景モデル#mの前景見えモデルbfg{m}として、混在モデルが有するM個の前景モデル#1ないし#Mの前景見えモデルbfg{1}ないしbfg{M}をそれぞれ採用したと仮定した仮定モデルVM#1ないしVM#Mを、画像の観測値O及びアクションUを用いて更新し、更新後の仮定モデルVM#1ないしVM#Mのうちの、遷移確率の平均エントロピーが最小の仮定モデルVM#m'を用いて、観測尤度p(ot|st=i)を求め、その観測尤度p(ot|st=i)を対象モデルの観測尤度として用いて、対象モデルの初期状態確率πi{m}、遷移確率aij{m}、及び、前景見えモデルbfg{m}を更新することで、アクション条件付きの前景モデルが学習の対象とする前景が、アクション付き前景になるように、アクション条件付きの前景モデルが学習の対象とする前景の切り替えが促される。
図10は、アクション条件付きの前景モデルの遷移確率を説明する図である。
アクション条件付きの前景モデルは、アクションごとの遷移確率aij(wk)を有するので、ある状態iからの遷移確率は、アクションごとに存在する。
対象モデルとしてのアクション条件付きの前景モデルに対して与えられるアクション系列Uと、対象モデルが有する前景見えモデルbfgの移動とが対応している場合、状態iからの状態遷移は、アクションwkごとに分離される。
すなわち、対象モデルに学習データとして与えられるアクションwkと、対象モデルの前景見えモデルbfgの移動とが対応(リンク)していれば、対象モデルの状態iにおいて、あるアクションwkが行われたときに、特定の1つの状態jに遷移する遷移確率aij(wk)が、1となる。
具体的には、例えば、状態iから、4つの状態j={1,2,3,4}に遷移する可能性があり、4つのアクションwk={w1,w2,w3,w4}を行うことが可能である場合において、あるアクションwjが行われたときに、状態iに対応する位置fiから、ある状態jに対応する位置fjに、対象モデルの前景見えモデルbfgが移動するのであれば、遷移確率aij(wj)は、1となり、jに等しくないkについて、遷移確率aij(wk)は、0になる。
以上のように、対象モデルに学習データとして与えられるアクションwkと、対象モデルの前景見えモデルbfgの移動とが対応している場合、状態iにおいてアクションwkが行われたときに、そのアクションwkに対応する前景見えモデルbfgの移動に相当する状態iからの状態遷移の遷移確率は、1となり、状態iからの他の状態遷移の遷移確率は、0となる。
その結果、対象モデルに学習データとして与えられるアクションwkと、対象モデルの前景見えモデルbfgの移動とが対応している場合には、ある状態iにおいて、あるアクションwkが行われたときの遷移確率については、図10に示すように、特定の1つの状態jへの状態遷移の遷移確率は1になり、他の状態への状態遷移の遷移確率は0になる。
ここで、図10は、アクションwkごとの遷移確率aij(wk)を示しており、図10において、黒で塗りつぶしてある部分は、0でない遷移確率を表している。
したがって、対象モデルに学習データとして与えられるアクションwkと、対象モデルの前景見えモデルbfgの移動とが対応している場合には、各状態iからの遷移確率のうちの、値が0でない遷移確率は、アクションwkごとに、特定の状態jへの状態遷移に集中するので、遷移確率の平均エントロピーは、小さくなる。
一方、対象モデルとしてのアクション条件付きの前景モデルに対して与えられるアクション系列Uと、対象モデルが有する前景見えモデルbfgの移動とが対応していない場合、状態iからの状態遷移は、アクションwkごとには分離されない。
すなわち、対象モデルに学習データとして与えられるアクションwkと、対象モデルの前景見えモデルbfgの移動とが対応(リンク)していないと、対象モデルの状態iにおいて、あるアクションwkが行われたときに、各状態jに遷移する遷移確率aij(wk)は分散する。
具体的には、例えば、状態iから、4つの状態j={1,2,3,4}に遷移する可能性がある場合に、対象モデルに学習データとして与えられるアクションwkと、対象モデルの前景見えモデルbfgの移動とが対応していないと、アクションwkが行われたときに、状態iに対応する位置fiからは、状態j=1,2,3,4それぞれに対応する位置f1,f2,f3,f4のいずれにも、対象モデルの前景見えモデルbfgが移動する可能性があり、その結果、状態iからの遷移確率ai1(wj),ai2(wj),ai3(wj),ai4(wj)は、ほぼ同様の値の、例えば、0.25となる。
以上のように、対象モデルに学習データとして与えられるアクションwkと、対象モデルの前景見えモデルbfgの移動とが対応していない場合、状態iにおいてアクションwkが行われたときに、前景見えモデルbfgの移動に相当する状態iからの状態遷移の遷移確率(値が0でない遷移確率)は、遷移先の各状態jに分散する。
その結果、対象モデルに学習データとして与えられるアクションwkと、対象モデルの前景見えモデルbfgの移動とが対応していない場合には、ある状態iにおいて、あるアクションwkが行われたときの遷移確率については、図10に示すように、複数の状態jそれぞれへの状態遷移の遷移確率が、0でない値(黒で塗りつぶしてある部分)になる。
したがって、対象モデルに学習データとして与えられるアクションwkと、対象モデルの前景見えモデルbfgの移動とが対応していない場合には、各状態iからの遷移確率のうちの、値が0でない遷移確率は、アクションwkごとに、特定の状態jへの状態遷移に集中しないので、遷移確率の平均エントロピーは、大きくなる。
ここで、対象モデルに学習データとして与えられるアクションwkと、対象モデルの前景見えモデルbfgの移動とが対応していない場合とは、対象モデルに学習データとして与えられるアクションwkに対応する移動を行う前景(アクション付き前景)が、対象モデル以外の前景モデルで学習されている場合と、対象モデルにおいて、アクションなし前景が学習されている場合とがある。
切り替え促進処理では、上述したように、対象モデルに選択されたアクション条件付きの前景モデル#mの前景見えモデルbfg{m}として、混在モデルが有するM個の前景モデル#1ないし#Mの前景見えモデルbfg{1}ないしbfg{M}をそれぞれ採用したと仮定した仮定モデルVM#1ないしVM#Mが、画像の観測値O及びアクションUを用いて更新され、更新後の仮定モデルVM#1ないしVM#Mのうちの、遷移確率の平均エントロピーが最小の仮定モデルVM#m'が検出される。
遷移確率の平均エントロピーが最小の仮定モデルVM#m'で学習されている前景(仮定モデルVM#m'の生成に採用された前景見えモデルbfgにおいて見えが学習されている前景)は、対象モデルに学習データとして与えられるアクションwkに対応する移動を行っている前景(アクション付き前景)である可能性が高いので、切り替え促進処理では、その前景が、対象モデルの学習の対象に切り替わることを促すために、遷移確率のエントロピーが最小の仮定モデルVM#m'の観測尤度p(ot|st=i)を、対象モデルの観測尤度として用いて、対象モデルの初期状態確率πi{m}、遷移確率aij{m}、及び、前景見えモデルbfg{m}が更新される。
本技術では、以上の切り替え促進処理とともに、第4章で説明した排他制約処理を行うことができる。
切り替え促進処理が機能することにより、アクション条件付きの前景モデルによる、アクション付き前景の学習が優先的に行われ、その後に、優先順位の低いアクション条件なしの前景モデルによる、アクションなし前景の学習が行われる。
また、排他制約処理が機能することにより、異なる前景モデルでは、異なる前景が学習される(異なる前景モデルにおいて、同一の前景が学習されることが防止される)。
したがって、切り替え促進処理と排他制約処理との両方が機能することにより、画像の観測値に複数の前景が含まれる場合に、1つの前景は、1つの前景モデルで学習されるとともに、アクション付き前景は、アクション条件付きの前景モデルで学習され、アクションなし前景は、アクション条件なしの前景モデルで学習される。
すなわち、本技術によれば、複数の前景を、自己組織的に分離して学習することができ、さらに、複数の前景に、アクションなし前景とアクション付き前景とが含まれる場合には、アクションなし前景は、アクション条件なしの前景モデルで学習され、アクション付き前景は、アクション条件付きの前景モデルで学習される。
[本技術を適用したエージェントの一実施の形態]
図11は、本技術を適用したエージェントの一実施の形態の構成例を示すブロック図である。
図11において、エージェントとしての、例えば、ロボットは、カメラ1、アクション制御部2、モータ3、及び、学習装置4を有する。
カメラ1は、画像を撮影し、画像の観測値Oを、学習装置4に供給する。
アクション制御部2は、モータ3を駆動する駆動信号としてのアクションU(の信号)を生成し、モータ3、及び、学習装置4に供給する。
モータ3は、アクション制御部2からのアクションUに従って駆動し、これにより、例えば、図示せぬハンドが移動する。
学習装置4は、バッファ11、データ取得部12、モデル学習部13、及び、モデル記憶部14を有し、カメラ1からの画像の観測値O、さらには、アクション制御部2からのアクションUを、学習データとして用いて、分離学習モデルの学習を行う。
ここで、学習データには、画像の観測値OやアクションUの他、図5で説明した視野領域Rが含まれる。例えば、カメラ1が、エージェントの頭部に搭載されている場合、視野領域Rは、例えば、エージェントの頭部の角度等から認識される。
学習装置4において、バッファ11は、カメラ1からの観測値Oと、アクション制御部2からのアクションUとを一時記憶する。
データ取得部12は、バッファ11に記憶された観測値OやアクションUの一部、又は、全部を、学習データとして取得し、モデル学習部13に供給する。
モデル学習部13は、データ取得部12からの学習データを用いて、分離学習モデルの学習(パラメータの更新)を行う。
すなわち、モデル学習部13は、データ記憶部21、優先順位設定部22、割引処理部23、モデル更新部24、及び、エントロピー計算部25を有する。
データ記憶部21は、データ取得部12からの学習データを一時記憶する。また、データ記憶部21は、分離学習モデルの追加学習を行う場合に、更新演算の途中結果を記憶する。
優先順位設定部22は、分離学習モデルが有する1以上の前景モデルの優先順位を設定する。
割引処理部23は、データ記憶部21に記憶された学習データとしての画像の観測値Oの割引処理(図7)を行う。
モデル更新部24は、データ記憶部21に記憶された学習データを用いて、分離学習モデルの学習、すなわち、分離学習モデルのパラメータの更新を行う。
エントロピー計算部25は、図9で説明した切り替え促進処理において、仮定モデルについて、遷移確率の平均エントロピーHmeanを、式(24)に従って計算する。
モデル記憶部14は、分離学習モデル(のパラメータ)を記憶する。
[学習処理]
図12は、図11の学習装置4が行う、分離学習モデルの学習の処理(学習処理)を説明するフローチャートである。
ステップS11において、モデル更新部24は、モデル記憶部14に記憶された分離学習モデル(のパラメータ)を初期化し、処理は、ステップS12に進む。
ステップS12では、優先順位設定部22が、モデル記憶部14に記憶された分離学習モデルが有する前景モデルの学習の優先順位を設定して、処理は、ステップS13に進む。
ここで、優先順位設定部22は、分離学習モデルが、アクション条件付きの前景モデルと、アクション条件なしの前景モデルとを有する場合には、アクション条件付きの前景モデルに対して、アクション条件なしの前景モデルよりも高い順位の優先順位を設定する。
なお、分離学習モデルが、アクション条件付きの前景モデルとして、複数の前景モデルを有する場合、その複数のアクション条件付きの前景モデルの中での優先順位は、任意の順位を採用することができる。
同様に、分離学習モデルが、アクション条件なしの前景モデルとして、複数の前景モデルを有する場合、その複数のアクション条件なしの前景モデルの中での優先順位は、任意の順位を採用することができる。
ステップS13では、データ取得部12が、バッファ11に記憶された学習データから、まだ、分離学習モデルの学習に用いていない最新の所定の系列長分の学習データを取得し、データ記憶部21に供給して記憶させる。
そして、処理は、ステップS13からステップS14に進み、モデル更新部24は、優先順位設定部22が設定した優先順位に従い、モデル記憶部14に記憶された分離学習モデルが有する前景モデルから、データ記憶部21に記憶された学習データを用いて学習を行っていない前景モデルのうちの、優先順位が最も高い前景モデルを、学習の対象の対象モデルとして選択し、処理は、ステップS15に進む。
ステップS15では、モデル更新部24は、対象モデルが、優先順位が高い高順位モデル、すなわち、アクション条件付きの前景モデルであるかどうかを判定する。
ステップS15において、対象モデルが、高順位モデルであるアクション条件付きの前景モデルでないと判定された場合、すなわち、対象モデルが、アクション条件なしの前景モデルである場合、処理は、ステップS16をスキップして、ステップS17に進む。
また、ステップS15において、対象モデルが、高順位モデルであるアクション条件付きの前景モデルであると判定された場合、処理は、ステップS16に進み、モデル学習部13は、最小エントロピー検出処理を行って、処理は、ステップS17に進む。
ここで、最小エントロピー検出処理では、対象モデルに選択されたアクション条件付きの前景モデルの前景見えモデルとして、分離学習モデルが有する1以上の前景モデルの前景見えモデルをそれぞれ採用したと仮定した仮定モデルが生成される。そして、仮定モデルが、データ記憶部21に記憶された学習データを用いて更新され、更新後の仮定モデルのうちの、遷移確率の平均エントロピーが最小の仮定モデルが検出される。
ステップS17では、モデル更新部24は、対象モデルの更新に用いる観測尤度p(ot|st=i)を、式(1)に従って求め、処理は、ステップS18に進む。
ここで、対象モデルが、アクション条件なしの前景モデルである場合、ステップS17では、そのアクション条件なしの前景モデルを用いて、式(1)の観測尤度p(ot|st=i)が、対象モデルの更新に用いる観測尤度p(ot|st=i)として求められる。
また、対象モデルが、アクション条件付きの前景モデルである場合、ステップS16で検出される、遷移確率の平均エントロピーが最小の仮定モデルを用いて、式(1)の観測尤度p(ot|st=i)が、対象モデルの更新に用いる観測尤度p(ot|st=i)として求められる。
ステップS18では、モデル更新部24は、ステップS17で求めた対象モデルの更新に用いる観測尤度p(ot|st=i)を用いて、対象モデルの前向き確率αt(i)、及び、後ろ向き確率βt(i)を求め、処理は、ステップS19に進む。
ステップS19では、モデル更新部24は、ステップS18で求めた前向き確率αt(i)、及び、後ろ向き確率βt(i)等を用いて、対象モデルの初期状態確率πiを更新する。
さらに、ステップS19では、モデル更新部24は、ステップS18で求めた前向き確率αt(i)、及び、後ろ向き確率βt(i)等を用いて、対象モデルの遷移確率aij(又はaij(wk))を更新し、必要に応じて、その遷移確率aijの更新演算の途中結果を、データ記憶部21に記憶(上書き)させて、処理は、ステップS20に進む。
なお、対象モデルが、アクション条件付きの前景モデルであり、ステップS17において、遷移確率の平均エントロピーが最小の仮定モデル(以下、最小仮定モデルともいう)を用いて、式(1)の観測尤度p(ot|st=i)が、対象モデルの更新に用いる観測尤度p(ot|st=i)として求められている場合、ステップS19では、対象モデルから生成された最小仮定モデルの遷移確率も、対象モデルの遷移確率と同様に(同一の値に)更新される。
ステップS20では、モデル更新部24は、ステップS18で求めた前向き確率αt(i)、及び、後ろ向き確率βt(i)等を用いて、対象モデルの前景見えモデルbfgを更新し、必要に応じて、その前景見えモデルbfgの更新演算の途中結果を、データ記憶部21に記憶(上書き)させて、処理は、ステップS21に進む。
ステップS21では、モデル更新部24は、対象モデルの更新後の分離学習モデルにおいて、学習データが観測される尤度Lを計算し、その尤度Lが収束したかどうかを判定する。
ここで、対象モデルの更新後の分離学習モデルにおいて、学習データが観測される尤度Lは、例えば、式(26)に従って求めることができる。
なお、式(26)のTは、ステップS13でデータ記憶部21に記憶された学習データの系列長を表す。
対象モデルが、アクション条件なしの前景モデルである場合、式(26)の尤度Lは、系列長がTの学習データに含まれる画像の観測値O={o1,o2,・・・,OT}を用いて求められる式(2)の前向き確率αt(i)を用いて計算される。
また、対象モデルが、アクション条件付きの前景モデルである場合、式(26)の尤度Lは、系列長がTの学習データに含まれる画像の観測値O={o1,o2,・・・,OT}、及び、アクション系列U={u0,u1,・・・,UT-1}を用いて求められる式(11)の前向き確率αt(i)を用いて計算される。
ここで、対象モデルについて、ステップS21で求められる最新の尤度Lを、Lnewと表すとともに、ステップS21で求められた前回の尤度Lを、Loldと表すこととすると、ステップS21では、最新の尤度Lnewの、前回の尤度Loldに対する増分Lnew-Loldが、所定の閾値ε未満(以下)であるかどうかによって、尤度Lが収束したかどうかが判定される。
すなわち、尤度の増分Lnew-Loldが、所定の閾値ε未満である場合に、尤度Lが収束したと判定される。
なお、前回の尤度(としての変数)Loldは、対象モデルの最初のパラメータの更新時に、十分に小さな負の値で初期化される。
ステップS21において、尤度Lが収束していないと判定された場合、処理は、ステップS17に戻り、以下、同様の処理が繰り返される。
また、ステップS21において、尤度Lが収束したと判定された場合、処理は、ステップS22に進み、モデル更新部24は、分離学習モデルが有する前景モデル(のパラメータ)のすべての更新が終了したかどうかを判定する。
ステップS22において、分離学習モデルが有する前景モデルのすべての更新が、まだ終了していないと判定された場合、処理は、ステップS23に進み、割引処理部23は、データ記憶部21に記憶された学習データに含まれる画像の観測値Oの割引処理を行う。
そして、処理は、ステップS23からステップS14に戻り、モデル更新部24は、優先順位設定部22が設定した優先順位に従って、対象モデルとなる前景モデルを新たに選択し、以下、同様の処理が繰り返される。
また、ステップS22において、分離学習モデルが有する前景モデルのすべての更新が終了したと判定された場合、処理は、ステップS24に進み、モデル更新部24は、ステップS18で求めた各前景モデルの前向き確率αt(i)、及び、後ろ向き確率βt(i)等を用いて、分離学習モデルの背景見えモデルbworldを更新し、必要に応じて、その背景見えモデルbworldの更新演算の途中結果を、データ記憶部21に記憶(上書き)させて、処理は、ステップS25に進む。
ステップS25では、データ取得部12が、バッファ11に記憶された学習データをすべて取得した(学習データが終了した)かどうかを判定する。
ステップS25において、バッファ11に記憶された学習データのすべてを、まだ取得していないと判定された場合、処理は、ステップS13に戻り、以下、同様の処理が繰り返される。
また、ステップS25において、バッファ11に記憶された学習データのすべてを取得したと判定された場合、処理は終了する。
なお、ステップS19,S20、及び、S24において、データ記憶部21に記憶された更新演算の途中結果は、追加学習であるステップS13ないしS25のループの処理において、次の学習データを用いた更新演算を行うときに用いられる。
ここで、図12において、ステップS16で、最小エントロピー検出処理を行い、ステップS17で、遷移確率の平均エントロピーが最小の仮定モデルを用いて、対象モデルの更新に用いる観測尤度p(ot|st=i)を求め、その後、その観測尤度p(ot|st=i)を用いて、対象モデル(のパラメータ)の更新を行うことが、第5章で説明した切り替え促進処理に相当する。
また、図12において、ステップS12で優先順位を設定し、ステップS23で割引処理を行うことが、第4章で説明した排他制約処理に相当する。
図13は、図12のステップS16で行われる最小エントロピー検出処理を説明するフローチャートである。
ステップS31において、モデル更新部24は、分離学習モデルが有する1以上の前景モデルから、注目する注目モデルに選択していない前景モデルの1つを、注目モデルに選択し、処理は、ステップS32に進む。
ステップS32では、モデル更新部24は、対象モデルの前景見えモデルとして、注目モデルの前景見えモデルを採用した仮定モデルを生成し、処理は、ステップS32に進む。
すなわち、モデル更新部24は、例えば、対象モデルのコピーしたコピーモデルを生成し、そのコピーモデルの前景見えモデルを、注目モデルの前景見えモデルに置換することで、仮定モデルを生成する。
ステップS33では、モデル更新部24は、データ記憶部21に記憶された学習データを用いて、仮定モデルの観測尤度p(ot|st=i)を求め、処理は、ステップS34に進む。
ステップS34では、モデル更新部24は、仮定モデルの観測尤度p(ot|st=i)を用いて、事後確率としての前向き確率αt(i)及び後ろ向き確率βt(i)を求め、処理は、ステップS35に進む。
ステップS35では、モデル更新部24は、ステップS34で求めた前向き確率αt(i)、及び、後ろ向き確率βt(i)等を用いて、仮定モデルの遷移確率aij(又はaij(wk))を更新し、処理は、ステップS36に進む。
ステップS36では、エントロピー計算部25が、ステップS35で遷移確率が更新された仮定モデル(更新後の仮定モデル)の遷移確率の平均エントロピーHmeanを求め、処理は、ステップS37に進む。
ステップS37では、モデル更新部24は、分離学習モデルが有する前景モデルのすべてを、注目モデルとしたかどうかを判定する。
ステップS37において、分離学習モデルが有する前景モデルのすべてを、まだ、注目モデルとしていないと判定された場合、処理は、ステップS31に戻り、以下、同様の処理が繰り返される。
また、ステップS37において、分離学習モデルが有する前景モデルのすべてを、注目モデルとしたと判定された場合、処理は、ステップS38に進み、エントロピー計算部25は、対象モデルの前景見えモデルとして、分離学習モデルが有する1以上の前景モデルの前景見えモデルそれぞれを採用した仮定モデルの中で、遷移確率のエントロピーHmeanが最小の仮定モデルを、最小仮定モデルとして検出し、処理は、リターンする。
[シミュレーション]
以下、本件発明者が、本技術について行ったシミュレーションについて説明する。
図14は、シミュレーションの環境設定を示す図である。
シミュレーションでは、2次元平面上に、手先に矩形のハンドがついた1つのアームと、操作対象としての矩形の1つの物体とがあり、図中点線で囲まれた矩形の視野の範囲の画像が観測値Oとして得られる環境設定を想定した。
なお、ハンドと視野は、上下左右の4方向に移動し、物体も、ハンドとの干渉(接触)によって4方向に移動する。
図15は、シミュレーションで用いた画像を示す図である。
シミュレーションでは、2値のビットマップ画像によって、背景と前景の見え(テクスチャ)を表現した。
図15Aは、環境全体の画像を示しており、図15Bは、エージェントの視野の範囲の画像、すなわち、観測値Oとして用いられる画像を示している。
図15Aには、環境全体の画像とともに、ハンド、物体、及び、視野それぞれの領域が示されている。
図15Bの観測値Oとしての画像は、図15Aの視野の範囲の画像である。
シミュレーションでは、ハンド、物体、及び、視野それぞれの領域は、1ステップ(1時刻)ごとに、1画素だけ、上下左右のうちのいずれか一方向に移動することができることとした。
そして、シミュレーションでは、1ステップごとの視野の範囲の画像を、学習データとしての観測値Oとして用いた。
図16は、シミュレーションに用いたシミュレータと分離学習モデルとを示す図である。
シミュレータは、図14で説明した環境設定を(仮想的に)生成する。
すなわち、シミュレータは、ハンドの画像である前景#1、物体の画像である前景#2、及び、背景(の画像)を記憶している。
また、シミュレータは、ハンドに対して、アクションU{1}を与えることによって、ハンドの画像である前景#1を移動させる。さらに、シミュレータは、物体に対して、ハンドの、物体に対する干渉に対応するアクションU{2}を与えることによって、物体の画像である前景#2を移動させる。
そして、シミュレータは、前景#1及び#2を、背景に重ね合わせ、その、前景#1及び#2が重ね合わされた背景から、エージェントの視野の視野領域Rを切り出すことによって、エージェントが観測する画像の観測値Oを生成する。
分離学習モデルは、2つの前景モデル#1及び#2と、背景モデルとを有する。
前景モデル#1は、アクション条件付きの前景モデルであり、アクション条件付きのHMMの遷移確率aij{1}(wk)、及び、前景見えモデルbfg{1}を有する。
前景モデル#2は、アクション条件なしの前景モデルであり、アクション条件なしのHMMの遷移確率aij{2}、及び、前景見えモデルbfg{2}を有する。
背景モデルは、背景見えモデルbworldを有する。
なお、前景モデル#1及び#2は、さらに、初期状態確率πiを有するが、図16では、初期状態確率πiの図示は、省略してある。
シミュレーションでは、アクション条件付きの前景モデルである前景モデル#1に対して、シミュレータから、アクションU[1}を、学習データとして与えるとともに、前景モデル#1及び#2、並びに、背景モデルに対して、シミュレータから、画像の観測値Oと視野領域Rを、学習データとして与えた。
なお、シミュレーションにおいて、ハンドに与えられるアクションU{1}は、エージェントがハンドに与える、エージェントにとって既知のアクションであるため、学習データとして用いられるが、ハンドの、物体に対する干渉に対応するアクションU{2}は、エージェントにとって未知のアクションであるため、学習データとしては、用いられない。
以上のように、シミュレーションでは、アクションU{1}、画像の観測値O、及び、視野領域Rを、学習データとして、分離学習モデルに与え、遷移確率aij{1}(wk)、及び、前景見えモデルbfg{1}、遷移確率aij{2}、及び、前景見えモデルbfg{2}、並びに、背景見えモデルbworldの5つのパラメータを推定した。
図17、及び、図18は、シミュレーションの結果を示す図である。
図17Aは、学習の回数に対する前景モデル#1の尤度の変化を示す図である。
図17Aにおいて、横軸は、学習の回数(学習回数)(Iteration)を示しており、縦軸は、前景モデル#1の尤度を示している。
なお、図17では、学習回数Cが200回で、分離学習モデルの学習が終了している。
図17Aでは(図17Bでも同様)、丸印は、T/Cの長さ分の学習データを用いて、学習を行い、分離学習モデルの尤度L(式(26))が収束したときの、前景モデル#1の尤度(Immediate Value)を示している。
図17Aでは(図17Bでも同様)、前景モデル#1の尤度が、学習回数Cごとに上下していることが確認される。これは、学習回数Cごとに、学習に用いられる学習データが異なり、さらに、未学習の領域(まだ、画像の観測値Oを観測したことがない領域)の観測値Oが学習データとして与えられたときに、前景モデル#1の尤度が低下するためである。
図17Aにおいて(図17Bでも同様)、星印は、5回分の尤度の移動平均(Moving Average)を示している。
シミュレーションでは、学習回数Cが40回程度で、アクション付き前景であるハンドの前景#1が、アクション条件付きの前景モデルである前景モデル#1の前景見えモデルbfg{1}で学習されるとともに、アクションなし前景である物体の前景#2が、アクション条件なしの前景モデルである前景モデル#2の前景見えモデルbfg{2}で学習された。
そのため、尤度の移動平均は、学習回数Cが40回程度までは、減少する傾向にあるが、それ以降は、増加する傾向にある。
図17Bは、学習回数Cに対する前景モデル#2の尤度の変化を示す図である。
前景モデル#2の尤度も、図17Aの前景モデル#1の尤度と同様の傾向がある。
図17Cは、学習回数Cに対する平均エントロピーの差分値の変化を示す図である。
図17Cにおいて、横軸は、学習回数Cを示しており、縦軸は、平均エントロピーの差分値を示している。
ここで、平均エントロピーの差分値とは、アクション条件付きの前景モデルである前景モデル#1の前景見えモデルとして、その前景モデル#1の前景見えモデルbfg{1}を採用したと仮定した第1の仮定モデルと、前景モデル#2の前景見えモデルbfg{2}を採用したと仮定した第2の仮定モデルとを、学習データを用いて更新し、更新後の第1の仮定モデルの遷移確率の平均エントロピーHmean{1}と、更新後の第2の仮定モデルの遷移確率の平均エントロピーHmean{2}との差分Hmean{1}-Hmean{2}である。
切り替え促進処理により、差分Hmean{1}-Hmean{2}が0以上であれば、アクション条件付きの前景モデルである前景モデル#1の観測尤度として、その前景モデル#1の観測尤度が求められ、差分Hmean{1}-Hmean{2}が負であれば、アクション条件付きの前景モデルである前景モデル#1の観測尤度として、前景モデル#2の前景見えモデルbfg{2}が採用された第2の仮定モデルの観測尤度が求められる。
図17Dは、前景見えモデルの、シミュレータが記憶している前景に対する誤差の変化を示す図である。
図17Dにおいて、横軸は、学習回数Cを示しており、縦軸は、前景見えモデルの誤差を示している。
すなわち、図17Dにおいて、実線は、前景見えモデルbfg{1}の、ハンドの前景#1に対する誤差を示しており、点線は、前景見えモデルbfg{2}の、物体の前景#2に対する誤差を示している。
前景見えモデルbfg{1}の誤差、及び、前景見えモデルbfg{2}の誤差は、いずれも、学習回数Cが40回程度になったときに、0に近づいており、したがって、前景見えモデルbfg{1}において、ハンドの見えとしての前景#1が獲得され、前景見えモデルbfg{2}において、物体の見えとしての前景#2が獲得されたことを確認することができる。
図18は、前景見えモデルbfg{1}、及び、前景見えモデルbfg{2}の変化を示す図である。
すなわち、図18は、4回目から44回目までの学習回数Cのうちの、4回ごとの学習回数の前景見えモデルbfg{1}、及び、前景見えモデルbfg{2}を示している。
学習の初期の段階では、前景見えモデルbfg{1}が、物体の前景#2を学習して獲得している。
前景見えモデルbfg{1}が、物体の前景#2を獲得したために、排他制約処理の機能が働き、前景見えモデルbfg{2}は、ハンドの前景#1を学習し、学習回数Cが20回程度のときに、ハンドの前景#1を獲得している。
また、同時に、切り替え促進処理の機能が働き、アクション条件付きの前景モデルである前景モデル#1において、アクションなし前景である物体の前景#2ではなく、アクション付き前景であるハンドの前景#1を学習するように、前景モデル#1が学習の対象とする前景を切り替えることが促され、その結果、学習回数Cが28回程度のときに、物体の前景#2を獲得した前景見えモデルbfg{1}が、一旦、破壊されている。
その後、学習回数Cが40回程度のときに、前景見えモデルbfg{1}が、ハンドの前景#1を獲得し、前景見えモデルbfg{2}は、排他制約処理の機能が働くことによって、物体の前景#2を獲得している。
以上のように、本技術では、学習(認識)対象の運動(移動)、及び、エージェントの視点の運動(移動)を考慮に入れ、観測される画像を生成する生成モデルとして、画像を記述する分離学習モデルを用意し、画像の観測系列を説明する(モデル)パラメータを、最尤推定のアプローチで推定することにより、あらかじめ学習(認識)対象の外見に関する事前知識を持ったり、学習(認識)対象にマーキングをしたりしなくとも、画像の観測系列から、学習(認識)対象の分離学習モデルを学習によって獲得することができ、学習後には、対象物体の認識ができるようになる。
また、本技術では、分離学習モデルは、エージェントの視点の運動(移動)による背景の変化を考慮に入れたモデルとなっているので、エージェントの視点が運動することで、背景が移動しても学習や認識は影響を受けない。
さらに、本技術では、ハンドを移動させるアクション系列で条件付けしたモデル化を行い、その最尤推定を実行することで、ハンドの外見(見え)に関するモデルを指定しなくとも、エージェントのハンドの観測モデル(前景見えモデル)が自動的にモデル化される。
また、本技術では、ハンドの位置を認識して特定するとともに、ハンドに対してアクションを与えたときにどのようにハンドの位置が変化するか、という身体モデルを、遷移確率として学習によって獲得するので、カメラや、ハンドの幾何的条件が変化しても、追加学習によって、適応的に追従することができる。
[本技術を適用したコンピュータの説明]
次に、上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。
そこで、図19は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。
プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク105やROM103に予め記録しておくことができる。
あるいはまた、プログラムは、リムーバブル記録媒体111に格納(記録)しておくことができる。このようなリムーバブル記録媒体111は、いわゆるパッケージソフトウエアとして提供することができる。ここで、リムーバブル記録媒体111としては、例えば、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory),MO(Magneto Optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリ等がある。
なお、プログラムは、上述したようなリムーバブル記録媒体111からコンピュータにインストールする他、通信網や放送網を介して、コンピュータにダウンロードし、内蔵するハードディスク105にインストールすることができる。すなわち、プログラムは、例えば、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送することができる。
コンピュータは、CPU(Central Processing Unit)102を内蔵しており、CPU102には、バス101を介して、入出力インタフェース110が接続されている。
CPU102は、入出力インタフェース110を介して、ユーザによって、入力部107が操作等されることにより指令が入力されると、それに従って、ROM(Read Only Memory)103に格納されているプログラムを実行する。あるいは、CPU102は、ハードディスク105に格納されたプログラムを、RAM(Random Access Memory)104にロードして実行する。
これにより、CPU102は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU102は、その処理結果を、必要に応じて、例えば、入出力インタフェース110を介して、出力部106から出力、あるいは、通信部108から送信、さらには、ハードディスク105に記録等させる。
なお、入力部107は、キーボードや、マウス、マイク等で構成される。また、出力部106は、LCD(Liquid Crystal Display)やスピーカ等で構成される。
ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含む。
また、プログラムは、1のコンピュータ(プロセッサ)により処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。
なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
すなわち、エージェントとしては、現実のロボットの他、ゲームのキャラクタ等の仮想的なキャラクタを採用することができる。
また、カメラ1(図11)は、必ずしも、エージェントに搭載されている必要はない。
なお、本技術は、以下のような構成も取ることができる。
[1]
画像の背景のモデルである背景モデルと、
前記背景上を移動可能な、前記画像の前景のモデルである1以上の前景モデルと
を有し、
前記背景モデルは、前記背景の見えを表す背景見えモデルを有し、
前記1以上の前景モデルのうちの少なくとも1つは、
前記前景に対応する物体が行うアクションによって、前記背景上の前記前景の位置に対応する状態が遷移する、前記アクションごとの遷移確率と、
前記前景の見えを表す前景見えモデルと
を有する
分離学習モデルの学習を、前記物体が行うアクションと前記画像の観測値とを学習データとして用いて行う学習部を備える
情報処理装置。
[2]
前記学習部は、
前記画像の観測値と、前記分離学習モデルにおいて観測される観測値との差に対応する値を、前記分離学習モデルにおいて前記画像の観測値が観測される観測尤度として求め、
前記観測尤度、及び、前記遷移確率を用いて、前向き確率と後ろ向き確率とを求め、
Baum-Welchアルゴリズムに従い、前記前向き確率、前記後ろ向き確率、及び、前記観測尤度を用いて、前記遷移確率を更新するとともに、前記前向き確率、前記後ろ向き確率、及び、前記画像の観測値を用いて、前記前景見えモデルと前記背景見えモデルとを更新し、
前記前景見えモデルの更新では、前記画像の観測値のうちの、前記状態に対応する位置における、あらかじめ定められた前景サイズの領域の観測値を用い、
前記背景見えモデルの更新では、前記状態に対応する位置における前記前景サイズの領域の観測値を0にした前記画像の観測値を用いる
[1]に記載の情報処理装置。
[3]
前記分離学習モデルは、複数の前景モデルを有し、
前記学習部は、
前記複数の前景モデルを、学習対象の対象モデルに、順次選択して、前記対象モデルの前記遷移確率、及び、前記前景見えモデルを更新し、
その後、前記背景見えモデルを更新する
[2]に記載の情報処理装置。
[4]
前記学習部は、
前記画像の観測値から、前記対象モデルの前記前景見えモデルの更新に用いられた分の観測値を割り引く割引処理を行い、
次の対象モデルの更新を、前記割引処理後の前記画像の観測値を用いて行う
[3]に記載の情報処理装置。
[5]
前記複数の前景モデルとして、
前記アクションごとの遷移確率と、前記前景見えモデルとを有するアクション条件付きの前景モデルと、
前記アクションに無関係の遷移確率と、前記前景見えモデルとを有するアクション条件なしの前景モデルと
が混在し、
前記学習部は、
前記アクション条件付きの前景モデルを、前記アクション条件なしの前景モデルより優先的に、前記対象モデルに選択し、
前記対象モデルに選択された前記アクション条件付きの前景モデルの前記前景見えモデルとして、前記複数の前景モデルの前記前景見えモデルをそれぞれ採用したと仮定した仮定モデルを、前記画像の観測値を用いて更新し、
更新後の仮定モデルのうちの、前記遷移確率のエントロピーが最小の仮定モデルを用いて、前記観測尤度を求め、
前記観測尤度を用いて、前記対象モデルの前記遷移確率、及び、前記前景見えモデルを更新する
[3]又は[4]に記載の情報処理装置。
[6]
前記画像の観測値は、前記画像のうちの既知の視野の視野領域の観測値であり、
前記学習部は、
前記前景モデルの前記遷移確率の更新を、前記前景サイズの領域全体が前記視野領域に含まれる前記状態からの前記遷移確率のみを対象として行い、
前記前景モデルの前記前景見えモデルと、前記背景モデルの前記背景見えモデルとの更新を、前記前景サイズの領域全体が前記視野領域に含まれる前記状態についての前記前向き確率、及び、前記後ろ向き確率を用いて行う
[2]ないし[5]のいずれかに記載の情報処理装置。
[7]
前記学習部は、
前記学習データを用いて、前記分離学習モデルのパラメータとしての前記遷移確率、前記前景見えモデル、及び、前記背景見えモデルを更新する更新演算を行うことにより、前記分離学習モデルの学習を行い、
前記更新演算の途中結果を記憶し、
次の学習データと、前記更新演算の途中結果とを用いて、前記分離学習モデルのパラメータを更新する更新演算を行う
ことにより、前記分離学習モデルの追加学習を行う
[1]ないし[6]のいずれかに記載の情報処理装置。
[8]
画像の背景のモデルである背景モデルと、
前記背景上を移動可能な、前記画像の前景のモデルである1以上の前景モデルと
を有し、
前記背景モデルは、前記背景の見えを表す背景見えモデルを有し、
前記1以上の前景モデルのうちの少なくとも1つは、
前記前景に対応する物体が行うアクションによって、前記背景上の前記前景の位置に対応する状態が遷移する、前記アクションごとの遷移確率と、
前記前景の見えを表す前景見えモデルと
を有する
分離学習モデルの学習を、前記物体が行うアクションと前記画像の観測値とを学習データとして用いて行う
ステップを含む情報処理方法。
[9]
画像の背景のモデルである背景モデルと、
前記背景上を移動可能な、前記画像の前景のモデルである1以上の前景モデルと
を有し、
前記背景モデルは、前記背景の見えを表す背景見えモデルを有し、
前記1以上の前景モデルのうちの少なくとも1つは、
前記前景に対応する物体が行うアクションによって、前記背景上の前記前景の位置に対応する状態が遷移する、前記アクションごとの遷移確率と、
前記前景の見えを表す前景見えモデルと
を有する
分離学習モデルの学習を、前記物体が行うアクションと前記画像の観測値とを学習データとして用いて行う学習部
として、コンピュータを機能させるためのプログラム。
画像の背景のモデルである背景モデルと、
前記背景上を移動可能な、前記画像の前景のモデルである1以上の前景モデルと
を有し、
前記背景モデルは、前記背景の見えを表す背景見えモデルを有し、
前記1以上の前景モデルのうちの少なくとも1つは、
前記前景に対応する物体が行うアクションによって、前記背景上の前記前景の位置に対応する状態が遷移する、前記アクションごとの遷移確率と、
前記前景の見えを表す前景見えモデルと
を有する
分離学習モデルの学習を、前記物体が行うアクションと前記画像の観測値とを学習データとして用いて行う学習部を備える
情報処理装置。
[2]
前記学習部は、
前記画像の観測値と、前記分離学習モデルにおいて観測される観測値との差に対応する値を、前記分離学習モデルにおいて前記画像の観測値が観測される観測尤度として求め、
前記観測尤度、及び、前記遷移確率を用いて、前向き確率と後ろ向き確率とを求め、
Baum-Welchアルゴリズムに従い、前記前向き確率、前記後ろ向き確率、及び、前記観測尤度を用いて、前記遷移確率を更新するとともに、前記前向き確率、前記後ろ向き確率、及び、前記画像の観測値を用いて、前記前景見えモデルと前記背景見えモデルとを更新し、
前記前景見えモデルの更新では、前記画像の観測値のうちの、前記状態に対応する位置における、あらかじめ定められた前景サイズの領域の観測値を用い、
前記背景見えモデルの更新では、前記状態に対応する位置における前記前景サイズの領域の観測値を0にした前記画像の観測値を用いる
[1]に記載の情報処理装置。
[3]
前記分離学習モデルは、複数の前景モデルを有し、
前記学習部は、
前記複数の前景モデルを、学習対象の対象モデルに、順次選択して、前記対象モデルの前記遷移確率、及び、前記前景見えモデルを更新し、
その後、前記背景見えモデルを更新する
[2]に記載の情報処理装置。
[4]
前記学習部は、
前記画像の観測値から、前記対象モデルの前記前景見えモデルの更新に用いられた分の観測値を割り引く割引処理を行い、
次の対象モデルの更新を、前記割引処理後の前記画像の観測値を用いて行う
[3]に記載の情報処理装置。
[5]
前記複数の前景モデルとして、
前記アクションごとの遷移確率と、前記前景見えモデルとを有するアクション条件付きの前景モデルと、
前記アクションに無関係の遷移確率と、前記前景見えモデルとを有するアクション条件なしの前景モデルと
が混在し、
前記学習部は、
前記アクション条件付きの前景モデルを、前記アクション条件なしの前景モデルより優先的に、前記対象モデルに選択し、
前記対象モデルに選択された前記アクション条件付きの前景モデルの前記前景見えモデルとして、前記複数の前景モデルの前記前景見えモデルをそれぞれ採用したと仮定した仮定モデルを、前記画像の観測値を用いて更新し、
更新後の仮定モデルのうちの、前記遷移確率のエントロピーが最小の仮定モデルを用いて、前記観測尤度を求め、
前記観測尤度を用いて、前記対象モデルの前記遷移確率、及び、前記前景見えモデルを更新する
[3]又は[4]に記載の情報処理装置。
[6]
前記画像の観測値は、前記画像のうちの既知の視野の視野領域の観測値であり、
前記学習部は、
前記前景モデルの前記遷移確率の更新を、前記前景サイズの領域全体が前記視野領域に含まれる前記状態からの前記遷移確率のみを対象として行い、
前記前景モデルの前記前景見えモデルと、前記背景モデルの前記背景見えモデルとの更新を、前記前景サイズの領域全体が前記視野領域に含まれる前記状態についての前記前向き確率、及び、前記後ろ向き確率を用いて行う
[2]ないし[5]のいずれかに記載の情報処理装置。
[7]
前記学習部は、
前記学習データを用いて、前記分離学習モデルのパラメータとしての前記遷移確率、前記前景見えモデル、及び、前記背景見えモデルを更新する更新演算を行うことにより、前記分離学習モデルの学習を行い、
前記更新演算の途中結果を記憶し、
次の学習データと、前記更新演算の途中結果とを用いて、前記分離学習モデルのパラメータを更新する更新演算を行う
ことにより、前記分離学習モデルの追加学習を行う
[1]ないし[6]のいずれかに記載の情報処理装置。
[8]
画像の背景のモデルである背景モデルと、
前記背景上を移動可能な、前記画像の前景のモデルである1以上の前景モデルと
を有し、
前記背景モデルは、前記背景の見えを表す背景見えモデルを有し、
前記1以上の前景モデルのうちの少なくとも1つは、
前記前景に対応する物体が行うアクションによって、前記背景上の前記前景の位置に対応する状態が遷移する、前記アクションごとの遷移確率と、
前記前景の見えを表す前景見えモデルと
を有する
分離学習モデルの学習を、前記物体が行うアクションと前記画像の観測値とを学習データとして用いて行う
ステップを含む情報処理方法。
[9]
画像の背景のモデルである背景モデルと、
前記背景上を移動可能な、前記画像の前景のモデルである1以上の前景モデルと
を有し、
前記背景モデルは、前記背景の見えを表す背景見えモデルを有し、
前記1以上の前景モデルのうちの少なくとも1つは、
前記前景に対応する物体が行うアクションによって、前記背景上の前記前景の位置に対応する状態が遷移する、前記アクションごとの遷移確率と、
前記前景の見えを表す前景見えモデルと
を有する
分離学習モデルの学習を、前記物体が行うアクションと前記画像の観測値とを学習データとして用いて行う学習部
として、コンピュータを機能させるためのプログラム。
1 カメラ, 2 アクション制御部, 3 モータ, 4 学習装置, 11 バッファ, 12 データ取得部, 13 モデル学習部, 14 モデル記憶部, 21 データ記憶部, 22 優先順位設定部, 23 割引処理部, 24 モデル更新部, 25 エントロピー計算部, 101 バス, 102 CPU, 103 ROM, 104 RAM, 105 ハードディスク, 106 出力部, 107 入力部, 108 通信部, 109 ドライブ, 110 入出力インタフェース, 111 リムーバブル記録媒体
Claims (9)
- 画像の背景のモデルである背景モデルと、
前記背景上を移動可能な、前記画像の前景のモデルである1以上の前景モデルと
を有し、
前記背景モデルは、前記背景の見えを表す背景見えモデルを有し、
前記1以上の前景モデルのうちの少なくとも1つは、
前記前景に対応する物体が行うアクションによって、前記背景上の前記前景の位置に対応する状態が遷移する、前記アクションごとの遷移確率と、
前記前景の見えを表す前景見えモデルと
を有する
分離学習モデルの学習を、前記物体が行うアクションと前記画像の観測値とを学習データとして用いて行う学習部を備える
情報処理装置。 - 前記学習部は、
前記画像の観測値と、前記分離学習モデルにおいて観測される観測値との差に対応する値を、前記分離学習モデルにおいて前記画像の観測値が観測される観測尤度として求め、
前記観測尤度、及び、前記遷移確率を用いて、前向き確率と後ろ向き確率とを求め、
Baum-Welchアルゴリズムに従い、前記前向き確率、前記後ろ向き確率、及び、前記観測尤度を用いて、前記遷移確率を更新するとともに、前記前向き確率、前記後ろ向き確率、及び、前記画像の観測値を用いて、前記前景見えモデルと前記背景見えモデルとを更新し、
前記前景見えモデルの更新では、前記画像の観測値のうちの、前記状態に対応する位置における、あらかじめ定められた前景サイズの領域の観測値を用い、
前記背景見えモデルの更新では、前記状態に対応する位置における前記前景サイズの領域の観測値を0にした前記画像の観測値を用いる
請求項1に記載の情報処理装置。 - 前記分離学習モデルは、複数の前景モデルを有し、
前記学習部は、
前記複数の前景モデルを、学習対象の対象モデルに、順次選択して、前記対象モデルの前記遷移確率、及び、前記前景見えモデルを更新し、
その後、前記背景見えモデルを更新する
請求項2に記載の情報処理装置。 - 前記学習部は、
前記画像の観測値から、前記対象モデルの前記前景見えモデルの更新に用いられた分の観測値を割り引く割引処理を行い、
次の対象モデルの更新を、前記割引処理後の前記画像の観測値を用いて行う
請求項3に記載の情報処理装置。 - 前記複数の前景モデルとして、
前記アクションごとの遷移確率と、前記前景見えモデルとを有するアクション条件付きの前景モデルと、
前記アクションに無関係の遷移確率と、前記前景見えモデルとを有するアクション条件なしの前景モデルと
が混在し、
前記学習部は、
前記アクション条件付きの前景モデルを、前記アクション条件なしの前景モデルより優先的に、前記対象モデルに選択し、
前記対象モデルに選択された前記アクション条件付きの前景モデルの前記前景見えモデルとして、前記複数の前景モデルの前記前景見えモデルをそれぞれ採用したと仮定した仮定モデルを、前記画像の観測値を用いて更新し、
更新後の仮定モデルのうちの、前記遷移確率のエントロピーが最小の仮定モデルを用いて、前記観測尤度を求め、
前記観測尤度を用いて、前記対象モデルの前記遷移確率、及び、前記前景見えモデルを更新する
請求項4に記載の情報処理装置。 - 前記画像の観測値は、前記画像のうちの既知の視野の視野領域の観測値であり、
前記学習部は、
前記前景モデルの前記遷移確率の更新を、前記前景サイズの領域全体が前記視野領域に含まれる前記状態からの前記遷移確率のみを対象として行い、
前記前景モデルの前記前景見えモデルと、前記背景モデルの前記背景見えモデルとの更新を、前記前景サイズの領域全体が前記視野領域に含まれる前記状態についての前記前向き確率、及び、前記後ろ向き確率を用いて行う
請求項2に記載の情報処理装置。 - 前記学習部は、
前記学習データを用いて、前記分離学習モデルのパラメータとしての前記遷移確率、前記前景見えモデル、及び、前記背景見えモデルを更新する更新演算を行うことにより、前記分離学習モデルの学習を行い、
前記更新演算の途中結果を記憶し、
次の学習データと、前記更新演算の途中結果とを用いて、前記分離学習モデルのパラメータを更新する更新演算を行う
ことにより、前記分離学習モデルの追加学習を行う
請求項2に記載の情報処理装置。 - 画像の背景のモデルである背景モデルと、
前記背景上を移動可能な、前記画像の前景のモデルである1以上の前景モデルと
を有し、
前記背景モデルは、前記背景の見えを表す背景見えモデルを有し、
前記1以上の前景モデルのうちの少なくとも1つは、
前記前景に対応する物体が行うアクションによって、前記背景上の前記前景の位置に対応する状態が遷移する、前記アクションごとの遷移確率と、
前記前景の見えを表す前景見えモデルと
を有する
分離学習モデルの学習を、前記物体が行うアクションと前記画像の観測値とを学習データとして用いて行う
ステップを含む情報処理方法。 - 画像の背景のモデルである背景モデルと、
前記背景上を移動可能な、前記画像の前景のモデルである1以上の前景モデルと
を有し、
前記背景モデルは、前記背景の見えを表す背景見えモデルを有し、
前記1以上の前景モデルのうちの少なくとも1つは、
前記前景に対応する物体が行うアクションによって、前記背景上の前記前景の位置に対応する状態が遷移する、前記アクションごとの遷移確率と、
前記前景の見えを表す前景見えモデルと
を有する
分離学習モデルの学習を、前記物体が行うアクションと前記画像の観測値とを学習データとして用いて行う学習部
として、コンピュータを機能させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011077697A JP2012212323A (ja) | 2011-03-31 | 2011-03-31 | 情報処理装置、情報処理方法、及び、プログラム |
CN2012100805694A CN102737279A (zh) | 2011-03-31 | 2012-03-23 | 信息处理装置、信息处理方法以及程序 |
US13/429,130 US9104980B2 (en) | 2011-03-31 | 2012-03-23 | Information processing device, information processing method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011077697A JP2012212323A (ja) | 2011-03-31 | 2011-03-31 | 情報処理装置、情報処理方法、及び、プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2012212323A true JP2012212323A (ja) | 2012-11-01 |
Family
ID=46927326
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011077697A Withdrawn JP2012212323A (ja) | 2011-03-31 | 2011-03-31 | 情報処理装置、情報処理方法、及び、プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US9104980B2 (ja) |
JP (1) | JP2012212323A (ja) |
CN (1) | CN102737279A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018216075A1 (ja) * | 2017-05-22 | 2018-11-29 | 株式会社Fuji | 画像処理装置、多重通信システム及び画像処理方法 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013191163A (ja) * | 2012-03-15 | 2013-09-26 | Sony Corp | 情報処理装置、情報処理方法、及び、プログラム |
US10105847B1 (en) * | 2016-06-08 | 2018-10-23 | X Development Llc | Detecting and responding to geometric changes to robots |
KR102579994B1 (ko) * | 2016-10-24 | 2023-09-18 | 삼성에스디에스 주식회사 | 다중 배경 모델을 이용한 전경 생성 방법 및 그 장치 |
CN108169776B (zh) * | 2017-11-23 | 2022-01-21 | 中国科学院光电研究院 | 基于背景模型和实测数据的电离层延迟误差修正方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0729081A (ja) | 1993-07-14 | 1995-01-31 | Toshiba Corp | 移動物体認識装置 |
JP3426002B2 (ja) | 1993-09-20 | 2003-07-14 | 三菱電機株式会社 | 物体認識装置 |
JP4449410B2 (ja) | 2003-10-27 | 2010-04-14 | ソニー株式会社 | ロボット装置及びその物体学習方法 |
TWI348659B (en) * | 2007-10-29 | 2011-09-11 | Ind Tech Res Inst | Method and system for object detection and tracking |
US8941726B2 (en) * | 2009-12-10 | 2015-01-27 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for segmenting moving objects from images using foreground extraction |
JP2013191163A (ja) * | 2012-03-15 | 2013-09-26 | Sony Corp | 情報処理装置、情報処理方法、及び、プログラム |
JP2014081863A (ja) * | 2012-10-18 | 2014-05-08 | Sony Corp | 情報処理装置、情報処理方法、及び、プログラム |
-
2011
- 2011-03-31 JP JP2011077697A patent/JP2012212323A/ja not_active Withdrawn
-
2012
- 2012-03-23 CN CN2012100805694A patent/CN102737279A/zh active Pending
- 2012-03-23 US US13/429,130 patent/US9104980B2/en not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018216075A1 (ja) * | 2017-05-22 | 2018-11-29 | 株式会社Fuji | 画像処理装置、多重通信システム及び画像処理方法 |
JPWO2018216075A1 (ja) * | 2017-05-22 | 2019-12-12 | 株式会社Fuji | 画像処理装置、多重通信システム及び画像処理方法 |
Also Published As
Publication number | Publication date |
---|---|
US9104980B2 (en) | 2015-08-11 |
US20120250981A1 (en) | 2012-10-04 |
CN102737279A (zh) | 2012-10-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11200696B2 (en) | Method and apparatus for training 6D pose estimation network based on deep learning iterative matching | |
CN111598818B (zh) | 人脸融合模型训练方法、装置及电子设备 | |
EP3198373B1 (en) | Tracking hand/body pose | |
US9111375B2 (en) | Evaluation of three-dimensional scenes using two-dimensional representations | |
CN112509099B (zh) | 虚拟形象驱动方法、装置、设备和存储介质 | |
US9111172B2 (en) | Information processing device, information processing method, and program | |
EP3602424A1 (en) | Sensor data processor with update ability | |
US11244506B2 (en) | Tracking rigged polygon-mesh models of articulated objects | |
EP2880633A1 (en) | Animating objects using the human body | |
JP6448839B1 (ja) | 画像生成装置、画像生成器、画像識別器、画像生成プログラム、及び、画像生成方法 | |
US10977549B2 (en) | Object animation using generative neural networks | |
JP2012212323A (ja) | 情報処理装置、情報処理方法、及び、プログラム | |
US20190244133A1 (en) | Learning apparatus and learning method | |
CN109844771A (zh) | 用于机器人代理的控制策略 | |
JP2014081863A (ja) | 情報処理装置、情報処理方法、及び、プログラム | |
US11043027B2 (en) | Three-dimensional graphics image processing | |
WO2021025761A1 (en) | Sub-pixel data simulation system | |
US20230237777A1 (en) | Information processing apparatus, learning apparatus, image recognition apparatus, information processing method, learning method, image recognition method, and non-transitory-computer-readable storage medium | |
WO2021095509A1 (ja) | 推定システム、推定装置および推定方法 | |
CN111531546A (zh) | 一种机器人位姿估计方法、装置、设备及存储介质 | |
US8704828B1 (en) | Inverse kinematic melting for posing models | |
JPWO2012032747A1 (ja) | 特徴点選択システム、特徴点選択方法および特徴点選択プログラム | |
JP2019220133A (ja) | 画像生成装置、画像生成器、画像識別器、画像生成プログラム、及び、画像生成方法 | |
Hellwig et al. | A Hierarchical Approach to Active Pose Estimation | |
US20230071291A1 (en) | System and method for a precise semantic segmentation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20140603 |