CN102737279A - 信息处理装置、信息处理方法以及程序 - Google Patents
信息处理装置、信息处理方法以及程序 Download PDFInfo
- Publication number
- CN102737279A CN102737279A CN2012100805694A CN201210080569A CN102737279A CN 102737279 A CN102737279 A CN 102737279A CN 2012100805694 A CN2012100805694 A CN 2012100805694A CN 201210080569 A CN201210080569 A CN 201210080569A CN 102737279 A CN102737279 A CN 102737279A
- Authority
- CN
- China
- Prior art keywords
- model
- prospect
- background
- foreground
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Abstract
本公开提供了一种信息处理装置、信息处理方法以及程序,其中,该信息处理装置包括学习单元,其使用物体执行的动作和图像的观测值作为学习数据,执行分离学习模型的学习,该分离学习模型包括作为图像的背景的模型的背景模型、以及作为可以在背景上移动的、图像的前景的模型的一个或更多个前景模型,其中,背景模型包括指示背景的外观的背景外观模型,并且一个或更多个前景模型当中的至少一个包括每个动作的转移概率和指示前景的外观的前景外观模型,其中,通过与前景相对应的物体执行的动作,以该转移概率对与背景上的前景的位置相对应的状态进行转移。
Description
技术领域
本公开涉及一种信息处理装置、信息处理方法以及程序,并且特别地,涉及如下一种信息处理装置、信息处理方法以及程序:其能够使得可以执行动作的、例如机器人等的主体容易地执行采取动作的环境中的物体的学习。
背景技术
在现有技术中,在使用通过利用照相机捕获环境而获得的图像来执行特定环境中物体的学习(或识别)中,需要剪切学习对象(或识别对象)的图像区域。
作为剪切学习对象的图像区域的方法,存在主要使用关于学习对象的外貌的先前知识的方式(日本未审查专利申请公布第7-88791号)、以及使用对象物体的运动的方式(日本未审查专利申请公布第5-282275号、第7-29081号、以及第2005-128959号)。
在使用关于外貌的先前知识的方式中,预先执行用于指定物体的标注或通过执行学习对象(对象物体)的学习的识别模型的创建。
在使用对象物体的运动的方式中,仅提取使用图像差别、光流等来进行运动的图像区域。
然而,在提取进行运动的图像区域中,(图像的)背景必须保持静止。因此,当用于捕获图像的照相机安装在可以执行各种动作的机器人上时,例如,如果照相机捕获的图像的背景由于机器人的移动视线而无序,则难以适当地剪切区域。
另外,在机器人操作物体的物体操作任务中,如果要区别作为操作对象的物体和机器人操作物体的(机器人本身的)手,则在使用关于外貌的先前知识的方式中,需要标记用于区别各个物体和手的标签、并且需要机器人识别标签,并且在使用对象物体的运动的方式中,需要识别从照相机捕获的图像剪切的图像区域是否是物体的图像区域。
此外,在识别从照相机捕获的图像剪切的图像区域是否是对象物体的图像区域中,需要指定手(以给出关于手的知识),以便使得执行识别的识别装置来区别手和物体。
另外,在日本未审查专利申请公布第2005-128959号中公开的技术中,预先创建几何模型,该几何模型示出了在照相机捕获的图像中,如何取得包括手的机器人臂,其中机器人臂的指尖的位置(手)取决于对机器人臂输出哪种命令等而移动,并且然后根据几何模型来执行物体操作。
在日本未审查专利申请公布第2005-128959号公开的技术中,由于如上所述根据几何模型来执行物体操作,因此需要在照相机和机器人臂的相对位置改变、替换照相机的透镜、改变机器人臂的尺寸等的每个情况下手动修改几何模型。
发明内容
当可以执行动作的、诸如机器人等的主体学习执行动作的环境中的物体时,需要标注以便指定物体或者提取进行运动的图像区域,这是很麻烦的。
期望本公开能够使得可以执行动作的、诸如机器人等的主体容易地学习执行动作的环境中的物体等。
根据本公开的实施例,存在一种信息处理装置或使得计算机起信息处理装置作用的程序,该信息处理装置包括学习单元,学习单元使用物体执行的动作和图像的观测值作为学习数据,执行分离学习模型的学习,该分离学习模型包括作为图像的背景的模型的背景模型、以及作为可以在背景上移动的、图像的前景的模型的一个或更多个前景模型,其中,背景模型包括指示背景的外观的背景外观模型,并且一个或更多个前景模型当中的至少一个包括每个动作的转移概率和指示前景的外观的前景外观模型,其中,通过与前景相对应的物体执行的动作,以该转移概率对与背景上的前景的位置相对应的状态进行转移。
根据本公开的另一实施例,提供了一种信息处理方法,该方法包括使用物体执行的动作和图像的观测值作为学习数据来执行分离学习模型的学习,该分离学习模型包括作为图像的背景的模型的背景模型、以及作为可以在背景上移动的、图像的前景的模型的一个或更多个前景模型,其中背景模型包括指示背景的外观的背景外观模型,并且一个或更多个前景模型当中的至少一个包括每个动作的转移概率和指示前景的外观的前景外观模型,其中,通过与前景相对应的物体执行的动作,以该转移概率对与背景上的前景的位置相对应的状态进行转移。
在如上所述的实施例中,使用物体执行的动作和图像的观测值作为学习数据来执行分离学习模型的学习,该分离学习模型包括作为图像的背景的模型的背景模型、以及作为可以在背景上移动的、图像的前景的模型的一个或更多个前景模型,其中背景模型包括指示背景的外观的背景外观模型,并且一个或更多个前景模型当中的至少一个包括每个动作的转移概率和指示前景的外观的前景外观模型,其中,通过与前景相对应的物体执行的动作,以该转移概率对与背景上的前景的位置相对应的状态进行转移。
此外,信息处理装置可以是独立装置、或者可以是构成一个装置的内部块。
另外,可以通过传输介质来传送程序、或者可以通过被记录在记录介质上来提供程序。
根据本公开的实施例,可以容易地执行环境中的物体等的学习。
附图说明
图1是说明本公开的概要的图;
图2是示意性地示出分离学习模型的图;
图3是说明背景上的位置和布置在背景上的前景模型的移动时的状态转移的图;
图4A和4B是示出没有动作条件的HMM的转移概率A=aij和具有动作条件的HMM的转移概率A=aij(wk)的图;
图5是说明在限制主体的视野时的分离学习模型的学习的图;
图6是示意性地示出另一分离学习模型的图;
图7是说明排他限定处理的图;
图8是示出作为生成模型的图形模型的图,该生成模型用于生成在背景上混合一个或更多个具有动作的前景和一个或更多个没有动作的前景的环境的图像;
图9是说明切换促进处理的图;
图10是说明具有动作条件的前景模型的转移概率的图;
图11是示出应用本公开的主体的实施例的示例配置的框图;
图12是说明学习处理的流程图;
图13是说明最小熵检测处理的流程图;
图14是示出模拟的环境设置的图;
图15A和15B是示出在模拟中使用的图像的图;
图16是示出在模拟中使用的模拟器和分离学习模型的图;
图17A至17D是示出模拟结果的图;
图18是示出模拟结果的图;以及
图19是示出应用了本公开的计算机的实施例的配置示例的框图。
具体实施方式
[本公开的概要]
图1是示出本公开的概要的图。
本公开是可以应用于如下识别算法的通用框架:该识别算法用于执行诸如机器人等的主体实现物理环境下的物体操作需要的环境、物体、以及身体(手)的识别,该主体配备有作为操作环境中的物体的操纵体的手和观测(捕获)环境的照相机而能够执行动作。
在本公开中,特别地,基于通过主体和环境之间的交互获取的经验(感知动作模式),根据学习以自组织方式获得关于环境中的物体(作为操作对象的物体的外貌或物体在环境下进行动作的方式)的模型、或者关于主体本身(主体的身体(手)在环境中对动作进行运动的方式)的模型,而无需在设计者预先创建这样的模型。
在本公开中,通过安装在主体上的照相机、以图像(数据)的时间序列方式感知(获取)通过主体和环境之间的交互获取的物体操作的这样的经验。
另外,在本公开中,从没有在主体的手和物体上标注详尽的标签和根本没有给出关于手和物体的外貌的先前知识的状态开始学习,并且根据手和物体一起进行运动(移动)的图像来学习关于手和物体的外貌或运动的模型。
此外,在本公开中,利用模型的学习同时实现学习的模型当中的、可以控制的自己的身体(手)的识别和要操作的物体的识别。
由于该原因,在本公开中,通过分离前景模型和背景模型,准备用于表示包含手和作为操作对象的物体的环境的框架,其中,前景模型作为关于主体的手和作为操作对象的物体的外貌和运动的模型,而背景模型作为进行物体操作的环境的模型。
换句话说,在本公开中,通过分离学习模型来学习包含手和作为操作对象的物体的整个环境。
分离学习模型包括作为图像的背景的模型的背景模型和作为可以在背景上可移动的图像的前景的模型的一个或更多个前景模型。关于分离学习模型,以如下这样的方式来分离学习作为环境的背景和作为手和要操作的物体的前景:在背景模型中获取用作观测图像的背景的环境,而在前景模型中获取用作观测图像的前景的手和要操作的物体。
在本技术中,通过使用作为从主体关于物体操作的经验获取的图像的一系列观测值的观测系列,根据作为其是概率模型的、诸如HMM等的最大似然估计的技术之一的Baum-Welch算法,估计(再估计或更新)分离学习模型的参数,以自组织方式学习分离学习模型。
此外,作为观测系列,例如,可以采用照相机捕获的图像(运动图像)、通过捕获计算机游戏的图片获得的图像(运动图像)等。
[第1章分离学习模型的学习]
图2是示意性地示出分离学习模型的图。
假设观测图像是由与环境相对应的背景和与物体等相对应的前景构成的,分离学习模型是通过根据例如其是概率模型的HMM的公式化使图像模型化而获得的模型,并且包括作为图像的背景的模型的背景模型和作为图像的前景的模型的一个或更多个前景模型。
在图2中,分离学习模型包括背景模型和前景模型。
在分离学习模型中,以如下这样的方式来表示观测图像:由前景模型指示的前景布置在由背景模型指示的背景上的位置fi处。
图3是说明布置了前景的背景上的位置fi和布置在背景中的前景模型的移动时的状态转移的图。
背景模型具有表示背景的外观的背景外观模型作为参数。
这里,作为背景外观模型(最终,背景模型),例如,可以采用表示背景的图像(即,作为背景的外观的(矩形)图像模板)。
前景模型具有(作为内部变量)与背景上的位置fi相对应的HMM的状态Si,并且具有从状态Si到状态Sj的状态转移的转移概率和表示前景的外观的前景外观模型作为参数。
这里,作为前景外观参数,例如,可以采用表示前景的图像(即,作为前景的外观的(矩形)图像模板)。
另外,关于背景模型(背景外观模型),预先确定与状态Si相对应的位置fi。
换句话说,如果目前HMM的状态数(总数)是N,则例如,如图3所示在作为背景外观模型(背景模型)的背景的图像模板中,可以采用以网格形状等间隔布置的N个网格点作为与N个状态Si中的每个相对应的位置fi。
这里,由水平方向上的x轴和垂直方向上的y轴定义的二维坐标系被称为背景坐标系,其原点设置在背景外观模型(背景的矩形图像模板)的左上角的点上。
另外,由(xi,yi)指示背景坐标系中位置fi的坐标。
在分离学习模型中,如图3所示,观测如下图像:作为前景外观模型的前景的图像模板布置在作为背景外观模型的背景的图像模板上的位置fi处,使得例如前景的图像模板的左上角的点被布置使得与位置fi相符。
这里,由水平方向上的u轴和垂直方向上的v轴定义的二维坐标系被称为前景坐标系,其原点设置在布置在背景外观模型的位置fi上的前景外观模型(前景的图像模板)的左上角的点上。
此外,前景外观模型的尺寸被预先确定为例如假设的前景的最大尺寸(在下文中,也被称为前景尺寸)。如果分别由umax+1和vmax+1指示前景尺寸的横向长度和纵向长度,则由公式(0,0)≤(u,v)≤(umax,vmax)指示存在于前景坐标系中的作为前景外观模型的前景的图像模板的范围。
如图3所示,从状态Si到状态Sj的状态转移对应于布置在背景外观模型上的前景外观模型、具有从与状态Si相对应的位置fi到与状态Sj相对应的位置fj的转移(移动)。
在分离学习模型中,背景外观模型、前景外观模型、以及(与状态Si相对应的)背景外观模型上的前景外观模型的位置fi用作参数,该参数用于定义生成在分离学习模型中观测的(图像的)观测值的观测模型。
此外,在本实施例中,作为图像的观测值,例如,采用二进制黑/白图像或灰度级图像。
然而,通过改变观测模型的框架,可以采用颜色模型作为图像的观测值。
另外,在本实施例中,采用图像模板作为前景外观模型和背景外观模型,但是作为前景外观模型和背景外观模型,例如,除了图像模板之外,还可以采用图像的部分特征量等。
[1.1节使用没有动作条件的HMM的分离学习模型]
假设观测图像由与环境相对应的背景和与物体等相对应的前景构成,分离学习模型是基于HMM的公式化、通过使图像模型化而获得的模型,并且可以基于Baum-Welch算法来执行(模型)参数的估计。
这里,如下定义在作为分离参数模型的HMM的公式化中使用的变量(参数)。
T:观测系列的长度
O={o1,o2,...,oT}:观测系列(照相机捕获的图像的观测值的系列)
N:HMM的状态数
S={1,2,...,N}或{S1,S2,...,SN}:状态集
St:时刻t的状态(数)
i、j:状态数
A={aij|aij=P(st+1=j|st=i)}:(状态)转移概率
π={πi|πi=P(s0=i)}:初始状态概率
此外,在分离学习模型中,如下定义在(图像的)观测值的观测似然的计算中使用的观测模型(的参数)。
bworld:背景外观模型
bfg:前景外观模型
F={f1,f2,...,fN}:背景(背景外观模型bworld)上的(前景(前景外观模型bfg)位置)的分布
如上所述,在本公开中,HMM的状态i对应于背景上的前景的位置fi。因此,如果确定状态i={1,2,...,N},则唯一地确定背景上的前景的位置。
另外,在下文中,由λ指示作为分离学习模型的HMM,并且由λ(π,A,bworld,bfg)指示分离学习模型λ的(模型)参数。
[(i)观测似然的计算]
一般的离散HMM具有观测概率B={bi(vq)}作为参数,该观测概率是观测作为特定状态i下的离散观测值的符号V={v1,v2,...,vQ}的概率。在一般的离散HMM中,使用观测概率B={bi(vq)}、假设在特定状态i中来计算观测值ot=vq的观测似然p(ot|st=i)=bi(ot),并且执行基于前向-后向算法的似然计算,由此更新(再估计)参数。
另一方面,取代符号的观测概率B,分离学习模型包括由普遍的背景外观模型bworld、在背景上移动的前景外观模型bfg、以及与背景(背景外观模型bworld)上的前景(前景外观模型bfg)的位置fi相对应的状态i的分布定义的观测模型。
因此,在本公开中,当假设使用背景外观模型bworld、前景外观模型bfg、以及状态i的分布作为观测模型、通过在背景外观模型bworld上在与状态i相对应的位置fi处布置前景外观模型bfg而获得的图像在状态i中时,生成在分离学习模型中观测到的观测值(在下文中,也被称为虚拟观测值)作为omodel(i)。此外,在本公开中,使用虚拟观测值omodel(i)、基于公式(1)来获得分离学习模型中在状态i中观测到观测值ot的似然性(plausibility)的观测似然p(ot|st=i),并且取代一般的离散HMM的观测概率bi(ot)来使用该观测似然p(ot|st=i)。
这里,在公式(1)中,函数g(ot-omodel(i))是用于计算标量值的距离的函数,该标量值对应于作为自变量的、图像的观测值(实际观测值)ot和虚拟观测值omodel(i)之间的差分(误差)ot-omodel(i)。
另外,在公式(1)中,σ是D是用于确定对于如下误差的观测概率p(ot|st=i)的变化的锐度的常数并且被预先设置:该误差是图像的观测值ot和虚拟观测值omodel(i)之间的差分ot-omodel(i)。
根据公式(1),获得前景外观模型bfg布置在背景外观模型bworld上与状态i相对应的位置fi处的图像,作为在分离学习模型中在状态i中观测到的观测值(虚拟观测值)omodel(i)。
另外,获得与图像的观测值ot和虚拟观测值omodel(i)之间的差分ot-omodel(i)相对应的值作为在状态i中观测到图像的观测值ot的观测概率p(ot|st=i)。
[(ii)前向-后向算法]
关于分离学习模型λ,可以通过基于公式(1)获得观测似然p(ot|st=i)而使用观测似然p(ot|st=i),分别基于公式(2)和公式(3),计算在前向-后向算法中的前向概率αt+1(j)和后向概率βt+1(i)。
这里,前向概率αt+1(j)标记在分离学习模型λ中观测到观测系列o1,o2,...,ot+1且在时刻t+1在状态j中的概率。另外,后向概率βt+1(i)标记在分离学习模型λ中在时刻t在状态i中并且然后观测到观测系列ot+1,ot+2,...,oT的概率。
α0(j)=πj
βT(i)=1
根据公式(2),获得状态j的初始状态概率πj作为其是初始值的时刻t=0的前向概率00(j)。此外,根据公式(2),使用作为时刻t在状态i中的状态概率的前向概率αt(i)来获得时刻t=1以后的时刻的前向概率αt+1(j)。换句话说,获得通过根据时刻t处状态i、在时刻t+1处观测观测值ot+1在状态j的概率作为时刻t=1以后的时刻的前向概率αt+1(j)。
另外,根据公式(3),在所有状态Si(1≤i≤N)中,其是初始值的时刻t=T的后向概率βT(i)被设置为1,这指示时刻t=T的所有状态i的状态概率被设置为1。此外,根据公式(3),使用作为时刻t+1处在状态j中的状态概率的后向概率βt+1(j)来获得时刻t=T-1以前的时刻的后向概率βt(i)。换句话说,获得当在时刻t+1处观测到观测值ot+1并且在状态j中时、在时刻t处在状态i中的概率,作为时刻t=T-1以前的时刻的后向概率βt(i)。
这里,公式(2)和(3)两者中的aij标记从状态i转移到状态j的(状态)转移概率。
此外,作为前向-后向算法中的后验概率的前向概率αt(i)(以及后向概率βt(i)))指示当在分离学习模型λ中观测到观测系列o1,o2,...,oT时在时刻t在状态i中的概率,但是获得作为后验概率的前向概率αt(i)等效于执行观测到观测系列o1,o2,...,oT时的状态识别。
因此,可以通过在分离学习模型λ的学习前进到某种程度之后获得作为后验概率的前向概率αt(i),估计前景在背景上的位置fi。
[(iii)Baum-Welch算法]
可以根据基于例如EM(期望最大)算法的Baum-Welch算法来估计(再估计或更新)使用HMM的分离学习模型λ的参数λ(π,A,bworld,bfg)。
根据Baum-Welch算法,在分离学习模型λ中,当观测到观测系列O={o1,o2,...,oT}时,可以根据公式(4)获得从时刻t-1的状态i到时刻t的状态j的(状态)转移的概率ξt(i,j)。
另外,在分离学习模型λ中,当观测到观测系列O={o1,o2,...,oT}时,对于概率ξt(i,j),可以根据公式(5)计算时刻t-1在状态i中的概率γt-1(i)作为时刻t的状态j边缘化的概率。
在Baum-Welch算法中,使用公式(4)的概率ξt(i,j)和公式(5)的概率γt-1(i)来再估计参数λ(π,A,bworld,bfg)。
这里,由λ′指示再估计之后的分离学习模型,而由λ′(π′,A′,b′world,b′fg)指示其参数。
可以根据公式(6)、(7)、(8)以及(9)获得再估计之后的参数λ′(π′,A′,b′world,b′fg)。
换句话说,可以根据公式(6)获得更新之后的初始状态概率π′i。
可以根据公式(7)获得更新之后的转移概率a′ij。
这里,公式(7)中的分子标记从状态i到状态j的转移的数量的期望值,而分母标记从状态i的转移的数量的期望值。
可以根据公式(8)获得更新之后的前景外观模型b′fg。
这里,公式(8)的(u,v)标记前景坐标系(图3)上的位置(坐标),并且是取图3中描述的前景的尺寸内的值的变量(即,由公式(0,0)≤(u,v)≤(umax,vmax)指示的(整数)范围内的变量)。
另外,公式(8)的b′fg(u,v)标记作为前景外观模型的图像模板的前景坐标系(图3中)上的位置(u,v)的像素值。
此外,ot(xj+u,yj+v)指示作为时刻t的观测值ot的图像的背景坐标系上的位置(xj+u,yj+v)的像素值,即,作为时刻t的观测值ot的图像中背景坐标系上的位置fj=(xj,yj)处的前景尺寸的区域(的像素值)。
因此,根据公式(8),使用对应于作为时刻t的观测值ot的图像中状态j的位置(xj,yj)处的前景尺寸的区域,获得更新之后的前景外观模型b′fg。
此外,公式(8)的分子是通过从时刻t的观测值ot剪切与状态j相对应的位置(xj,yj)处的前景尺寸的区域的观测值(图像)ot(xj+u,yj+v)、并且使时刻t在状态j中的概率αt(j)βt(j)与图像ot(xj+u,yj+v)加权(相乘)的结果获得的加权值(相乘值)的所有时刻的所有状态的和值,并且指示在前景尺寸的区域(xj+u,yj+v)中观测到的观测值(图像)ot(xj+u,yj+v)的期望值。
另外,公式(8)的分母指示所有时刻所有状态的(状态)转移的数量的期望值。
可以根据公式(9)获得更新之后的背景外观模型b′world。
在公式(9)中,(x,y)指示背景坐标系上的位置(坐标)。ot world(x,y)指示与状态j相对应的位置(xj,yj)处的前景尺寸区域(的观测值)ot(xj+u,yj+v)被设置为o的时刻t的观测值ot,即,在作为时刻t的观测值ot的图像中前景的区域的像素值被设置为0的图像。
因此,公式(9)的分子是作为使时刻t在状态j中的概率αt(j)βt(j)与作为时刻t的观测值ot world(x,y)的图像(其中,该图像通过将与状态j相对应的位置(xj,yj)处的前景尺寸的区域的观测值(像素值)ot(xj+u,yj+v)设置为0而获得)加权(相乘)的结果获得的加权值(相乘值)的所有时刻的所有状态的和值,并且指示与前景的移动(转移)无关的普遍图像(其是作为背景观测到的图像)的期望值。
另外,与公式(8)的分母相同,公式(9)的分母指示所有时刻所有状态的(状态)转移的数量的期望值。
如上所述,在更新前景外观模型bfg中,在图像的观测值ot当中使用与状态j相对应的位置(xj,yj)处的前景尺寸的区域的观测值ot(xj+u,yj+v),而在更新背景外观模型bworld中,使用通过将与状态j相对应的位置处的前景尺寸的区域的观测值设置为0而获得的图像的观测值ot world(x,y)。然后,以自组织方式分离和学习背景和在背景上移动的前景,并且结果,可以容易地学习背景和在背景上移动的前景,而无需指定物体或提取进行运动(移动)的图像区域的标注。
[(iv)参数的初始值]
在分离学习模型λ的学习中,作为参数λ(π,A,bworld,bfg)的初始值,例如,设置在0至1的范围中的随机值。
然而,在本公开中,关于转移概率aij,例如,基于公式(10)来设置设置有周围(periphery)限制的初始值,该周围限制用于根据当前位置将在背景上移动的前景的移动限制于周围位置。
这里,在公式(10)中,rand[0,1]指示0至1范围中的随机数。
另外,在公式(10)中,dij指示与状态i相对应的背景上的位置fi和与状态j相对应的背景上的位置fj之间的距离,并且dmin指示定义周围的常数的阈值。
在背景坐标系中,当与状态相对应的位置之间的(横向和纵向)距离是1时,在前景的移动限于从当前位置到四个周围的位置的转移时,例如,阈值dmin被设置为由公式1≤dmin<√2指示的范围中的值。另外,当前景的移动限于从当前位置到八个周围的位置的转移时,阈值dmin被设置为由公式√2≤dmin<2指示的范围中的值。
[1.2节使用动作的状态转移的条件下的HMM(具有动作条件的HMM)的分离学习模型]
在使用上述分离学习模型的HMM中,状态概率aij是到状态j的转移的数量与来自状态i的转移的和值的比值,并且简单地(在无需特定条件的情况下)指示状态之间的转移概率。
在本公开中,扩展HMM的表示,并且处理具有在引起状态的转移的动作w的条件下转移概率aij(w)的HMM(在下文中,还被称为具有动作条件的HMM),并且在以下,将描述使用这样的具有动作条件的HMM的(转移概率)的分离学习模型。
这里,具有与动作w无关的转移概率aij、或没有动作w的条件的HMM也被称为没有动作条件的HMM,以便与具有动作条件的HMM区分。
在具有动作条件的HMM中,关于转移概率,通过具有对于每个动作从状态i到状态j的转移概率的表格,动作的维度被添加到作为转移源的状态i到作为转移目的地的状态j的维度。
换句话说,没有动作条件的HMM的转移概率aij是由作为转移源的状态i和作为转移目的地的状态j的维度二维地表示的,而具有动作条件的HMM的转移概率aij(wk)是由作为转移源的状态i、作为转移目的地的状态j、以及动作的维度三维地表示的。
此外,除了在没有动作条件的HMM中使用的变量之外,具有动作条件的HMM还使用以下变量。
U={u0,u1,...,uT-1}:动作系列(动作的时间系列)
w={w1,w2,...,wK}:动作集合(与前景相对应的物体(可以执行动作的主体的手)可以执行的动作的集合)
图4A和4B是示出没有动作条件的HMM的转移概率A=aij和具有动作条件的HMM的转移概率A=aij(wk)的图。
如上所述,没有动作条件的HMM的转移概率aij是由作为转移源的状态i和作为转移目的地的状态j的维度二维地表示的,而具有动作条件的HMM的转移概率aij(wk)是由作为转移源的状态i、作为转移目的地的状态j、以及动作wk的维度三维地表示的。
具有动作条件的HMM的转移概率aij(wk)是当进行动作wk时从状态i到状态j转移的概率,并且是对于每个动作wk的转移概率。
在使用具有动作条件的HMM的分离学习模型中,前景模型包括对于每个动作wk的转移概率aij(wk),以取代与动作w无关的转移概率aij。
[(i)前向-后向算法]
关于使用具有动作条件的HMM的分离学习模型λ,前向-后向算法中的前向概率αt+1(j)是在分离学习模型λ中,随着动作系列u1,u2,...,ut的动作的执行,观测到观测系列o1,o2,...,ot并且在时刻t+1在状态j中的概率,并且可以根据公式(11)来获得。
α0(j)=πj
根据公式(11),获得状态j的初始状态概率πj作为其是初始值的、时刻t=0的前向概率α0(j)。此外,根据公式(11),使用作为时刻t在状态j中的状态概率的前向概率αt(i)来获得时刻t=1以后的时刻的前向概率αt+1(j)。换句话说,时刻t在状态i中,根据通过动作ut的执行产生的状态转移,获得在时刻t+1观测到观测值ot+1而在状态j的概率作为时刻t=1以后的时刻的前向概率αt+1(j)。
关于使用具有动作条件的分离学习模型λ,前向-后向算法中的后向概率βt(i)是在分离学习模型λ中、在时刻t在状态i中、并且随着动作系列ut+1,ut+2,...,uT-1的动作的执行然后观测到观测系列ot+1,ot+2,...,oT的概率,并且可以根据公式(12)来获得。
βT(i)=1
根据公式(12),关于所有状态i(1≤i≤N),作为初始值的时刻t+T的后向概率βT(i)被设置为1,但是这指示时刻t=T的所有状态i的状态概率被设置为1。此外,根据公式(12),使用作为时刻t+1在状态j中的状态概率的后向概率βt+1(j)来获得时刻t=T-1以前的时刻的后向概率βt(i)。换句话说,如果假设时刻t在状态i中,通过由于动作ut的执行产生的状态转移而在时刻t+1观测到观测值ot+1并且在状态j中,获得时刻t在状态i中的概率作为时刻t=T-1以前的时刻的后向概率βt(i)。
[(ii)Baum-Welch算法]
通过对于动作wk对用于获得使用没有动作条件的HMM的分离学习模型λ的参数λ(π,A,bworld,bfg)的Baum-Welch算法进行扩展,估计(再估计或更新)使用具有动作条件的HMM的分离学习模型λ的参数λ(π,A,bworld,bfg)。
换句话说,在分离学习模型λ中,随着执行动作系列U={u0,u1,...,uT-1}的动作,当观测到观测系列O={o1,o2,...,oT}时,可以根据公式(13)获得在时刻t-1的状态i中通过执行动作wk而从时刻t-1的状态i转移到时刻t的状态j的概率ξt(i,j,wk)。
另外,在分离学习模型λ中,随着执行动作系列U={u0,u1,...,uT-1}的动作,当观测到观测系列O={o1,o2,...,oT}时,可以根据公式(14)获得在时刻t-1的状态i中执行动作ut-1=wk的概率γt-1(i,wk),作为概率ξt(i,j,wk)中时刻t的状态j边缘化的概率。
可以使用公式(13)的概率ξt(i,j,wk)和公式(14)的概率γt-1(i,wk),估计使用具有动作条件的HMM的分离学习模型λ的参数λ(π,A,bworld,bfg)。
换句话说,可以根据公式(15)来获得更新之后的初始状态概率π′i。
可以根据公式(16)来获得更新之后的转移概率a′ij(wk)。
这里,公式(16)的分子指示在状态i中通过执行动作wk到状态j的转移的数量的期望值,而分母指示在状态i中执行动作wk的数量和状态转移的期望值。
此外,可以以与没有动作条件的HMM相同的方式、根据公式(18)来获得更新之后的前景外观模型b′fg,并且还可以以与没有动作条件的HMM相同的方式、根据公式(9)来获得更新之后的背景外观模型b′world。
[1.3节对Baum-Welch算法的追加学习的扩展]
在1.1节和1.2节中,对根据在一次获得在分离学习模型的学习中使用的所有学习数据(观测系列和动作系列)时的Baum-Welch算法的学习(即,批量学习)执行公式化,但是Baum-Welch算法可以被扩展到追加学习。
这里,追加学习是用于以如下方式获得与一次学习所有学习数据相同结果的学习:由于在一轮学习(更新参数)中仅可以观测到整个学习数据的部分区间,因此对学习数据进行多次学习,并且残留过去的学习结果而逐渐更新(模型)参数,并且最终学习所有学习数据。
可以通过保持并计算作为用于获得公式(7)的转移概率a′ij、公式(8)的前景外观模型b′fg(b′fg(u,v)、公式(9)的背景外观模型b′world、以及公式(16)的转移概率的a′ij(wk)的更新计算的中间结果的每个更新计算的累积分子和分母,实现对Baum-Welch算法的追加学习的扩展。
例如,当执行每次T/C步骤使用整个具有T步骤(样本)的学习数据、并且执行C次分离学习模型的学习的追加学习时,取代公式(16),分别使用公式(7)至(9)、以及公式(17)、(18)、(19)、以及(20)。
这里,在公式(17)中,分子的aij n(new)和分母的aij d(new)是公式(17)的更新计算的中间结果,在追加学习中保持中间结果aij d(new)和aij n(new),在下一更新计算中,分别使用中间结果aij d(new)和aij n(new)作为公式(17)的aij d和aij n。
在公式(18)中,分子的bfg n(new)和分母的bd(new)是公式(18)的更新计算的中间结果,在追加学习中保持中间结果bd(new)和bfg n(new),在下一更新计算中,分别使用中间结果bd(new)和bfg n(new)作为公式(18)的bd和bfg n。
在公式(19)中,分子的bworld n(new)和分母的bd(new)是公式(19)的更新计算的中间结果,在追加学习中保持中间结果bd(new)和bworld n(new),在下一更新计算中,分别使用中间结果bd(new)和bworld n(new)作为公式(19)的bd和bworld n。
由于作为公式(18)和公式(19)的分母的中间结果bd(new)相同,因此作为公式(18)和公式(19)的分母的中间结果bd(new)可以保持任一中间结果。
在公式(20)中,分子的aij n(new)(wk)和分母的aij d(new)(wk)是公式(20)的更新计算的中间结果,在追加学习中保持中间结果aij d(new)和aij n(new)(wk)(wk),在下一更新计算中,分别使用中间结果aij d(new)和aij n(new)(wk)作为公式(20)的aij d(wk)和aij n(wk)。
如上所述,存储更新计算的中间结果,并且更新计算的中间结果和下一学习数据用来执行更新计算以更新分离学习模型的参数,由此可以执行分离学习模型的追加学习。
换句话说,每次输入新学习数据时,可以通过累积对作为分离学习模型的参数的、作为变量的分子和分母的更新量、同时保持过去的学习结果,反映新学习数据对分离学习模型的参数的更新内容。
[第2章限制视野时的分离学习模型的学习]
图5是说明限制主体的视野时的分离学习模型的学习的图。
在第1章中,隐含假设可以观测到布置了前景的背景的整个图像,但是当安装在主体上的照相机捕获的图像用作观测值ot时,存在仅获得布置了前景的背景的一部分区域作为观测值ot的情况。
换句话说,假设主体具有视野,主体仅观测到布置了前景的背景的整个图像中作为观测值ot的其视野的区域(视野区域)的图像。
此外,视野区域以如下这样的方式改变:主体进行头部的运动以移动视线方向。
然而,作为已知数据给出每时刻t的视野区域R={r1,r2,...,rT}。
在这种情况下,可以通过仅以与前景完全包括在视野区域中的情况下的前景的位置fi相对应的状态Si∈ri为对象进行参数更新,学习分离学习模型。
图5示出了在布置了前景(前景外观模型)的背景(背景外观模型)上,仅观测已知视野区域rt的图像作为时刻t的观测值ot的情况。
在图5中,圆圈指示与布置了前景的位置fi相对应的状态i,另外,圆圈当中的黑圆圈指示与前景尺寸的整个区域包括在视野区域rt中的位置fi相对应的状态i。
如图5所示,在其上布置了前景(前景外观模型)的背景(背景外观模型)中,当仅观测已知视野区域rt的图像作为时刻t的观测值ot时,仅以来自所有状态的转移概率当中的、以来自与前景尺寸的整个区域包括在视野区域rt处的位置fi相对应的状态i(由图5中的黑圆圈指示)的转移概率为对象执行转移概率的更新。
另外,仅使用对于所有状态作为后验概率的前向概率和后向概率当中的、关于与前景尺寸的整个区域包括在视野区域rt处的位置fi相对应的状态i(由图5中的黑圆圈指示)的前向概率αt(i)和后向概率βt(i),执行前景外观模型和背景外观模型的更新。
[第3章具有多个前景模型的分离学习模型的学习]
图6是示意性地示出另一分离学习模型的图。
分离学习模型可以包括多个前景模型。
在图6中,分离学习模型包括背景模型和两个前景模型#1和#2。在这种情况下,在分离学习模型中,以如下这样的方式表示观测图像:由前景模型#1指示的前景布置在由背景模型指示的背景上的位置fi处,而由前景模型#2指示的前景布置在位置fi′处。
这里,在分离学习模型具有其是复数的、M个前景模型#1至#M时的第m个前景模型#m的转移概率aij(或aij(wk))和前景外观模型bfg分别由aij{m}和bfg{m}指示。
在具有复数M个前景模型#1至#M的分离学习模型中,M个前景模型#1至#M共享一个背景模型(背景外观模型bworld)。
此外,包括在观测图像中的前景的数量M被设置为已知的,并且分离学习模型被设置为具有包括已知的、M个(或更高数量)前景的前景模型。
另外,分离学习模型具有的前景模型#m的转移概率aij{m}可能是没有动作条件的HMM的转移概率aij、或者具有动作条件的HMM的转移概率aij(wk)。
这里,包括具有动作条件的HMM的转移概率aij(wk)的前景模型也被称为具有动作条件的前景模型,而包括没有动作条件的HMM的转移概率aij的前景模型也被称为没有动作条件的前景模型。
分离学习模型具有的多个前景模型可包括具有动作条件的前景模型和没有动作条件的前景模型。
[3.1节观测似然的计算]
当分离学习模型具有多个前景模型时,在分离学习模型中要计算观测(图像的)观测值的观测似然p(ot|st=i)时,通过考虑由分离学习模型具有的多个前景模型表示的所有前景布置在背景上、以及由分离学习模型具有的多个前景模型表示的所有前景布置在与每个状态i相对应的背景上的位置fi处的所有组合,生成公式(1)的虚拟观测值omodel(i)。
然而,在这种情况下,关于分离学习模型具有的前景模型的数量,观测似然p(ot|st=i)的计算量指数增大。
因此,在本公开中,当分离学习模型具有多个前景模型时,可以近似获得观测似然p(ot|st=i)。
换句话说,在本公开中,可以各个将多个前景模型(表示的前景)布置在背景模型(表示的背景)上,并且根据公式(1)对于各个前景模型获得观测似然p(ot|st=i)。
在这种情况下,对于每个前景模型#m各个获得作为状态概率(后验概率)的前向概率αt(i)和后向概率βt(i)。
这里,分别由αt{m}(i)(或αt{m})和βt{m}(i)(或βt{m})表示前景模型#m的前向概率αt(i)和后向概率βt(i)。
如果前景模型#m是没有动作条件的前景模型,则使用关于前景模型#m的观测概率p(ot|st=i),根据公式(2)和(3)分别获得关于前景模型#m的前向概率αt{m}(i)和后向概率βt{m}(i)。
另外,如果前景模型#m是具有动作条件的前景模型,则使用关于前景模型#m的观测概率p(ot|st=i),根据公式(11)和(12)分别获得关于前景模型#m的前向概率αt{m}(i)和后向概率βt{m}(i)。
[3.2节Baum-Welch算法]
可以如下执行基于Baum-Welch算法的、具有多个前景模型的分离学习模型λ的参数λ(π,A,bworld,bfg)的估计(再估计或更新)。
换句话说,如果分别由πi{m}、aij{m}、以及bfg{m}指示前景模型#m的初始状态概率、转移概率、以及前景外观模型,则当前景模型#m是没有动作条件的前景模型时,根据需要,前景模型#m的初始状态概率πi{m}、转移概率aij{m}、以及前景外观模型bfg{m}使用关于前景模型#m的观测似然p(ot|st=i)、前向概率αt{m}(i)、以及后向概率βt{m}(i),并且分别根据公式(6)至(8)被更新。
另外,当前景模型#m是具有动作条件的前景模型时,根据需要,前景模型#m的初始状态概率πi{m}、转移概率aij{m}、以及前景外观模型bfg{m}使用关于前景模型#m的观测似然p(ot|st=i)、前向概率αt{m}(i)、以及后向概率βt{m}(i),并且分别根据公式(15)、(16)被更新。
此外,当要执行追加学习时,根据需要,前景模型#m的初始状态概率πi{m}、转移概率aij{m}、以及前景外观模型bfg{m}使用关于前景模型#m的观测似然p(ot|st=i)、前向概率αt{m}(i)、以及后向概率βt{m}(i),并且分别根据公式(17)(或公式(20))和(18)被更新。
背景外观模型bworld使用关于每个前景模型#m的前向概率αt{m}(i)和后向概率βt{m}(i),并且根据公式(21)被更新。
此外,当执行追加学习时,根据公式(22)来更新背景外观模型bworld。
这里,在公式(21)和(22)中,ot world{m}指示通过将第m个前景模型#m的位置fi处的前景尺寸的区域(的观测值)设置为0而获得的时刻t的观测值ot(即,时刻t的观测值ot)当中的、由前景模型#m指示的前景区域的像素值被设置为0的图像。
因此,根据公式(21)和(22),通过对关于整个M个前景模型#1至#M的知识进行组合,更新背景外观模型bworld。
[第4章前景模型的排他学习]
当分离学习模型λ具有多个前景模型时,可以通过在第3章中描述的方法来执行分离学习模型λ的学习(即,参数λ(π,A,bworld,bfg)的更新)。
然而,由于在第3章中描述的方法中对于图像的观测系列中的多个前景和前景模型之间的对应关系不存在限定,因此可能存在如下情况:图像的观测系列中的相同前景通过分离学习模型具有的多个前景模型当中的两个或更多个前景模型被重复学习(制成模型)、或者甚至没有被任何前景模型学习。
因此,在本公开中,当分离学习模型λ具有多个前景模型时,可以引入排他限定处理用于前景模型(的作为参数的初始状态概率、转移概率、以及前景外观模型)的更新。
在排他限定处理中,限定学习,使得在某一前景模型中学习的前景不在其它前景模型中被学习。
可以通过对前景模型的更新施加优先级顺序并且通过减少处理,实现排他限定处理。
在对前景模型的更新施加优先级顺序中,对用于执行参数的更新的前景模型施加优先级顺序,并且根据优先级顺序,选择前景模型作为要学习(用于更新参数)的对象模型。
在减少处理中,从作为对象模型的学习中使用的学习数据的图像的观测系列减少在对象模型的前景外观模型的更新中使用的量的观测值。然后,使用减少处理之后的图像的观测值,执行下一对象模型的更新。
图7是说明排他限定处理的图。
现在,分离学习模型λ具有的M个前景模型#1至#m中的、第m个前景模型#m的优先级顺序被设置为第m个。
另外,由ot (m)指示在第m个前景模型#m的学习(参数的更新)中使用的时刻t的图像的观测值。
在排他限定处理中,如上所述,执行从作为对象模型的学习中使用的学习数据的图像的观测系列减少在对象模型的前景外观模型的更新中使用的量的观测值的减少处理,并且使用减少处理之后的图像的观测值来执行下一对象模型的更新。
根据公式(23)来执行减少处理。
0≤u≤umax,0≤v≤vmax …(23)
这里,在其优先级顺序是第一的前景模型#1的学习中使用的时刻t的观测值ot (1)等于时刻t的图像的观测值ot。
在公式(23)中,通过对时刻t在状态i中的概率αt(i)βt(i)(αt{m}(i)βt{m}(i))与在对应于状态i的位置(xi+u,yi+v)处的前景尺寸的(矩形)区域内的、第m个前景模型#m的学习中使用的观测值ot (m)(xi+u,yi+v)加权(或相乘),对于所有状态获得从其结果获得的(加权图像)的加权值(相乘值)的和值∑αt(i)βt(i)ot (m)(xi+u,yi+v)。
然后,通过从观测值ot (m)(xi+u,yi+v)减去和值∑αt(i)βt(i)ot (m)(xi+u,yi+v),获得在具有下一优先级顺序的前景模型#(m+1)的学习中使用的时刻t的观测值ot (m+1)。
此外,公式(23)右侧的第一项的ot和第二项的∑αt(i)βt(i)ot (m)(xi+u,yi+v)构成相同尺寸的矩阵(即,二维变量),并且对于与ot相同尺寸的二维变量V(a1,a2)当中的、作为公式(xi,yi)≤(a1,a2)≤(xi+u,yi+v)的范围内的二维变量V(a1,a2)的索引(a1,a2),获得在取第二项的和值(∑)时的结果αt(i)βt(i)ot (m)(xi+u,yi+v)。
根据排他限定处理,由于在具有低优先级顺序的前景模型的学习中使用通过推导关于由具有高优先级顺序的前景模型学习的前景的信息而获得的观测值,因此可以防止具有低优先级顺序的前景模型学习由具有高优先级顺序的前景模型学习的前景,换句话说,可以防止多个前景模型学习同一前景。
[第5章包括具有动作条件的前景模型和没有动作条件的前景模型的分离学习模型的前景和前景模型的自组织对应]
[5.1节包括具有动作条件的前景模型和没有动作条件的前景模型的分离学习模型]
将描述当分离学习模型包括具有动作条件的前景模型和没有动作条件的前景模型两者作为多个前景模型时的分离学习模型的学习。
根据包括具有动作条件的前景模型和没有动作条件的前景模型两者的分离学习模型,可以使用从环境观测到的观测系列来学习如下环境:在背景上存在多个前景、并且包括其移动与已知动作相关联的前景(在下文中,也被称为具有动作的前景)、以及移动和动作之间的关联是未知、但是可以观测其移动的前景(在下文中,也被称为没有动作的前景)作为多个前景。
这里,在背景上,(一个或更多个)具有动作的前景和(一个或更多个)没有动作的前景一起存在的环境对应于例如如图1所示的、主体使用安装在其自己的身体上的照相机捕获的图像和作为主体的手的操作体这样的方式执行物体操作的环境等。
在这种情况下,在主体的视野中感知的图像(或照相机捕获的图像)的观测系列中,作为要操作的物体的图像的前景和作为操作物体的主体自己的手的图像的前景混合。
另外,由于通过从主体自己输出的动作进行主体的视野中的手的移动,因此,与主体的手相对应的前景是根据已知动作移动的具有动作的前景。
另一方面,由于通过主体的手对物体的接触来进行要操作的物体的移动,但是引起移动的动作是未知的,因此,与要操作的物体相对应的前景是没有动作的前景。
此外,当分离学习模型学习从混合如上所述的具有动作的前景和没有动作的前景的环境观测到的观测系列时,分离学习模型包括其数量等于(或大于)具有动作的前景的数量的具有动作条件的前景模型、以及其数量等于(或大于)没有动作的前景的数量的没有动作条件的前景模型。
图8是示出作为生成模型的图形模型的图,该生成模型用于生成照相机捕获在背景上混合一个或更多个具有动作的前景和一个或更多个没有动作的前景的环境而获得的图像的观测值。
换句话说,图8示出了在假设在背景中混合与具有动作的前景相对应的主体的手和作为没有动作的前景的要操作的物体的环境时、假设的环境的图形模型。
在背景中,可以由如下分离学习模型来表示混合与具有动作的前景相对应的主体的手和作为没有动作的前景的要操作的物体的假设的环境:该分离学习模型包括作为与主体的手相对应的前景模型的具有动作的前景模型#1和作为与要操作的物体相对应的前景模型的没有动作条件的前景模型#2来作为多个前景模型。
换句话说,可以利用手的外观、手的状态(位置)、初始位置、以及手的运动(移动),生成与具有动作的前景相对应的主体的手的图像。
在具有动作条件的前景模型#1中,分别地,手的外观对应于前景外观模型bfg{1},手的状态(位置)对应于作为前景模型#1的内部变量的状态Si{1}(背景上的前景外观模型bfg{1}的位置fi)、初始位置对应于初始状态概率πi{1}、并且手的运动对应于具有动作条件的HMM的转移概率aij{1}。
此外,通过用于驱动手的驱动信号来驱动手,而驱动信号对应于动作系列(动作的时间系列)U,手的状态(位置)(换句话说,前景模型#1的状态Si{1})根据动作系列U而转移(移动)。
可以利用物体的外观、物体的状态(位置)、初始位置、以及物体的运动(移动),生成与没有动作的前景相对应的要操作的物体的图像。
在没有动作条件的前景模型#2中,分别地,物体的外观对应于前景外观模型bfg{2},物体的状态(位置)对应于作为前景模型#2的内部变量的状态Si{2}(背景上的前景外观模型bfg{2}的位置fi)、初始位置对应于初始状态概率πi{2}、并且物体的运动对应于没有动作条件的HMM的转移概率aij{2}。
另外,假设的环境中的背景的图像(背景的外观)对应于背景模型的背景外观模型bworld。
可以通过将主体的手的图像和要操作的物体的图像布置在假设的环境的背景的图像上,生成假设的环境的整个外观(环境的外观)。
此外,通过从假设的环境的整个外观剪切主体的视野的范围,可以获得主体的照相机捕获的图像的观测系列O。
这里,主体的视野对应于图5中描述的视野区域R。
在分离学习模型中,使用照相机捕获的图像的观测系列O、作为用于驱动手的驱动信号的已知动作系列U、以及视野区域R作为学习数据,执行假设的环境的学习并且获得分离学习模型的参数。
换句话说,关于与手相对应的前景模型#1,获得与手的外观相对应的前景外观模型bfg{1}、与手的初始位置相对应的初始状态概率πi{1}、以及与手的运动相对应的具有动作条件的HMM的转移概率aij{1}。
关于与物体相对应的前景模型#2,获得与物体的外观相对应的前景外观模型bfg{2}、与物体的初始位置相对应的初始状态概率πi{2}、以及与物体的运动相对应的没有动作条件的HMM的转移概率aij{2}。
另外,在与假设的环境的背景相对应的背景模型中,获得与背景的外观相对应的背景外观模型bworld。
此外,在图8中,为了简化描述,示出了其中在背景上混合具有动作的一个前景和没有动作的一个前景的假设的环境,但是还可以利用与图8中相同的图形模型来表示混合多个具有动作的前景和多个没有动作的前景的环境,并且此外利用分离学习模型来学习环境。
[5.2节基于转移概率的熵估计的参数更新]
可以利用在第3章中描述的方法来学习混合了具有动作条件的前景模型和没有动作条件的前景模型的分离学习模型(在下文中,也被称为混合模型)。
然而,第3章中描述的方法不保证在具有动作条件的前景模型中学习与主体的手相对应的具有动作的前景并且在没有动作条件的前景模型中学习与要操作的物体相对应的没有动作的前景。
这是因为,Baum-Welch算法的学习原理是基于梯度学习的参数收敛的学习方法,并且因此,可在(模型)参数的初始值依赖性的本地最小俘获学习。
在通常的本地最小的模式中,通过具有动作条件的前景模型来开始没有动作的前景的学习,或者通过没有动作条件的前景模型来开始具有动作的前景的学习,并且然后,开始学习的前景模型将不能够将学习的对象切换到其它前景。
理论上,相比通过没有动作条件的前景模型来学习,保证更可能地通过具有动作条件的前景模型来学习具有动作的前景,但是在本公开中,为了防止学习由于初始值依赖性而停滞,可以采用如下估计处理(在下文中,也被称为切换促进处理):其用于促进前景模型外部地切换作为要学习的对象的前景。
图9是说明切换促进处理的图。
在切换促进处理中,关于在第4章中描述的更新前景模型中的施加优先级顺序,具有动作条件的前景模型相比没有动作条件的前景模型被施加有优先,以便被选择作为对象模型。
此外,在切换促进处理中,作为被选择作为对象模型的具有动作条件的前景模型#m的前景外观模型bfg{m},采用包括在混合模型中的M个前景模型#1至#M的前景外观模型bfg{1}至bfg{M}的假设模型VM#1至VM#M使用图像的观测值O和动作U被更新。
这里,在图9中,选择前景模型#1作为对象模型。
在此之后,在切换促进处理中,对于更新之后的每个假设模型VM#1至VM#M,根据公式(24)获得转移概率的平均熵Hmean。
这里,公式(24)的转移概率aij(wk)是(更新之后的)假设模型的转移概率。另外,In指示自然对数(以Napier常数作为基底的对数)。
此外,在切换促进处理中,在更新之后的假设模型VM#1至VM#M当中,根据公式(25)获得(检测)转移概率的平均熵Hmean最小的假设模型VM#m′。
这里,在公式(25)中,argmin[]指示给出括号[]中的最小值的变量m。另外,ajj{m}(wk)指示(更新之后的)假设模型VM#m的转移概率,并且Hmean{m}指示假设模型VM#m的转移概率aij{m}(wk)的平均熵。
在切换促进处理中,使用更新之后的假设模型VM#1至VM#M当中的、其转移概率的熵最小的假设模型VM#m′,获得公式(1)的观测似然p(ot|st=i),并且使用观测似然p(ot|st=i)作为对象模型的观测似然,以便更新对象模型的初始状态概率πi{m}、转移概率aij{m}、以及前景外观模型bfg{m}。
如上所述,通过优选地选择具有动作条件的前景模型作为对象模型并设置被选择作为对象模型的具有动作条件的前景模型#m的前景外观模型bfg{m}、使用图像的观测值O和动作U来更新分别采用包括在混合模型中的M个前景模型#1至#M的前景外观模型bfg{1}至bfg{m}的假设模型VM#1至VM#M,使用更新之后的假设模型VM#1至VM#M当中的、其转移概率的平均熵最小的假设模型VM#m′来获得观测似然p(ot|st=i)、并且使用作为对象模型的观测似然的观测似然p(ot|st=i)来更新对象模型的初始状态概率πi{m}、转移概率aij{m}、以及前景外观模型bfg{m},促进要学习的具有动作条件的前景模型的前景的切换,使得要学习的具有动作条件的前景模型的前景成为具有动作的前景。
图10是说明具有动作条件的前景模型的转移概率的图。
由于具有动作条件的前景模型具有每个动作的转移概率aij(wk),因此每个动作存在来自某一状态i的转移概率。
当给予作为对象模型的具有动作条件的前景模型的动作系列U与包括在对象模型中的前景外观模型bfg的移动对应时,对于每个动作wk分离来自状态i的转移概率。
换句话说,如果作为学习数据的、给予对象模型的动作wk对应于(链接到)对象模型的前景外观模型bfg的移动,则当在对象模型的状态i中执行动作wk时,转移到一个特定状态j的转移概率aij(wk)变成1。
具体地,例如,当存在从状态i转移到四个状态j={1,2,3,4}的可能性、执行四个动作wk={w1,w2,w3,w4}的可能性、并且执行某一动作wj时,如果对象模型的前景外观模型bfg从与状态i相对应的位置fi移动到与某一状态j相对应的位置fj,则转移概率aij(wk)变成1,并且对于不等于j的k,转移概率aij(wk)变成0。
如上所述,如果作为学习数据的、给予对象模型的动作wk对应于对象模型的前景外观模型bfg的移动,则当在状态i中执行动作wk时,来自与动作wk相对应的前景外观模型bfg的移动相当于的状态i的状态转移的转移概率aij(wk)变成1,并且来自状态i的其它状态转移的转移概率变成0。
结果,当作为学习数据的、给予对象模型的动作wk对应于对象模型的前景外观模型bfg的移动时,关于在某一状态i中执行某一动作wk时的转移概率,如图10所示,到一个特定状态j的状态转移的转移概率变成1,并且到其它状态的状态转移的转移概率变成0。
这里,图10示出了每动作wk的转移概率aij(wk),并且图10中以黑色着色的部分指示不是0的转移概率。
因此,当作为学习数据的、给予对象模型的动作wk对应于对象模型的前景外观模型bfg的移动时,由于来自每个状态i的转移概率当中的、其值不是0的转移概率集中于对于每个动作wk到特定状态j的状态转移,因此,转移概率的平均熵变得较小。
另一方面,当给予作为对象模型的具有动作条件的前景模型的动作系列u不对应于包括在对象模型中的前景外观模型bfg的移动时,对于每个动作wk不分离来自状态i的状态转移。
换句话说,如果作为学习数据的、给予对象模型的动作wk不对应于(不链接到)对象模型的前景外观模型bfg的移动,则当在对象模型的状态i中执行动作wk时,转移到每个状态j的转移概率aij(wk)分散。
具体地,例如,当存在从状态i转移到四个状态j={1,2,3,4}的可能性时,如果作为学习数据的、给予对象模型的动作wk不对应于对象模型的前景外观模型bfg的移动,则存在执行动作wk时、对象模型的前景外观模型bfg从与状态i相对应的位置fi移动到分别与状态j=1,2,3,4相对应的位置f1、f2、f3、以及f4中的任意一个的可能性,并且结果,来自状态i的转移概率ai1(wj)、ai2(wj)、ai3(wj)、以及ai4(wj)变成基本相同值(即,例如,0.25)。
如上所述,如果作为学习数据的、给予对象模型的动作wk不对应于对象模型的前景外观模型bfg的移动,则当在状态i中执行动作wk时,来自与前景外观模型bfg的移动相对应的状态i的状态转移的转移概率(其值不是0的转移概率)在转移目的地的每个状态j中分散。
结果,当作为学习数据的、给予对象模型的动作wk不对应于对象模型的前景外观模型bfg的移动时,关于当在某一状态i中执行某一动作wk时的转移概率,如图10所示,到多个状态j中的每一个的状态转移的转移概率变成不是0的值(以黑色着色的部分)。
因此,当作为学习数据的、给予对象模型的动作wk不对应于对象模型的前景外观模型bfg的移动时,由于来自每个状态i的转移概率当中的、其值不是0的转移概率对于每个动作wk不集中于到特定状态j的状态转移,因此转移概率的平均熵变得较大。
这里,作为学习数据的、给予对象模型的动作wk不对应于对象模型的前景外观模型bfg的移动的情况包括在除对象模型之外的前景模型中学习执行与给予对象模型的动作wk相对应的移动的前景(具有动作的前景)的情况、以及在对象模型中学习没有动作的前景的情况。
在切换促进处理中,如上所述,使用图像的观测值O和动作U,更新分别采用包括在混合模型中的M个前景模型#1至#M的前景外观模型bfg{1}至bfg{m}作为在对象模型中选择的具有动作条件的前景模型#m的前景外观模型bfg{m}的假设模型VM#1至VM#M,检测更新之后的假设模型VM#1至VM#M当中的、其转移概率的平均熵最小的假设模型VM#m′。
在其转移概率的平均熵最小的假设模型VM#m′中学习的前景(在假设模型VM#m′的生成中采用的前景外观模型bfg{m}中学习外观的前景)是执行与作为学习数据的、给予对象模型的动作wk相对应的移动的前景(具有动作的前景)的可能性较高,并且因此,在切换促进处理中,为了促进前景被切换到对象模型的学习对象,使用其转移概率的平均熵最小的假设模型VM#m′的观测似然p(ot|st=i),更新对象模型的初始状态概率πi{m}、转移概率aij{m}、以及前景外观模型bfg{m}。
在本公开中,可以执行在第4章中描述的排他限定处理和上述切换促进处理。
通过使切换促进处理起作用,优选地通过具有动作条件的前景模型来执行具有动作的前景的学习,并且然后,通过具有低优先级顺序的没有动作条件的前景模型来执行没有动作的前景的学习。
另外,通过使排他限定处理起作用,在不同的前景模型中学习不同前景(防止在不同前景模型中的相同前景的学习)。
因此,通过使切换促进处理和排他限定处理两者起作用,当在图像的观测值中包括多个前景时,在一个前景模型中学习一个前景,在具有动作条件的前景模型中学习具有动作的前景,而在没有动作条件的前景模型中学习没有动作的前景。
换句话说,根据本公开,当多个前景可以以自组织方式被分离和学习、并且包括具有动作的前景和没有动作的前景时,在没有动作条件的前景模型中学习没有动作的前景,而在具有动作条件的前景模型中学习具有动作的前景。
[应用了本公开的主体的一个实施例]
图11是示出应用了本公开的主体的实施例的配置示例的框图。
在图11中,作为例如主体的机器人包括照相机1、动作控制单元2、电机3、以及学习装置4。
照相机1捕获图像并且将图像的观测值O提供给学习装置4。
动作控制单元2生成作为用于驱动电机3的驱动信号的动作U(的信号),并且将动作提供给电机3和学习装置4。
根据来自动作控制单元2的动作U来驱动电机3,并且相应地,例如,未在图中示出的手移动。
学习装置4包括缓存11、数据获取单元12、模型学习单元13、以及模型存储单元14,并且使用来自照相机1的图像的观测值O和此外来自动作控制单元2的动作U作为学习数据来执行分离学习模型的学习。
这里,除了图像的观测值O和动作U之外,学习数据还包括图5中描述的视野区域。当照相机1安装在主体的头部时,例如根据主体的头部的角度等来识别视野区域R。
在学习装置4中,缓存11暂时存储来自照相机1的观测值O和来自动作控制单元2的行动U。
数据获取单元12获取存储在缓存11中的观测值O和动作U的整体的一部分,并且提供给模型学习单元13。
模型学习单元13使用来自数据获取单元12的学习数据,执行分离学习模型的学习(参数的更新)。
换句话说,模型学习单元13包括数据存储部21、优先级设置部22、减少处理部23、模型更新部24、以及熵计算部25。
数据存储部21暂时存储来自数据获取单元12的学习数据。另外,数据存储部21存储执行分离学习模型的追加学习时的更新计算的中间结果。
优先级设置部22设置包括在分离学习模型中的一个或更多个前景模型的优先级顺序。
减少处理部23对于作为存储在数据存储部21中的学习数据的图像的观测值O来执行(图7的)减少处理。
模型更新部24使用存储在数据存储部21中的学习数据来执行分离学习模型的学习(换句话说,分离学习模型的参数的更新)。
熵计算部25在图9中描述的切换促进处理中,对于假设模型,根据公式(24)来计算转移概率的平均熵Hmean。
模型存储单元14存储分离学习模型(的参数)。
[学习处理]
图12是说明图11的学习装置4执行的分离学习模型的(学习处理)的学习的处理的流程图。
在步骤S11中,模型更新部24对存储在模型存储单元14中的分离学习模型(的参数)进行初始化,并且处理前进到步骤S12。
在步骤S12中,优先级设置单元22对于存储在模型存储单元14中的分离学习模型中包括的前景模型的学习设置优先级顺序,并且处理前进到步骤S13。
这里,当分离学习模型包括具有动作条件的前景模型和没有动作条件的前景模型时,与没有动作条件的前景模型相比,优先级设置单元22对于具有动作条件的前景模型设置更高的优先级顺序。
此外,当分离学习模型包括作为具有动作条件的前景模型的多个前景模型时,多个具有动作条件的前景模型当中的优先级顺序可以采用任意顺序。
以相同方式,当分离学习模型包括作为没有动作条件的前景模型的多个前景模型时,多个没有动作条件的前景模型当中的优先级顺序可以采用任意顺序。
在步骤S13中,数据获取单元12从存储在缓存11中的学习数据获取在分离学习模型的学习中尚未使用的最新系列的预定长度量的学习数据,并且将数据提供给数据存储单元21来存储数据。
另外,处理从步骤S13前进到步骤S14,并且模型更新部24根据优先级设置部22设置的优先级顺序,从存储在模型存储单元14中的分离学习模型中包括的前景模型中,选择尚未使用存储在数据存储部21中的学习数据学习的前景模型当中的、具有最高优先级顺序的前景模型作为要学习的对象模型,并且处理前进到步骤S15。
在步骤S15中,模型更新部24确定对象模型是否是具有高优先级的高顺序模型(换句话说,具有动作条件的前景模型)。
在步骤S15中,如果确定对象模型不是作为高顺序模型的具有动作条件的前景模型(换句话说,当对象模型是没有动作条件的前景模型时),则处理跳过步骤S16并且前进到步骤S17。
另外,在步骤S15中,当确定对象模型是作为高顺序模型的具有动作条件的前景模型时,处理前进到步骤S16,并且模型学习单元13执行最小熵检测处理,并且处理前进到步骤S17。
这里,在最小熵检测处理中,作为被选择为对象模型的具有动作条件的前景模型的前景外观模型,生成如下假设模型:其中,假设分别采用包括在分离学习模型中的一个或更多个前景模型的前景外观模型。另外,使用存储在数据存储部21中的学习数据来更新假设模型,并且在更新之后的假设模型当中,检测其转换概率的平均熵最小的假设模型。
在步骤S17中,模型更新部24根据公式(1)来获得在对象模型的更新中使用的观测似然p(ot|st=i),并且处理前进到步骤S18。
这里,当对象模型是没有动作条件的前景模型时,在步骤S17中,使用没有动作条件的前景模型,获得公式(1)的观测似然p(ot|st=i)作为在对象模型的更新中使用的观测似然p(ot|st=i)。
另外,当对象模型是具有动作条件的前景模型时,使用在步骤S16中检测到的、其转移概率的平均熵最小的假设模型,获得公式(1)的观测似然p(ot|st=i)作为在对象模型的更新中使用的观测似然p(ot|st=i)。
在步骤S18中,模型更新部24使用在步骤S17中获得的、在对象模型的更新中使用的观测似然p(ot|st=i),获得对象模型的前向概率αt(i)和后向概率βt(i),并且处理前进到步骤S19。
在步骤S19中,模型更新部24使用在步骤S18中获得的前向概率αt(i)和后向概率βt(i),更新对象模型的初始状态概率πi。
此外,在步骤S19中,模型更新部24使用在步骤S18中获得的前向概率αt(i)和后向概率βt(i),更新对象模型的转移概率aij(或aij(wk)),并且根据需要使得数据存储部21存储(重写)转移概率aij的更新计算的中间结果,并且处理前进到步骤S20。
此外,当对象模型是具有动作条件的前景模型、并且获得公式(1)的观测似然p(ot|st=i)作为在对象模型的更新中使用的观测似然p(ot|st=i)时,使用步骤S17中其转移概率的平均熵最小的假设模型(在下文中,也被称为最小假设模型),以与步骤S19中对象模型的转移概率相同的方式(相同值),更新从对象模型生成的最小假设模型的转移概率。
在步骤S20中,模型更新部24使用在步骤S18中获得的前向概率αt(i)和后向概率βt(i),更新对象模型的前景外观模型bfg,并且根据需要,使得前景外观模型bfg的更新计算的中间结果存储(重写)在数据存储部21中,并且处理前进到步骤S21。
在步骤S21中,模型更新部24计算在对象模型的更新之后的分离学习模型中观测学习数据的似然L,并且确定似然L是否收敛。
这里,在对象模型的更新之后的分离学习模型中,可以根据例如公式(26)来获得观测学习数据的似然L。
这里,公式(26)的T指示步骤S13中的存储在数据存储部21中的学习数据的系列长度。
当对象模型是没有动作条件的前景模型时,通过使用公式(2)的前向概率αt(i)来计算公式(26)的似然L,该前向概率αt(i)是使用包括在系列长度为T的学习数据中的图像的观测值O={o1,o2,...,OT}而获得的。
另外,当对象模型是具有动作条件的前景模型时,通过使用公式(11)的前向概率αt(i)来计算公式(26)的似然L,该前向概率αt(i)是使用包括在系列长度为T的学习数据中的图像的观测值O={o1,o2,...,OT}和动作系列U={u0,u1,...,UT-1}而获得的。
这里,如果在对象模型中,由Lnew指示在步骤S21中获得的最新似然L并且由Lold指示在步骤S21中获得的先前似然L,则在步骤S21中,基于最新似然Lnew从先前似然Lold的增量Lnew-Lold是否(等于或)小于预定阈值ε的事实,确定似然L是否收敛。
换句话说,当似然的增量Lnew-Lold小于预定阈值ε时,确定似然L收敛。
此外,在对象模型的第一参数的更新期间,先前似然Lold被初始化为足够小的负值的变量。
在步骤S21中,当确定似然L不收敛时,处理返回到步骤S17,并且重复相同下一处理。
另外,在步骤S21中,当确定似然L收敛时,处理前进到步骤S22,并且模型更新部24确定包括在分离学习模型中的所有前景模型(的参数)的更新是否完成。
在步骤S22中,当确定包括在分离学习模型中的所有前景模型的更新尚未完成时,处理前进到步骤S23,并且减少处理部23执行存储在数据存储部21中的学习数据中包括的图像的观测值O的减少处理。
然后,处理从步骤S23返回到步骤S14,并且模型更新部24根据优先级设置部22设置的优先级顺序,重新选择将用作对象模型的前景模型,并且重复相同下一处理。
另外,在步骤S22中,当确定完成了包括在分离学习模型中的所有前景模型的更新时,处理前进到步骤S24,并且模型更新部24使用在步骤S18中获得的每个前景模型的前向概率αt(i)、后向概率βt(i)等来更新分离学习模型的前景外观模型bworld,并且根据需要使得数据存储部21存储(重写)前景外观模型bworld的更新计算的中间结果,并且处理前进到步骤S25。
在步骤S25中,确定数据获取单元12是否获取了存储在缓存11中的所有学习数据(学习数据结束)。
在步骤S25中,当确定尚未获取存储在缓存11中的所有学习数据时,处理返回到步骤S13,并且重复相同下一处理。
另外,在步骤S25中,当确定获取了存储在缓存11中的所有学习数据时,处理结束。
此外,在步骤S19、S20以及S24中,当要在作为追加学习的、从步骤S13至步骤S25的循环处理中执行使用下一学习数据的更新计算时,使用存储在数据存储部21中的更新计算的中间结果。
这里,在图12中,在步骤S16中执行最小熵检测处理,在步骤S17中,使用其转移概率的平均熵最小的假设模型来获得对象模型的更新中使用的观测似然p(ot|st=i),并且使用观测似然p(ot|st=i)来执行对象模型(的参数)的更新,其对应于第5章中描述的切换促进处理。
另外,在图12中,步骤S12中的设置优先级顺序和步骤S23中的执行减少处理对应于在第4章中描述的排他限定处理。
图13是说明在图12的步骤S16中执行的最小熵检测处理的流程图。
在步骤S31中,模型更新部24从包括在分离学习模型中的一个或更多个前景模型中选择尚未被选择作为要关注的关注模型的一个前景模型作为关注模型,并且处理前进到步骤S32。
在步骤S32中,模型更新部24生成采用关注模型的前景外观模型作为对象模型的前景外观模型的假设模型,并且处理前进到步骤S32。
换句话说,模型更新部24生成例如通过复制对象模型而获得的复制模型,并且通过用关注模型的前景外观模型替代复制模型的前景外观模型来生成假设模型。
在步骤S33中,模型更新部24使用存储在数据存储部21中的学习数据,获得假设模型的观测似然p(ot|st=i),并且处理前进到步骤S34。
在步骤S34中,模型更新部24使用假设模型的观测似然p(ot|st=i)来获得作为后验概率的前向概率αt(i)和后向概率βt(i),并且处理前进到步骤S35。
在步骤S35中,模型更新部24使用在步骤S34中获得的前向概率αt(i)和后向概率βt(i)等,更新假设模型的转移概率aij(或aij(wk)),并且处理前进到步骤S36。
在步骤S36中,熵计算部25获得在步骤S35中更新其转移概率的假设模型(更新之后的假设模型)的转移概率的平均熵Hmean,并且处理前进到步骤S37。
在步骤S37中,模型更新部24确定是否包括在分离学习模型中的所有前景模型被设置为关注模型。
在步骤S37中,当确定包括在分离学习模型中的所有前景模型尚未被设置为关注模型时,处理返回到步骤S31,并且然后,重复相同下一处理。
另外,在步骤S37中,当确定包括在分离学习模型中的所有前景模型被设置为关注模型时,处理前进到步骤S38,熵计算部25检测采用包括在分离学习模型中的一个或更多个前景模型的每个前景外观模型作为对象模型的前景外观模型的假设模型当中的、其转移概率的平均熵Hmean最小的假设模型作为最小假设模型,并且处理返回。
[模拟]
在下文中,将描述本公开的发明人执行的模拟。
图14是示出模拟的环境设置的图。
在模拟中,假设如下环境设置:在二维平面上存在在尖端附加有矩形手的一个臂和作为操作对象的一个矩形物体,并且获得由虚线围绕的矩形视野范围的图像作为观测值O。
此外,手和视野在上、下、左、以及右的四个方向上移动,并且物体通过手的干涉(接触)也在四个方向上移动。
图15A和15B是示出在模拟中使用的图像的图。
在模拟中,由二进制位图图像表示背景和前景(纹理)的外观。
图15A示出了整个环境的图像,而图15B示出了主体的视野范围的图像(即,使用作为观测值O的图像)。
除了整个环境的图像之外,图15A还示出了手、物体、以及视野的每个区域。
图15B的作为观测值O的图像是图15A的视野范围的图像。
在模拟中,手、物体、以及视野的每个区域对于一个步骤(一个时刻),被设置为能够在上、下、右、以及左方向的任意一个方向上移动一个像素。
另外,在模拟中,每个一个步骤的视野范围的图像被用作作为观测数据的观测值O。
图16是示出在模拟中使用的模拟器和分离学习模型的图。
模拟器虚拟地生成在图14中描述的环境设置。
换句话说,模拟器存储作为手的图像的前景#1、作为物体的图像的前景#2、以及背景(的图像)。
另外,模拟器通过对于手给出动作U{1}来使得作为手的图像的前景#1移动。此外,模拟器通过对于物体给出与手对物体的干涉相对应的动作U{2},使得作为物体的图像的前景#2移动。
然后,模拟器在背景上重叠前景#1和#2,从其上重叠前景#1和#2的背景剪切主体的视野的视野区域R,并且生成主体观测到的图像的观测值O。
分离学习模型包括两个前景模型#1和#2以及背景模型。
前景模型#1是具有动作条件的前景模型,并且包括具有动作条件的HMM的转移概率aij{1}(wk)和前景外观模型bfg{1}。
前景模型#2是没有动作条件的前景模型,并且包括没有动作条件的HMM的转移概率aij{2}和前景外观模型bfg{2}。
背景模型包括背景外观模型bworld。
此外,前景模型#1和#2还包括初始状态概率πi,但是在图16中,在图中省略初始状态概率πi。
在模拟中,从模拟器对作为具有动作条件的前景模型的前景模型#1给予动作U{1}作为学习数据,并且从模拟器对前景模型#1和#2、以及背景模型给予图像的观测值O和视野区域R作为学习数据。
此外,在模拟中,由于给予手的动作U{1}是主体给予手的、主体的已知动作,因此使用动作U{1}作为学习数据,但是与手对物体的干涉相对应的动作U{2}是主体未知的动作,动作U{2}不用作学习数据。
如上所述,在模拟中,动作U{1}、图像的观测值O、以及视野区域R被给予分离学习模型作为学习数据,并且估计转移概率aij{1}(wk)、前景外观模型bfg{1}、转移概率aij{2}、前景外观模型bfg{2}、以及背景外观模型bworld的五个参数。
图17A至18是示出模拟的结果的图。
图17A是示出对于学习的次数的前景模型#1的似然的变化的图。
在图17A中,水平轴指示学习的次数(学习次数,迭代),并且垂直轴指示前景模型#1的似然。
此外,在图17A至17D中,学习迭代数C是200,并且分离学习模型的学习结束。
在图17A中(同样在图17B中),圆圈标注指示使用T/C长度的学习数据来执行学习和分离学习模型的似然L(公式(26))收敛时的前景模型#1的似然(立即值(immediate value))。
在图17A中(同样在图17B中),前景模型#1的似然被识别为对于每个学习迭代C而上下起伏(go up and down)。这是因为在每个学习迭代C中在学习中使用的学习数据不同,并且当尚未学习的区域(尚未观测图像的观测值O的区域)的观测值O被给予作为学习数据时,前景模型#1的似然降低。
在图17A中(同样在图17B中),星形标注指示五次的似然的移动平均。
在模拟中,当通过作为具有动作条件的前景模型的前景模型#1的前景外观模型bfg{1}学习作为具有动作的前景的手的前景#1、并且通过作为没有动作条件的前景模型的前景模型#2的前景外观模型bfg{2}学习作为没有动作的前景的物体的前景#2时,迭代数C是大约40。
由于该原因,似然的移动平均趋于降低,直到学习迭代数C是大约40为止,但是在那之后,趋于增大。
图17B是示出对于学习迭代数C的前景模型#2的似然的变化的图。
前景模型#2的似然具有与图17A的前景模型#1的似然相同的趋势。
图17C是示出对于学习迭代数C的平均熵的差别值的变化的图。
在图17C中,水平轴指示学习迭代数C,而垂直轴指示平均熵的差别值。
这里,平均熵的差别值指的是以如下这样的方式获得的差别Hmean{1}-Hmean{2}:作为其是具有动作条件的前景模型的前景模型#1的前景外观模型,假设采用前景模型#1的前景外观模型bfg{1}的第一假设模型和假设采用前景模型#2的前景外观模型bfg{2}的第二假设模型使用学习数据被更新,并且从更新之后的第一假设模型的转移概率的平均熵Hmean{1}导出更新之后的第二假设模型的转移概率的平均熵Hmean{2}。
通过切换促进处理,如果差别Hmean{1}-Hmean{2}等于或大于0,则获得前景模型#1的观测似然作为其是具有动作条件的前景模型的前景模型#1的观测似然,并且如果差别Hmean{1}-Hmean{2}是负数,则获得采用前景模型#2的前景外观模型bfg{2}的第二假设模型的观测似然作为其是具有动作条件的前景模型的前景模型#1的观测似然。
图17D是示出对于存储在模拟器中的前景、前景外观模型的误差的变化的图。
在图17D中,水平轴指示学习迭代数C,而垂直轴指示前景外观模型中的误差。
换句话说,在图17D中,实线指示对于手的前景#1的前景外观模型bfg{1}的误差,而虚线指示对于物体的前景#2的前景外观模型bfg{2}的误差。
可以断言,当学习迭代数C是大约40时,前景外观模型bfg{1}和前景外观模型bfg{2}的误差两者接近0,并且因此,在前景外观模型bfg{1}中,获取作为手的外观的前景#1,而在前景外观模型bfg{2}中,获取作为物体的外观的前景#2。
图18是示出前景外观模型bfg{1}和前景外观模型bfg{2}的变化的图。
换句话说,图18示出了从第四次到第四十四次的学习迭代数C当中的、每四次学习的前景外观模型bfg{1}和前景外观模型bfg{2}。
在学习的初始阶段,前景外观模型bfg{1}学习并获取物体的前景#2。
当前景外观模型bfg{1}获取物体的前景#2时,执行排他限定处理的功能,并且当学习迭代数C是大约20时,前景外观模型bfg{2}学习并获取手的前景#1。
另外,同时,执行切换促进处理的功能,并且然后,促进前景模型#1是学习的对象的前景的切换,使得在作为具有动作条件的前景模型的前景模型#1中学习作为具有动作的前景的手的前景#1而不是作为没有动作的前景的物体的前景#2,并且结果,当学习迭代数C是大约28时,首先破坏获取物体的前景#2的前景外观模型bfg{1}。
在这之后,当学习迭代数C是大约40时,前景外观模型bfg{1}获取手的前景#1,并且前景外观模型bfg{2}通过执行的排他限定处理的功能来获取物体的前景#2。
如上所述,在本公开中,通过考虑学习(识别)对象的运动(移动)和主体的视线的运动(移动)、准备作为用于生成要观测的图像的生成模型的、描述图像的分离学习模型、并且以最大似然估计的方式估计描述图像的观测系列的(模型)参数,可以根据学习从图像的观测系列获取学习(识别)对象的分离学习模型,并且识别学习之后的对象物体,而无需预先具有关于学习(识别)对象的外观的先验知识和标注学习(识别)对象。
另外,在本公开中,由于分离学习模型考虑由于主体的视线的运动(移动)的背景的变化,因此由于主体的视线的运动引起的背景的移动不影响学习和识别。
此外,在本公开中,通过利用移动手的动作系列进行的动作建立模型并且执行最大似然估计、而无需指定关于手的外观(外观)的模型,自动建立主体的手的观测模型(前景外观模型)。
另外,在本公开中,由于作为转移概率通过学习获取用于识别并指定手的位置、并且在动作被给予手时示出手的位置如何变化的身体模型,因此即使当照相机或手的几何条件变化时,模型也可以适应性地跟随有追加学习。
[应用了本公开的计算机的描述]
接下来,可以通过硬件和软件来执行上述系列处理。当通过软件执行系列处理时,构成软件的程序安装在通用计算机等中。
因此,图19示出了安装了执行上述系列处理的程序的计算机的实施例的配置示例。
程序可以被预先记录在作为计算机中包括的记录介质的硬盘105或ROM 103上。
可替选地,程序可以被预先存储(记录)在可拆卸记录介质111中。这样的可拆卸记录介质111可以被提供为所谓的封装软件。这里,作为可拆卸记录介质111,例如,存在软盘、CD-ROM(致密盘只读存储器)、MO(磁光)盘、DVD(数字多功能盘)、磁盘、半导体存储器等。
此外,除了如上所述从可拆卸记录介质111安装在计算机之外,程序还可以通过广播网的通信网被下载到计算机上而安装在所包括的硬盘105中。换句话说,程序可以从下载站点通过例如用于数字卫星广播的卫星以无线方式被传送到计算机,或者可以通过诸如LAN(局域网)或因特网的网络而以有线方式被传送到计算机。
计算机包括CPU(中央处理单元)102,并且CPU 102通过总线101连接到输入和输出接口110。
当用户通过操作输入单元107等来经由输入和输出接口110输入命令时,CPU 102根据命令来执行存储在ROM(只读存储器)103中的程序。可替选地,在将程序装载到RAM(随机存取存储器)104之后,CPU 102执行存储在硬盘105中的程序。
因此,CPU 102执行根据上述流程图的处理、或基于上述框图的配置而实现的处理。另外,根据需要,通过例如输入和输出接口110,CPU 102使输出单元106输出、通信单元108传送、以及硬盘105记录处理结果。
此外,输入单元107包括键盘、鼠标、麦克风等。另外,输出单元106包括LCD(液晶显示器)、扬声器等。
这里,在本公开中,不一定以遵循在流程图中描述的顺序的时间系列来执行计算机根据程序执行的处理。换句话说,计算机根据程序执行的处理还包括并行或独立执行的处理(例如,并行处理或面向对象的处理)。
另外,程序可通过一个计算机(处理器)或通过分布式方式的多个计算机来执行处理。此外,程序可被传送到远程计算以便被执行。
此外,本公开的实施例不限于此,并且可以在不脱离本公开的精神的范围内被多样修改。
换句话说,作为主体,除了物理世界中的机器人之外,还可以采用诸如计算机游戏中的人物的虚拟人物。
另外,(图11的)照相机1不一定安装在主体上。
此外,本公开还可以采用以下配置。
[1].一种信息处理装置,包括学习单元,其使用物体执行的动作和图像的观测值作为学习数据,执行分离学习模型的学习,该分离学习模型包括作为图像的背景的模型的背景模型、以及作为可以在背景上移动的、图像的前景的模型的一个或更多个前景模型,其中,背景模型包括指示背景的外观的背景外观模型,并且一个或更多个前景模型当中的至少一个包括每个动作的转移概率和指示前景的外观的前景外观模型,其中,通过与前景相对应的物体执行的动作,以该转移概率对与背景上的前景的位置相对应的状态进行转移。
[2].在[1]中描述的信息处理装置,其中,学习单元获得与图像的观测值和在分离学习模型中观测的观测值之间的差别相对应的值,作为在分离学习模型中观测到图像的观测值的观测似然;使用观测似然和转移概率来获得前向概率和后向概率;根据Baum-Welch算法、使用前向概率、后向概率、以及观测似然来更新转移概率,并且使用前向概率、后向概率、以及图像的观测值来更新前景外观模型和背景外观模型;在更新前景外观模型中,使用图像的观测值当中的、与该状态相对应的位置处预先确定的前景尺寸的区域的观测值;以及在更新背景外观模型中,使用通过在与该状态相对应的位置处将前景尺寸的区域的观测值设置为0而获得的图像的观测值。
[3].在[2]中描述的信息处理装置,其中,分离学习模型包括多个前景模型,并且,学习单元在要学习的对象模型中顺序选择多个前景模型,并且更新对象模型的转移概率和前景外观模型,并且然后更新背景外观模型。
[4].在[3]中描述的的信息处理装置,其中,学习单元执行减少处理,并且使用经历了减少处理的图像的观测值,执行下一对象模型的更新,该减少处理用于从图像的观测值将观测值减少在对象模型的前景外观模型的更新中使用的量。
[5].在[3]或[4]中描述的信息处理装置,其中,作为多个前景模型,混合包括每个动作的转移概率和前景外观模型的具有动作条件的前景模型、以及包括与动作无关的转移概率和前景外观模型的没有动作条件的前景模型,并且学习单元在对象模型中,与没有动作条件的前景模型相比,优选地选择具有动作条件的前景模型;使用图像的观测值来更新假设模型,该假设模型假设分别采用多个前景模型的前景外观模型作为在对象模型中选择的具有动作条件的前景模型的前景外观模型;使用更新之后的假设模型中的、转移概率的熵最小的假设模型,获得观测似然;以及使用观测似然来更新对象模型的转移概率和前景外观模型。
[6].在[2]至[5]的任一个中描述的信息处理装置,其中,图像的观测值是图像中已知视野的视野区域的观测值,并且,学习单元仅对于来自前景尺寸的整个区域包括在视野区域中的状态的转移概率,执行前景模型的转移概率的更新;以及使用关于前景尺寸的整个区域包括在视野区域中的状态的前向概率和后向概率,执行前景模型的前景外观模型和背景模型的背景外观模型的更新。
[7].在[1]至[6]的任一个中描述的信息处理装置,其中,学习单元以如下这样的方式执行分离学习模型的追加学习:使用学习数据、通过执行对于作为分离学习模型的参数的转移概率、前景外观模型、以及背景外观模型进行更新的更新计算,学习分离学习模型;存储更新计算的中间结果;以及使用下一学习数据和更新计算的中间结果,执行用于更新分离学习模型的参数的更新计算。
[8].一种信息处理方法,包括使用物体执行的动作和图像的观测值作为学习数据来执行分离学习模型的学习的步骤,该模型包括作为图像的背景的模型的背景模型、以及作为可以在背景上移动的、图像的前景的模型的一个或更多个前景模型,其中背景模型包括指示背景的外观的背景外观模型,并且一个或更多个前景模型当中的至少一个包括每个动作的转移概率和指示前景的外观的前景外观模型,其中,通过与前景相对应的物体执行的动作,以该转移概率对与背景上的前景的位置相对应的状态进行转移。
[9].一种使得计算机起学习单元作用的程序,该学习单元使用物体执行的动作和图像的观测值作为学习数据来执行分离学习模型的学习,该模型包括作为图像的背景的模型的背景模型、以及作为可以在背景上移动的、图像的前景的模型的一个或更多个前景模型,其中背景模型包括指示背景的外观的背景外观模型,并且一个或更多个前景模型当中的至少一个包括每个动作的转移概率和指示前景的外观的前景外观模型,其中,通过与前景相对应的物体执行的动作,以该转移概率对与背景上的前景的位置相对应的状态进行转移。
本公开内容包含与2011年3月31日向日本专利局提交的日本优先权专利申请JP 2011-077697中公开的主题内容相关的主题内容,在此通过引用将其全文合并于此。
本领域的技术人员应该理解,在所附权利要求或其等同方案的范围内,根据设计需要和其它因素,可进行各种修改、组合、子组合以及变更。
Claims (9)
1.一种信息处理装置,包括:
学习单元,其使用物体执行的动作和图像的观测值作为学习数据,执行分离学习模型的学习,所述分离学习模型包括,
背景模型,其作为所述图像的背景的模型;以及
一个或更多个前景模型,其作为能够在所述背景上移动的、所述图像的前景的模型,其中
所述背景模型包括指示所述背景的外观的背景外观模型;并且
所述一个或更多个前景模型当中的至少一个包括,
每个动作的转移概率,通过与所述前景相对应的物体执行的动作,以所述转移概率对与所述背景上的所述前景的位置相对应的状态进行转移;以及
前景外观模型,其指示所述前景的外观。
2.根据权利要求1所述的信息处理装置,
其中,所述学习单元:
获得与所述图像的观测值和在所述分离学习模型中观测的观测值之间的差别相对应的值,作为在所述分离学习模型中观测到所述图像的观测值的观测似然;
使用所述观测似然和所述转移概率来获得前向概率和后向概率;
根据Baum-Welch算法、使用所述前向概率、所述后向概率、以及所述观测似然来更新所述转移概率,并且使用所述前向概率、所述后向概率、以及所述图像的观测值来更新所述前景外观模型和所述背景外观模型;
在更新所述前景外观模型中,使用所述图像的观测值当中的、与所述状态相对应的位置处预先确定的前景尺寸的区域的观测值;以及
在更新所述背景外观模型中,使用通过在与所述状态相对应的位置处将所述前景尺寸的区域的观测值设置为0而获得的所述图像的观测值。
3.根据权利要求2所述的信息处理装置,
其中,所述分离学习模型包括多个前景模型,并且
其中,所述学习单元:
在要学习的对象模型中顺序选择所述多个前景模型,并且更新所述对象模型的所述转移概率和所述前景外观模型;并且然后
更新所述背景外观模型。
4.根据权利要求3所述的信息处理装置,
其中,所述学习单元:
执行减少处理,所述减少处理用于从所述图像的观测值将观测值减少在所述对象模型的所述前景外观模型的更新中使用的量;并且
使用经历了所述减少处理的所述图像的观测值,执行下一对象模型的更新。
5.根据权利要求4所述的信息处理装置,
其中,作为所述多个前景模型,
混合包括每个动作的转移概率和所述前景外观模型的具有动作条件的前景模型;以及
包括与所述动作无关的转移概率和所述前景外观模型的没有动作条件的前景模型,并且
其中,所述学习单元:
在所述对象模型中,与所述没有动作条件的前景模型相比,优选地选择所述具有动作条件的前景模型;
使用所述图像的观测值,更新假设模型,所述假设模型假设分别采用所述多个前景模型的所述前景外观模型作为在所述对象模型中选择的所述具有动作条件的前景模型的所述前景外观模型;
使用更新之后的假设模型中的、所述转移概率的熵最小的假设模型,获得所述观测似然;以及
使用所述观测似然来更新所述对象模型的所述转移概率和所述前景外观模型。
6.根据权利要求2所述的信息处理装置,
其中,所述图像的观测值是所述图像中已知视野的视野区域的观测值,并且
其中,所述学习单元:
仅对于来自所述前景尺寸的整个区域包括在所述视野区域中的所述状态的所述转移概率,执行所述前景模型的所述转移概率的更新;以及
使用关于所述前景尺寸的整个区域包括在所述视野区域中的所述状态的所述前向概率和所述后向概率,执行所述前景模型的所述前景外观模型和所述背景模型的所述背景外观模型的更新。
7.根据权利要求2所述的信息处理装置,其中,所述学习单元以如下这样的方式执行所述分离学习模型的追加学习:
使用所述学习数据、通过执行对于作为所述分离学习模型的参数的所述转移概率、所述前景外观模型、以及所述背景外观模型进行更新的更新计算,学习所述分离学习模型;
存储所述更新计算的中间结果;以及
使用下一学习数据和所述更新计算的所述中间结果,执行用于更新所述分离学习模型的参数的更新计算。
8.一种信息处理方法,包括:
使用物体执行的动作和图像的观测值作为学习数据,执行分离学习模型的学习,所述分离学习模型包括,
背景模型,其作为所述图像的背景的模型;以及
一个或更多个前景模型,其作为能够在所述背景上移动的、所述图像的前景的模型,其中
所述背景模型包括指示所述背景的外观的背景外观模型;并且
所述一个或更多个前景模型当中的至少一个包括,
每个动作的转移概率,通过与所述前景相对应的物体执行的动作,以所述转移概率对与所述背景上的所述前景的位置相对应的状态进行转移;以及
前景外观模型,其指示所述前景的外观。
9.一种使得计算机起学习单元作用的程序,所述学习单元使用物体执行的动作和图像的观测值作为学习数据来执行分离学习模型的学习,所述分离学习模型包括,
背景模型,其作为所述图像的背景的模型;以及
一个或更多个前景模型,其作为能够在所述背景上移动的、所述图像的前景的模型,其中
所述背景模型包括指示所述背景的外观的背景外观模型;并且
所述一个或更多个前景模型当中的至少一个包括,
每个动作的转移概率,通过与所述前景相对应的物体执行的动作,以所述转移概率对与所述背景上的所述前景的位置相对应的状态进行转移;以及
前景外观模型,其指示所述前景的外观。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011077697A JP2012212323A (ja) | 2011-03-31 | 2011-03-31 | 情報処理装置、情報処理方法、及び、プログラム |
JP2011-077697 | 2011-03-31 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102737279A true CN102737279A (zh) | 2012-10-17 |
Family
ID=46927326
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2012100805694A Pending CN102737279A (zh) | 2011-03-31 | 2012-03-23 | 信息处理装置、信息处理方法以及程序 |
Country Status (3)
Country | Link |
---|---|
US (1) | US9104980B2 (zh) |
JP (1) | JP2012212323A (zh) |
CN (1) | CN102737279A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108169776A (zh) * | 2017-11-23 | 2018-06-15 | 中国科学院光电研究院 | 基于背景模型和实测数据的电离层延迟误差修正方法 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013191163A (ja) * | 2012-03-15 | 2013-09-26 | Sony Corp | 情報処理装置、情報処理方法、及び、プログラム |
US10105847B1 (en) * | 2016-06-08 | 2018-10-23 | X Development Llc | Detecting and responding to geometric changes to robots |
KR102579994B1 (ko) * | 2016-10-24 | 2023-09-18 | 삼성에스디에스 주식회사 | 다중 배경 모델을 이용한 전경 생성 방법 및 그 장치 |
JP6824398B2 (ja) * | 2017-05-22 | 2021-02-03 | 株式会社Fuji | 画像処理装置、多重通信システム及び画像処理方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0729081A (ja) | 1993-07-14 | 1995-01-31 | Toshiba Corp | 移動物体認識装置 |
JP3426002B2 (ja) | 1993-09-20 | 2003-07-14 | 三菱電機株式会社 | 物体認識装置 |
JP4449410B2 (ja) | 2003-10-27 | 2010-04-14 | ソニー株式会社 | ロボット装置及びその物体学習方法 |
TWI348659B (en) * | 2007-10-29 | 2011-09-11 | Ind Tech Res Inst | Method and system for object detection and tracking |
US8941726B2 (en) * | 2009-12-10 | 2015-01-27 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for segmenting moving objects from images using foreground extraction |
JP2013191163A (ja) * | 2012-03-15 | 2013-09-26 | Sony Corp | 情報処理装置、情報処理方法、及び、プログラム |
JP2014081863A (ja) * | 2012-10-18 | 2014-05-08 | Sony Corp | 情報処理装置、情報処理方法、及び、プログラム |
-
2011
- 2011-03-31 JP JP2011077697A patent/JP2012212323A/ja not_active Withdrawn
-
2012
- 2012-03-23 CN CN2012100805694A patent/CN102737279A/zh active Pending
- 2012-03-23 US US13/429,130 patent/US9104980B2/en not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108169776A (zh) * | 2017-11-23 | 2018-06-15 | 中国科学院光电研究院 | 基于背景模型和实测数据的电离层延迟误差修正方法 |
CN108169776B (zh) * | 2017-11-23 | 2022-01-21 | 中国科学院光电研究院 | 基于背景模型和实测数据的电离层延迟误差修正方法 |
Also Published As
Publication number | Publication date |
---|---|
US9104980B2 (en) | 2015-08-11 |
US20120250981A1 (en) | 2012-10-04 |
JP2012212323A (ja) | 2012-11-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ebert et al. | Self-Supervised Visual Planning with Temporal Skip Connections. | |
CN110781765B (zh) | 一种人体姿态识别方法、装置、设备及存储介质 | |
CN108694369B (zh) | 基于图形图像来预测多个姿势 | |
CN110226172A (zh) | 将源域图像变换为目标域图像 | |
CN107403426B (zh) | 一种目标物体检测方法及设备 | |
Hamer et al. | An object-dependent hand pose prior from sparse training data | |
CN111797753A (zh) | 图像驱动模型的训练、图像生成方法、装置、设备及介质 | |
EP3454302A1 (en) | Approximating mesh deformation for character rigs | |
CN105654334B (zh) | 虚拟试衣方法和系统 | |
US20200276703A1 (en) | Optimizing policy controllers for robotic agents using image embeddings | |
CN102737279A (zh) | 信息处理装置、信息处理方法以及程序 | |
JP2023541149A (ja) | ロボット制御方法、装置、機器、及びプログラム | |
Kulhánek et al. | Visual navigation in real-world indoor environments using end-to-end deep reinforcement learning | |
US20240037398A1 (en) | Reinforcement learning-based techniques for training a natural media agent | |
CN110827383A (zh) | 三维模型的姿态模拟方法、装置、存储介质和电子设备 | |
CN108537168A (zh) | 基于迁移学习技术的面部表情识别方法 | |
Hamarneh et al. | Deformable organisms for automatic medical image analysis | |
WO2020240808A1 (ja) | 学習装置、分類装置、学習方法、分類方法、学習プログラム、及び分類プログラム | |
CN110826581A (zh) | 一种动物数量识别方法、装置、介质及电子设备 | |
Tee et al. | A framework for tool cognition in robots without prior tool learning or observation | |
CN104239119A (zh) | 一种基于kinect实现电力培训仿真的方法及系统 | |
CN103839280A (zh) | 一种基于视觉信息的人体姿态跟踪方法 | |
CN114347043B (zh) | 一种机械手模型学习方法、装置、电子设备及存储介质 | |
Ren et al. | InsActor: Instruction-driven Physics-based Characters | |
CN115879536A (zh) | 一种基于因果效应的学习认知分析模型鲁棒性优化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20121017 |