CN102737251A - 图像处理设备、图像处理方法、程序和记录介质 - Google Patents

图像处理设备、图像处理方法、程序和记录介质 Download PDF

Info

Publication number
CN102737251A
CN102737251A CN201210080952XA CN201210080952A CN102737251A CN 102737251 A CN102737251 A CN 102737251A CN 201210080952X A CN201210080952X A CN 201210080952XA CN 201210080952 A CN201210080952 A CN 201210080952A CN 102737251 A CN102737251 A CN 102737251A
Authority
CN
China
Prior art keywords
view
image
model
background
transformation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210080952XA
Other languages
English (en)
Inventor
伊藤真人
佐部浩太郎
横野顺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN102737251A publication Critical patent/CN102737251A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/174Segmentation; Edge detection involving the use of two or more images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20164Salient point detection; Corner detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

公开了图像处理设备、图像处理方法、程序和记录介质。该设备包括:图像特征输出单元,用于与帧时间对应地输出每一图像特征;前景估计单元,用于通过在前景视图模型上进行视图变换来估计时间s处的前景图像并输出估计的前景视图;背景估计单元,用于通过在背景视图模型上进行视图变换来估计时间s处的背景图像并输出估计的背景视图;合成视图生成单元,用于通过合成估计的前景视图和估计的背景视图来生成合成视图;前景学习单元,用于基于通过在合成视图和时间s处的图像特征间进行比较而得到的估计值并通过更新前景视图模型的参数来学习前景视图模型;及背景学习单元,用于基于通过更新背景视图模型的参数而得到的估计值来学习背景视图模型。

Description

图像处理设备、图像处理方法、程序和记录介质
技术领域
本技术涉及图像处理设备、图像处理方法、程序和记录介质,更具体地,涉及被配置为进行学习图像处理的图像处理设备、图像处理方法、程序和记录介质。
背景技术
例如,用于面部识别或对象识别等的模式识别技术已经被视为与学习图像处理有关的当前可商业获得的技术。
在根据相关技术的学习图像处理中,学习是在识别目标的标记被赋予大量图像数据作为学习数据之后进行的,此时识别目标的模型被学习,以形成识别器。
例如,当对图像进行学习以便进行面部识别时,需要赋予用于确定人的姓名、他或她的面部的取向以及显示有该人面部图像的区域的信息等,作为标记。另外,当对图像进行学习以便进行目标识别时,需要赋予用于确定目标的名称、该目标的取向以及显示有该目标的区域的信息等,作为标记。
由于标记的赋予是手动进行的,因此,难以准备大量的学习数据。
因此,例如,已出现了根据包括活动图像的多个图像来自动学习目标模型而不进行如上所述的标记赋予的学习图像处理技术。
作为学习图像处理的示例,已出现了一种自动学习前景和背景学习模型的方法,其中,根据包括活动图像的多个图像来自动学习目标模型(例如,参见Michalis K.Titsias、Christopher K.I.Williams所著的″Unsupervised Learning of Multiple Aspects of Moving Objects fromVideo″,刊于Panhellenic Conference on Informatics 2005,第746-756页)。
另外,作为学习图像处理的另一示例,已出现了一种自动学习与前景对应的多视图目标模型的方法,其中,根据包括活动图像的多个图像来自动学习目标模型(例如,参见H.Su、M.Sun、L.Fei-Fei和S.Savarese所著的″Learninga dense multi-view representation for detection,viewpointclassification and synthesis of object categories″,刊于InternationalConference on Computer Vision(ICCV),2009年)。根据该方法,对多个视图之间的几何关系进行建模。
发明内容
然而,在例如″Unsupervised Learning of Multiple Aspects of MovingObjects from Video″所公开的技术中,由于没有对多视图中的各个视图之间的关系进行建模,因而需要完成对每一视图的学习。因此,可以想像,当学习多视图时,如果视图的数量增多,则学习会很困难。
在″Learning a dense multi-view representation for detection,viewpointclassification and synthesis of object categories″所披露的技术中,当在实际活动图像中包括与前景接近的背景时,由于学习是在没有分解前景和背景的情况下进行的这一事实,因而,学习会很困难。另外,由于多个视图之间的几何关系被准确建模,因此,会出现操作用于拍摄活动图像的相机的方法被强加了限制或者计算量大的问题。
期望提供一种假定(supposition)较少且计算量较小的执行学习图像处理的技术。
根据本技术的一个实施例,提供了一种图像处理设备,该图像处理设备包括:图像特征输出单元,用于与帧时间对应地输出图像特征中的每一个,所述图像特征被形成作为输入活动图像数据中的每一帧的图像的多个特征点中的特征;前景估计单元,用于通过在前景视图模型上进行作为几何变换的视图变换来估计时间s处的前景图像,并且输出所估计的前景视图,所述前景视图模型具有所述图像中的前景的图像特征,作为与所述时间s处的图像特征有关的参数;背景估计单元,用于通过在背景视图模型上进行作为几何变换的视图变换来估计所述时间s处的背景图像,并输出所估计的背景视图,所述背景视图模型具有所述图像中的背景的图像特征,作为与所述时间s处的图像特征有关的参数;合成视图生成单元,用于通过合成所估计的前景视图和所估计的背景视图来生成合成视图;前景学习单元,用于基于通过在所述合成视图和所述时间s处的图像特征之间进行比较而得到的估计值并通过基于随机生成模型来更新所述前景视图模型的参数,来学习所述前景视图模型;以及背景学习单元,用于基于通过基于随机生成模型来更新所述背景视图模型的参数而得到的估计值,来学习所述背景视图模型。
所述前景估计单元和所述背景估计单元中的每一个可基于所述估计值来计算多个视图变换中的每一个的后验概率,基于所述图像特征和所述后验概率来估计该视图变换,以及通过在所述视图模型上进行所述视图变换来分别输出所估计的前景视图和所估计的背景视图。
所述前景学习单元和所述背景学习单元中的每一个可基于根据所述估计值来计算的每一视图变换的后验概率,对经过多次视图变换的视图模型的参数进行加权,并基于加权的参数来分别更新所述前景视图模型的参数和所述背景视图模型的参数。
所述视图模型可被配置为通过多个视图模型而形成的多视图模型,所述多个视图模型与通过以不同的角度来观看所述前景和所述背景中的每一个而得到的图像对应。
所述前景视图模型和所述背景视图模型之一可被配置为通过多个视图模型而形成的多视图模型,所述多个视图模型与通过以不同的角度来观看所述前景和所述背景中的每一个而得到的图像对应。
所述前景估计单元和所述背景估计单元中的每一个可基于所述估计值来计算所述多个视图模型中的每一个的后验概率,基于所述图像特征和所述后验概率来估计所述视图变换,并通过在所估计的与转变(transition)对应的视图模型上进行所述视图变换,来输出所估计的前景视图和所估计的背景视图。在计算所述视图模型的后验概率时,使用HMM、FNN、RNN、粒子滤波器和卡尔曼滤波器中的一个作为用于基于视图转变(viewtransition)来估计先验概率的动态学习估计模型。
所述前景估计单元和所述背景估计单元中的每一个可基于所述估计值来计算多个视图变换中的每一个的后验概率,以及基于所述图像特征和所述后验概率来估计该视图变换。
所述和前景学习单元和所述背景学习单元中的每一个可基于根据所述估计值而计算的每一转变的后验概率,对与多个转变对应的视图模型的参数进行加权,基于根据所述估计值而计算的、每一视图变换的后验概率,对经过多个视图变换的视图模型的参数进行加权,以及基于经加权的参数来分别更新所述前景视图模型的参数和所述背景视图模型的参数。
在计算所述随机生成模型中的视图变换的后验概率时,可使用HMM、FNN、RNN、粒子滤波器和卡尔曼滤波器中的一个作为基于视图变换运动来估计先验概率的动态学习估计模型。
在所述前景学习单元中使用的随机生成模型可不同于在所述背景学习单元中使用的随机生成模型。
所述图像特征输出单元可输出每一像素的像素位置和像素值彼此对应的信息,作为所述图像特征。
所述图像特征输出单元可输出利用哈里斯角点检测方法而检测到的特征点位置集合,作为所述图像特征。
根据本技术的另一实施例,提供了一种图像处理方法,该方法包括:由图像特征输出单元来与帧时间对应地输出图像特征中的每一个,所述图像特征被形成作为输入活动图像数据中的每一帧的图像的多个特征点中的特征;由前景估计单元通过在前景视图模型上进行作为几何变换的视图变换来估计时间s处的前景图像,并且输出所估计的前景视图,所述前景视图模型具有所述图像中的前景的图像特征,作为与所述时间s处的图像特征有关的参数;由背景估计单元通过在背景视图模型上进行作为几何变换的视图变换来估计所述时间s处的背景图像,并输出所估计的背景视图,所述背景视图模型具有所述图像中的背景的图像特征,作为与所述时间s处的图像特征有关的参数;由合成视图生成单元通过合成所估计的前景视图和所估计的背景视图来生成合成视图;由前景学习单元基于通过在所述合成视图和所述时间s处的图像特征之间进行比较而得到的估计值并通过基于随机生成模型来更新所述前景视图模型的参数,来学习所述前景视图模型;以及由背景学习单元基于通过基于随机生成模型来更新所述背景视图模型的参数而得到的估计值,来学习所述背景视图模型。
根据本技术的又一实施例,提供了一种程序,该程序使得计算机作为图像处理设备来工作,该图像处理设备包括:图像特征输出单元,用于与帧时间对应地输出图像特征中的每一个,所述图像特征被形成作为输入活动图像数据中的每一帧的图像的多个特征点中的特征;前景估计单元,用于通过在前景视图模型上进行作为几何变换的视图变换来估计时间s处的前景图像,并且输出所估计的前景视图,所述前景视图模型具有所述图像中的前景的图像特征,作为与所述时间s处的图像特征有关的参数;背景估计单元,用于通过在背景视图模型上进行作为几何变换的视图变换来估计所述时间s处的背景图像,并输出所估计的背景视图,所述背景视图模型具有所述图像中的背景的图像特征,作为与所述时间s处的图像特征有关的参数;合成视图生成单元,用于通过合成所估计的前景视图和所估计的背景视图来生成合成视图;前景学习单元,用于基于通过在所述合成视图和所述时间s处的图像特征之间进行比较而得到的估计值并通过基于随机生成模型来更新所述前景视图模型的参数,来学习所述前景视图模型;以及背景学习单元,用于基于通过基于随机生成模型来更新所述背景视图模型的参数而得到的估计值,来学习所述背景视图模型。
根据本公开的实施例,与帧时间对应地输出图像特征中的每一个(所述图像特征被形成作为输入活动图像数据中的每一帧的图像的多个特征点中的特征);通过在前景视图模型(所述前景视图模型具有所述图像中的前景的图像特征,作为与所述时间s处的图像特征有关的参数)上进行作为几何变换的视图变换来估计时间s处的前景图像,并且输出所估计的前景视图;通过在背景视图模型(所述背景视图模型具有所述图像中的背景的图像特征,作为与所述时间s处的图像特征有关的参数)上进行作为几何变换的视图变换来估计所述时间s处的背景图像,并输出所估计的背景视图;通过合成所估计的前景视图和所估计的背景视图来生成合成视图;基于通过在所述合成视图和所述时间s处的图像特征之间进行比较而得到的估计值并通过随机生成模型来更新所述前景视图模型的参数,来学习所述前景视图模型;以及基于通过基于随机生成模型来更新所述背景视图模型的参数而得到的估计值,来学习所述背景视图模型。
根据本技术的所述实施例,能够以较少的假定和较小的计算量来执行学习图像处理。
附图说明
图1是示出输入图像的序列的一个示例的图;
图2是示出根据相关技术的图像学习和识别以及根据本技术的图像学习和识别的图;
图3为示出根据本技术的一个实施例的视图模型学习设备的配置的一个示例的框图;
图4为示出根据本技术的另一实施例的视图模型学习设备的配置的一个示例的框图;
图5为示出视图模型学习处理的一个示例的流程图;
图6为示出前景估计处理的一个示例的流程;
图7为示出背景估计处理的一个示例的流程图;
图8为示出合成观察处理的一个示例的流程图;
图9为示出前景学习处理的一个示例的流程图;
图10为示出背景学习处理的一个示例的流程图;
图11为示出视图模型学习处理的另一示例的流程图;
图12为示出前景估计处理的另一示例的流程图;
图13为示出背景估计处理的另一示例的流程图;
图14为示出合成观察处理的另一示例的流程图;
图15为示出前景学习处理的另一示例的流程图;
图16为示出背景学习处理的另一示例的流程图;
图17为示出前景图像的一个示例的图;
图18为示出背景图像的一个示例的图;
图19为示出输入图像序列中包括的图像的一个示例的图;
图20为示出视图模型学习和图像识别中的视图变换估计的结构的图;
图21为示出图像识别结果的图;
图22为示出另一输入图像序列的示例的图;
图23为示出视图模型学习的一个示例的图;
图24为示出图像识别结果的另一示例的图;
图25为示出又一输入图像序列中包括的图像的示例的图;
图26为示出视图模型学习的另一示例的图;
图27为示出图像识别结果的另一示例的图;以及
图28为示出图像识别结果的又一示例的图。
具体实施方式
下文参考附图来描述在此公开的本技术的实施例。
首先将描述根据相关技术的学习图像处理与根据本技术的实施例的学习图像处理之间的差别。
在本技术的实施例中,例如,如图1所示,作为活动图像的、按时间顺序拍摄的图像21-1到21-5被提供,作为输入图像序列,并且前景视图模型和背景视图模型被配置为根据该输入图像序列来自动生成。
在图1所示的示例中,在图像21-1到21-5中显示了笔记本类型的个人计算机。例如,图像21-1和21-5是通过在不同位置、围绕该笔记本类型的个人计算机来移动相机、从各个角度来拍摄该笔记本类型的个人计算机而得到的。例如,所述图像是通过将相机面对该笔记本类型的个人计算机并在从左侧向右侧移动该相机的情况下拍摄活动图像而得到的。
在图1中,将笔记本类型的个人计算机作为前景来学习。放置笔记本类型的个人计算机的桌子以及放置于笔记本类型的个人计算机旁边的书籍作为背景来学习。前景学习的结果指的是前景视图模型,而背景学习的结果指的是背景视图模型。另外,后面会详细描述视图模型。
在本技术的实施例中,假定在前景和背景之间存在运动的独立性。也就是说,当要学习的前景进行了运动(用MO1来表示)时,假设要学习的背景进行与MO1不同的运动(用MO2来表示)。
在本技术的实施例中,假定了光学前后关系(opticalanterior-posterior relation)。也就是说,假定要学习的背景可能隐藏在前景后面,但前景不会隐藏在背景后面。
在本技术的实施例中,如上所述,前景和背景之间的运动独立性以及光学前后关系被设为约束因素,并且通过在例如图像21-1到21-5的前景(所述笔记本类型的个人计算机)上执行视图变换估计来学习前景视图模型。另外,通过在图像21-1到21-5的背景(桌子和书籍等)上执行视图变换估计来学习背景视图模型。
相应地,在根据本公开的技术中,如图2所示,可仅通过输入活动图像来进行图像识别,而不存储并学习大量的标记图像。
例如,在根据相关技术的图像识别中,学习为从多个方向拍摄上述笔记本类型的个人计算机而得到的每一图像赋予标记。例如,所述标记包括用于指定所述笔记本类型的个人计算机的取向以及图像中显示所述笔记本类型的个人计算机的区域的信息。因此,如图2所示,在本技术的实施例中,可通过仅输入没有标记的活动图像来识别所述笔记本类型的个人计算机。
接下来,将描述本技术的实施例中使用的基本模型。
当识别目标图像时,本技术的实施例可对应于单视图模型和多视图模型二者。
在此,所述单视图模型指的是假定要学习的前景和背景可以用一个视图模型来表示的模型。
另一方面,所述多视图模型指的是假定要学习的前景和背景可用多个视图模型来表示的模型。另外,视图模型被视为表示多视图模型中的一个图像。
例如,输入图像序列用I_1,I_2,I_3,...I_S来表示,并且输入图像序列的特征用X_1,X_2,X_3,...,X_S来表示。另外,由于输入图像序列可被设置为例如活动图像的图像数据,因此,I_1,I_2,I_3,...I_S分别对应于活动图像的各帧的图像数据。此外,图像特征of输入图像序列的图像特征可被设置为输入图像序列(活动图像)的各图像(各帧的图像)中的像素值的集合。
在本技术的实施例中,假定输入图像序列的图像特征(也称为观察特征)可通过每次变换前景视图模型或背景视图模型来获得。也就是说,在时间s处的观察特征Xs可通过利用等式(1)在时间s处对视图模型M进行视图变换Ts来获得。
Xs=TsM                 (1)
在等式(1)中,M为单视图模型。视图变换Ts为用仿射变换(仿射变换)等来表示的坐标变换。
另一方面,当使用多视图模型时,存在多个视图模型。例如,包括L个视图模型的多视图模型Mv用Mv={M1,M2,M3,...ML}来表示。例如,这多个视图模型被视为对应于通过从前面、后面和侧面等来观看要学习的前景而得到的图像。
在这种情况下,例如,假定图像特征(也称为观察特征)可通过每次对几个视图模型进行视图变换来获得。也就是说,在时间s处的观察特征Xs可通过利用等式(2)在时间s处对视图模型Mv进行视图变换Ts来获得。
Xs=TsMy                   (2)
在本技术的实施例中,等式(1)或等式(2)中示出的视图模型通过下文描述的处理来学习。
图3为示出根据本技术的一个实施例的视图模型学习设备100的配置的一个示例的框图。假设图3中的视图模型学习设备100在前景和背景学习中使用单视图模型。
如图3所示,视图模型学习设备100包括图像序列输入单元101,图像特征提取单元102,前景背景合成观察单元103,前景估计学习单元104和背景估计学习单元105。
前景估计学习单元104包括视图模型学习单元111,视图模型参数112,视图模型输出单元113,视图变换估计单元114,视图变换运动估计单元115以及视图变换信息输出单元116。
背景估计学习单元105包括视图模型学习单元121,视图模型参数122,视图模型输出单元123,视图变换估计单元124,视图变换运动估计单元125以及视图变换信息输出单元126.
图3中的图像序列输入单元101是控制输入图像序列的输入并提供被使得对应于各个时间的、作为输入图像序列的图像到如上所述的图像特征提取单元102的功能块。
图像特征提取单元102从各个时间的图像(即输入图像序列)中提取图像特征。图像特征的具体示例包括每一像素的亮度值和由多个像素形成的每一区域的亮度直方图、色彩直方图以及边缘直方图。或者,可使用通过哈里斯角点检测(Harris corner detection)检测到的每一特征点的坐标和/或具有方向可控滤波器等的特征的局部特征,作为所述图像特征。
原则上,图像特征包括几何元素(几何模型)和特征量元素(特征量模型),如下文描述的视图模型的视图模型参数等。例如,图像特征可包括与一帧对应的图像中的每一像素的像素位置(几何模型)和像素值(特征量模型)。或者,图像特征可包括与一帧对应的图像中的预定特征点的像素的像素位置(几何模型)和像素值(特征量模型)。
当使用局部特征时,如下所述的,图像特征可仅包括与一帧对应的图像中的预定特征点的像素的像素位置(几何模型)。
前景背景合成观察单元103合成前景估计学习单元104输出(估计)的所估计的前景视图和背景估计学习单元105输出(估计)的所估计的背景视图。前景背景合成观察单元103将合成图像的图像特征与从图像特征提取单元102提供的图像特征相比较,并分别向前景估计学习单元104和背景估计学习单元105提供有关所述估计的估计值的反馈信息。
也就是说,前景背景合成观察单元103从前景估计学习单元104获取所估计的前景视图。在此,当视图模型参数112存储前景视图模型MFG并且前景视图模型在时间s的视图变换为TFG,s时,所估计的在时间s的前景视图可用TFG,sMFG来表示。
前景背景合成观察单元103从背景估计学习单元105获取所估计的背景视图。在此,当视图模型参数122存储背景视图模型MBG并且背景视图模型在时间s的视图变换为TBG,s时,所估计的在时间s的背景视图可用TBG,sMBG来表示。
然后,前景背景合成观察单元103形成前景和背景的合成视图模型MFGBG,s
前景背景合成观察单元103确定从图像特征提取单元102提供的图像特征的参数与合成视图模型的参数之间的对应关系。例如,在时间s处的图像特征Xs有x1,x2,x3,...xN作为参数,并且合成视图模型MFGBG,s有m1,m2,m3,...,mN作为参数。
例如,当图像特征是每一像素的亮度值(每一像素值)时,可使得输入图像序列中时间s处的图像对应于与时间s处的合成视图模型对应的坐标的像素值。
例如,通过使得时间s处的图像的在坐标(0,0)处的像素x1对应于时间s处的合成视图模型的在坐标(0,0)处的像素m1、使得时间s处的图像的在坐标(0,1)处的像素x2对应于时间s处的合成视图模型的在坐标(0,1)处的像素m2等来确定所述对应关系。时间s处的视图模型与图像之间的对应关系表示为CXFGB,s
前景背景合成观察单元103在上述对应关系CXFGB,s下针对图像特征Xs计算合成视图模型MFGBG,s的估计值Es。估计值Es为对应的像素值之间的差的绝对值(该绝对值实际上是通过更为复杂的计算来计算的)的和。
图3中的前景估计学习单元104如下操作。
例如,视图变换估计单元114估计适用于时间t处的图像特征Xs的视图变换Ts。也就是说,视图变换估计单元114在前景视图模型上进行视图变换并估计通过其可获得图像特征Xs中的前景图像的视图变换。
此时,视图变换估计单元114输出(估计)多个合适的视图变换的候选。例如,视图变换估计单元114输出具有上百个不同参数的仿射变换,作为视图变换的候选。
在此,例如,通过对前景视图模型进行几何变换来进行视图变换。具体地,用于平移(translate)视图模型的变换、用于扩展并缩小视图模型的变换、用于转动视图模型的变换、用于进行变换的组合的仿射变换或投影变换等被用作所述视图变换。由于视图变换的候选近乎无限存在,要输出的视图变换的候选,基于下面描述的视图变换运动估计单元115的估计结果来指定要输出的视图变换的候选。
视图变换运动估计单元115被配置用于根据时间s处的视图变换Ts来估计时间s+1处的视图变换T′s+1。一般而言,当假定前景运动规则连续时,变换动态(transform dynamics)被假定作为满足等式T′s+1=FT(Ts)的模型。例如,诸如HMM(隐藏马尔科夫模型,Hidden Markov Model)、FNN(前向神经网络,Feed Forward Neural Network)或RNN(自递归神经网络,Recurrent Neural Network)等动态学习估计模型可以用于该模型。诸如粒子滤波器(particle filter)或卡尔曼滤波器(Kalman filter)等动态估计模型可用于该模型。
更具体地,视图变换运动估计单元115被配置用于基于前景背景合成观察单元103在给定时间输出的估计值Es来计算每一视图变换的后验概率。视图变换估计单元114被配置用于通过基于每一视图变换选择并在给定时间输出合适的视图变换的后验概率来估计视图变换。
视图模型参数112存储前景视图模型的参数。在此,这样来说,由于前景包括多个特征点的几何模型的参数以及每一特征点的特征量模型的参数,前景模型的参数是通过对图像的特征进行建模来获得的。
几何模型是用于多个特征点之间的相对位置关系的统计模型,而特征量模型是用于每一特征点的特征的统计模型。例如,当图像特征是每一像素的亮度值(每一像素值)时,几何模型表示每一像素的坐标值。另一方面,特征量模型表示通过将从多个前景中获得的相应坐标值的像素值乘以权重而得到的值的平均值。仅使用均值的方法和使用正态分布(均值和方差(dispersion))的方法可用作几何模型和特征量模型的统计模型。
视图模型学习单元111针对输入图像序列中在每一时间处的图像的图像特征,相对于基于前景背景合成观察单元103确定的对应关系而选择的特征点,来学习上述几何模型和特征量模型。此时,视图模型学习单元111通过视图变换估计单元114估计的视图变换(例如,仿射变换)的逆变换来学习几何模型。然后,视图模型学习单元学习111基于前景背景合成观察单元103输出的估计值,在所有时间处以统计的方式来学习特征量模型。这样,视图模型的参数得以学习。
下面描述用于获得视图模型的参数(包括几何模型的参数和特征量模型)的计算以及这些参数的学习。
视图模型学习单元111学习的几何模型和特征量模型被存储于视图模型参数112。相应地,前景视图模型MFG中的实数(actual numbers)等被存储于视图模型参数112.
视图变换信息输出单元116输出由视图变换估计单元114估计的在每一时间处的视图变换以及每一时间处的视图模型与图像之间的对应关系。例如,所输出的视图变换以及所输出的视图模型与图像之间的对应关系可以表示学习的前景在图像中所位于的位置、学习的前景的大小以及学习的前景的取向。
视图模型输出单元113输出由视图模型学习单元111学习的前景的视图模型。在此,在识别另一输入活动图像时,可以使用所输出的视图模型(几何模型和特征量模型)。例如,当获得学习的前景在给定图像中所位于的位置、学习的前景的大小以及学习的前景的取向时,可使用从视图模型输出单元113输出的视图模型。
图3中背景估计学习单元105的视图模型学习单元121到视图变换信息输出单元126是与前景估计学习单元104的视图模型学习单元111到视图变换信息输出单元116相同的功能块,这里不再重复描述。当然,背景估计学习单元105估计背景视图模型的视图变换并学习背景视图模型。
图4为示出根据本技术的另一实施例的视图模型学习设备200的配置的一个示例的框图。当学习前景和背景时,图4的视图模型学习设备200使用多视图模型。
图4的视图模型学习设备200包括图像序列输入单元201、图像特征提取单元202、前景背景合成观察单元203、前景估计学习单元204以及背景估计学习单元205。
前景估计学习单元204包括多视图模型视图转变学习单元211、多视图模型参数212、视图转变模型参数213以及多视图模型视图转变输出单元214。前景估计学习单元204还包括视图和变换估计单元215、视图变换运动估计单元216,视图转变估计单元217以及视图和变换信息输出单元218.
背景估计学习单元205包括多视图模型视图转变学习单元221、多视图模型参数222、视图转变模型参数223以及多视图模型视图转变输出单元224。背景估计学习单元205还包括视图和变换估计单元225、视图变换运动估计单元226、视图转变估计单元227以及视图和变换信息输出单元228。
如上所述,图4的图像序列输入单元201是对输入图像序列输入进行控制并向提供图像特征提取单元20提供使得与相应的时间对应的图像作为输入图像序列的功能块。
图像特征提取单元202从作为输入图像序列的在各时间处的图像中提取图像特征。图像特征的具体示例罢课每一像素的亮度值和多个像素形成的每一区域的亮度直方图、色彩直方图及边缘直方图。或者,通过哈里斯角点检测而检测到的每一特征点的坐标以及具有方向可控滤波器等的特征的局部特征可被用作图像特征。
原则上,图像特征包括几何元素(几何模型)和特征量元素(特征量模型),如下文描述的视图模型的视图模型参数。例如,图像特征可包括与一帧对应的图像的每一像素的像素位置(几何模型)和像素值(特征量模型)。或者,图像特征可包括与一帧对应的图像中的位于预定特征点的像素的像素位置(几何模型)和像素值(特征量模型)。
当使用局部特征时,如下文所述的,图像特征可仅包括与一帧对应的图像中预定特征点的像素的像素位置(几何模型)。
前景背景合成观察单元203合成前景估计学习单元204输出(估计)的估计的前景视图以及背景估计学习单元205输出(估计)的估计的背景视图。前景背景合成观察单元203将合成图像的图像特征与从图像特征提取单元202提供的图像特征相比较,并分别向前景估计学习单元204和背景估计学习单元205提供有关所述估计的估计值的反馈信息。
也就是说,前景背景合成观察单元203从前景估计学习单元204获得所估计的前景视图。另外,不同于视图模型学习设备100,由于视图模型学习设备200使用多视图模型,视图模型学习设备200通过在从多个视图模型中选择的预定视图模型上进行视图变换来获取所估计的前景视图。
前景背景合成观察单元203从背景估计学习单元205获得所估计的背景视图。另外,不同于视图模型学习设备100,由于视图模型学习设备200使用多视图模型,视图模型学习设备200通过在从多个视图模型中选择的预定视图模型上进行视图变换来获取所估计的背景视图。
如同视图模型学习设备100,前景背景合成观察单元203形成前景和背景的合成视图模型。
如同视图模型学习设备100,前景背景合成观察单元203确定从图像特征提取单元202提供的图像特征与合成视图模型的参数之间的对应关系。
前景背景合成观察单元203针对上述对应关系下的图像特征Xs来计算合成视图模型的估计值Es。
图4的前景估计学习单元204如下操作。
如同图3的视图变换估计单元114,例如,视图和变换估计单元215估计适合于时间s处的图像特征Xs的视图变换Ts。不同于视图变换估计单元114,视图和变换估计单元215基于下述视图转变估计单元217的估计来估计适当的视图模型。
例如,视图和变换估计单元215输出适当的视图模型与视图变换的组合的多个候选。例如,视图和变换估计单元215输出诸如视图模型VM1和视图变换T1的组合以及视图模型VM2和视图变换T2的组合等候选。
如同图3的视图变换运动估计单元115,视图变换运动估计单元216被配置用于根据时间s的视图变换Ts来估计的时间s+1的视图变换T′s+1。
更具体地,视图变换运动估计单元216被配置用于基于前景背景合成观察单元203在给定时间输出的估计值Es来计算每一视图变换的后验概率。视图和变换估计单元215被配置用于通过基于每一视图变换的后验概率来选择并输出在随后的时间的适当的视图变换来估计视图变换。
多视图模型参数212例如具有L个视图模型,并通过多视图模型MV={M1,M2,M3,...ML}来配置。例如,M1,M2,M3,...ML被视为对应于通过从正面、后面和侧面等来观看要学习的前景而得到的图像。
在多视图模型的情况下,M1,M2,M3,...ML的每一个具有几何模型和特征量模型。M1,M2,M3,...ML中的每一个被称为视图模型.
视图转变估计单元217根据时间s处的视图模型Mv,s来估计时间s+1处的视图模型M′v,s+1。在此,由于假定要学习的前景具有三维结果,因此可假定例如满足等式M′v,s+1=F(Mv,s)的模型。例如,可使用诸如HMM的动态学习估计模型作为该模型。
更具体地,视图转变估计单元217被配置用于基于前景背景合成观察单元203在给定时间输出的估计值Es来计算对应于每一视图转变的视图模型的后验概率。视图和变换估计单元215被配置用于通过基于每一视图模型的后验概率在随后的时间选择并输出适当的视图模型来估计视图模型(视图转变,view transition)。
如同视图模型学习单元111,多视图模型视图转变学习单元211学习前景多视图模型。也就是说,多视图模型视图转变学习单元211相对于基于前景背景合成观察单元203确定的对应关系来选择的特征点,针对输入图像序列中在每一时间的图像图像特征,来学习上述几何模型和特征量模型。在这种情况下,例如,与多个视图模型M1,M2,M3,...ML中的每一个对应地来学习几何模型和特征量模型。
不同于视图模型学习单元111,多视图模型视图转变学习单元211根据需要来学习视图转变模型。
在此,视图转变模型被视为动态模型。具体地,根据需要来学习预定的动态模型(如HMM)的参数。另外,可以预先给出动态模型的参数。
下面会详细描述动态模型。另外,下文会详细描述用于视图模型的参数(包括几何模型的参数和特征量模型的参数)的计算以及这些参数的学习。
视图转变模型参数213存储上述的动态模型的参数。例如,将HMM的状态转变的每一值作为参数来存储。相应地,前景视图转变模型中的实数(actula numbers)等也存储于视图转变模型参数213。
此时,存储于视图转变模型参数213的参数是与要学习的前景对应的方式存储的。例如,当将笔记本类型的个人计算机作为前景来学习时,赋予用于指定所述笔记本类型的个人计算机的索引等,并且HMM的状态转变概率的每一值等被作为参数来存储。另外,例如,当将玩具作为前景来学习时,赋予用于指定该玩具的索引等,并且HMM的状态转变概率的每一值等被作为参数来存储。
这样,能够根据要学习的对象的运动来有效地学习例如视图转变的动态模型。
视图和变换信息输出单元218输出由视图和变换估计单元215估计的每一时间处的视图模型和视图变换以及每一时间处的视图模型与图像之间的对应关系。例如,输出的视图变换以及输出的图像与视图模型之间的对应关系可表示学习的前景在图像中所处的位置、学习的前景的大小以及学习的前景的取向。
多视图模型视图转变输出单元214输出由多视图模型视图转变学习单元211学习的前景多视图模型。在此,输出的多视图模型和视图转变模型可在识别另一输入活动图像时使用。例如,从视图模型输出单元113输出的视图模型可在获得了学习的前景在给定图像中的位置、学习的前景的大小以及学习的前景的取向时使用。
由于图4中的背景估计学习单元205的多视图模型视图转变学习单元221到视图和变换信息输出单元228是与前景估计学习单元204的多视图模型视图转变学习单元221到视图和变换信息输出单元228相同的功能个,因此,这里不再重复描述。当然,背景估计学习单元205估计背景多视图模型的视图转变和视图变换,并学习多视图模型和背景视图转变模型。
接下来将描述图3的视图模型学习单元111的视图模型参数的学习。
在本技术的实施例中,使用EM算法来计算视图模型参数。也就是说,视图模型参数是通过用随机生成模型的模型等式来取代上述等式(1)并应用EM算法来计算和学习的。另外,例如,下列文献中详细披露了所述EM算法:Michalis K.Titsias、Doctor Thesis所著的″UnsupervisedLearning of Multiple Objects in Images″(爱丁堡大学,2005年)。
首先,视图模型的参数M表示为m1,m2,m3,...,mN。实质上,视图模型的参数M包括几何模型的参数(例如,每一特征点的坐标值等)mG1,mG2,mG3,...,mGN以及特征量模型的参数(例如,每一特征点的像素值等)mF1,mF2,mF3,...,mFN。下文中,视图模型的参数M被表示为M={m1,m2,m3,...,mN},几何模型的参数被表示为MG={mG1,mG2,mG3,...,mGN}并且特征量模型的参数被表示为MF={mF1,mF2,mF3,...,mFN}.
假设输入图像序列的在时间s处的图像特征Xs包括x1,x2,x3,...,xN,作为参数。实质上,图像特征Xs的参数包括几何模型的参数(例如,各特征点的坐标值)xG1,xG2,xG3,...,xGN以及特征量模型的参数(例如,各特征点的像素值)xF1,xF2,xF3,...,xFN。下文中,图像特征Xs的参数被表示为Xs={x1,x2,x3,...,xN},几何模型的参数被表示为XG,s={xG1,xG2,xG3,...,xGN},并且特征量模型的参数被表示为XF,s={xF1,xF2,xF3,...,xFN}。
另外,T1,T2,...,T100作为在时间s输出的视图变换的候选。下文中,视图变换的候选被表示为T={T1,T2,...,T100}。假设存在NT种类型的视图变换。
基于上述假定,对应于等式(1)的随机生成模型的模型等式可被表示为等式(3)。
P ( X s | M , T s , k ) = Σ k = 1 100 P T k · C s , k T k M - - - ( 3 )
在该等式中,PTk表示视图变换Tk的先验概率并且Tk表示在时间s处输出的视图变换的第k个候选。另外,Cs,k表示当在时间s处进行视图变换Tk时图像特征的参数与视图模型参数的参数之间的对应关系。
如上所述,视图模型参数包括几何模型的参数和特征量模型的参数。相应地,根据等式(3),针对几何模型的随机生成模型的模型等式可表示为等式(4),并且针对特征量模型的随机生成模型的模型等式可表示为等式(5)。
P ( X G , s | M G , T s , k ) = Σ k = 1 100 P T k · C s , k T k M G - - - ( 4 )
P ( X F , s | M F , T s , k ) = Σ k = 1 100 P T k · C s , k M F - - - ( 5 )
被表示为上述随机生成模型的视图模型的学习可被归纳为相对于视图模型参数、针对所有时间处的图像特征X1,X2,...,Xs最大化P(X|M)的对数似然性LH的最大似然估计的问题。可利用EM算法来解该问题。另外,P(X|M)的对数似然性LH用等式(6)来表示。在此,假设Nx为所提取的图像特征的数量(时间s的数量)。
LH = Σ 1 N X log P ( X s | M ) - - - ( 6 )
当给定视图模型M={m1,m2,m3,...,mN}时,EM算法的E步骤对应于针对在每一时间处的图像特征X1,X2,...,Xs来计算视图变换T={T1,T2,...,T100)的后验概率的步骤。也就是说,当提取(观察)图像特征Xs时,可用等式(7)将后验概率计算为视图变换为Tk时的概率P(Tk|Xs)。
P ( T k | X s ) = P T k · P ( X s | T k ) Σ 1 N X P T k · P ( X s | T k ) - - - ( 7 )
在等式(7)中,P(Xs|Tk)为似然性并且由图3的前景背景合成观察单元103来计算。似然性P(Xs|Tk)被用作上述估计值Es。在等式(7),PTk为视图变换Tk由图3的视图变换运动估计单元115来输出和计算的先验概率。然后,视图变换估计单元114最后计算等式(7)。
另一方面,在EM算法的M步骤,当给出在每一时间处的每一视图变换的后验概率P(Tk|Xs)时,计算视图模型参数。M={m1,m2,m3,...,mN}可用等式(8)来计算。
M = 1 S Σ s = 1 S Σ k = 1 N T P ( T k | X s ) · T k - 1 C s , k X s - - - ( 8 )
由图3的视图模型学习单元111来计算等式(8)。基于用等式等式(8)计算的参数{m1,m2,m3,...,mN}来逐渐更新已经存储于视图模型参数112中的视图模型参数。这样,视图模型参数被学习。另外,在等式(8),假定存在总共NT个视图变换。
也就是说,NT个视图变换中的每一个的后验概率每次由视图变换估计单元114计算,并被存储于视图变换运动估计单元115。视图变换估计单元114基于从视图变换运动估计单元115输出的后验概率来估计视图变换,以生成所估计的前景视图,从而形成合成视图模型。
由前景背景合成观察单元103将合成视图模型的视图模型参数与从实际输入的图像中提取的图像特征相比较,并计算估计值。基于计算的估计值,视图变换估计单元114计算每一视图变换的后验概率,并且视图模型学习单元111通过所述后验概率以加权的方式更新视图模型参数。
至此已经描述了图3的视图模型学习单元111的视图模型参数的学习。然而,图3的视图模型学习单元121的视图模型参数以这样的方式进行学习。
接下来描述图4的多视图模型视图转变单元211中的视图模型参数的学习。
首先,假设多视图模型Mv包括{M1,M2,M3,...,ML}。在此,视图模型M1包括视图模型参数{m11,m12,m13,...,m1N},并且视图模型M2包括视图模型参数{m21,m22,m23,...,m2N}。这样,每一视图模型包括视图模型参数。如上所述,实质上,视图模型参数包括几何模型的参数和特征量模型的参数。
另外,假设输入图像序列在时间s处的图像特征Xs包括x1,x2,x3,...,xN,作为参赛。实质上,图像特征Xs的参数包括几何模型的参数(例如,特征点的坐标值)xG1,xG2,xG3,...,xGN以及特征量模型的参数(例如,特征点的像素值)xF1,xF2,xF3,...,xFN。下文中,图像特征Xs的参数被表示为Xs={x1,x2,x3,...,xN},几何模型的参数被表示为XG,s={xG1,xG2,xG3,...,xGN},以及特征量模型的参数被表示为XF,s={xF1,xF2,xF3,...,xFN}。
另外,T1,T2,...,T100被示出作为在时间s处输出的视图变换的候选。下文中,视图变换的候选被表示为T={T1,T2,...,T100}。假设存在NT种类型的视图变换。
基于上述假定,对应于等式(2)的随机生成模型的模型等式可表示为等式(9)。等式(9)表示视图模型Mv以及相对于图像特征量Xs的、视图变换Tk的估计值。等式(9)由图4的前景背景合成观察单元203来计算,并被提供到视图和变换估计单元215和多视图模型视图转变学习单元211作为估计值Es。
P ( X s | M v , T k ) = Σ v = 1 L P M v Σ k = 1 100 P T k · C s , k T k M v - - - ( 9 )
在该等式中,PMV表示多视图模型中视图模型Mv的先验概率,PTk表示视图变换Tk的先验概率,并且Tk表示在时间s处输出的、视图变换的第k候选。另外,Cs,k表示当在时间s处执行视图变换Tk时图像特征的参数与视图模型参数的参数之间的对应关系。
可象上述单视图的情况那样来表示用于几何模型的随机生成模型的模型等式以及用于特征量模型的随机生成模型的模型等式,这里不再重复。
被表示为上述随机生成模型的视图模型的学习可被归纳为相对于视图模型参数、针对所有时间处的图像特征X1,X2,...,Xs最大化P(X|M)的对数似然性LH的最大似然估计的问题。可用EM算法来解该问题。另外,P(X|M)的对数似然性LH用等式(10)来表示。
LH = Σ 1 N X Σ 1 L log P ( X s | M v ) - - - ( 10 )
EM算法的E步骤对应于在多视图模型Mv={M1,M2,M3,...,ML}的视图模型M1={m11,m12,m13,...,m1N}、视图模型M2={m21,m22,m23,...,m2N}等的情况下、针对每一时间处的图像特征X1,X2,...,Xs计算视图变换T={T1,T2,...,T100)和多视图模型Mv={M1,M2,M3,...,ML}的后验概率的步骤。也就是说,当提取(观察)图像特征Xs时,可用等式(11)将后验概率计算作为视图变换为Mv时的概率。另外,当提取(观察)图像特征Xs时,可用等式(12)将后验概率计算作为视图变换为Tk时的概率P(Tk|Xs)。
P ( M v | X s ) = P M v · P ( X s | M v ) Σ 1 L P M v · P ( X s | M v ) - - - ( 11 )
P ( T k | X s ) = P T k · P ( X s | T k ) Σ 1 N T P T k · P ( X s | T k ) - - - ( 12 )
在等式(11),P(Xs|Tv)是与视图变换关联的似然性,并且由视图和变换估计单元215基于图4的前景背景合成观察单元203用等式(9)计算的估计值来计算。也就是说,在通过等式(9)计算的估计值中,与每一视图模型Mv关联的似然性可通过提取一个视图模型Mv并计算各个视图模型的估计值的总和来获得。在等式(11),PMv为视图模型Mv由图4的视图转变估计单元217估计和计算时的概率。然后,视图和变换估计单元215最后计算等式(11)。
在等式(12),P(Xs|Tk)是与视图变换关联的似然性,并且由视图和变换估计单元215基于图4的前景背景合成观察单元203用等式(9)计算的估计值来计算。也就是说,在用等式(9)计算的估计值中,与视图变换Tk中的每一视图模型关联的似然性可通过提取一个视图变换Tk并计算各视图模型的估计值的总和来获得。在等式(12),PTk是视图变换Tk由图4的视图变换运动估计单元216来估计和计算时的概率。然后,视图和变换估计单元215最后计算等式(12)。
另一方面,在EM算法的M步骤中,当给定每一时间处的每一视图变换的后验概率P(Mv|Xs)以及在每一时间处的每一视图变换的后验概率P(Tk|Xs)时,计算视图模型参数。Mv={mv1,mv2,mv3,...,mvN}可用等式(13)计算。
M v = 1 S Σ s = 1 S P ( M v | X s ) Σ k = 1 N T P ( T k | X s ) · T k - 1 C s , k X s - - - ( 13 )
等式(13)由图4的多视图模型视图转变学习单元211计算。基于通过等式(13)计算的视图模型参数{mv1,mv2,mv3,...,mvN},逐渐更新已经存储于多视图模型参数212中的各模型的视图模型参数。另外,在等式(13),假定存在总共NT个视图变换。
也就是说,NT个视图变换中的每一个的后验概率每次由视图和变换估计单元215计算,并被存储于视图变换运动估计单元216中。视图和变换估计单元215每次计算L个视图模型(视图转变的结果)中的每一个的后验概率,并将L个视图模型中的每一个的后验概率存储在视图转变估计单元217中。另外,视图和变换估计单元215基于从视图变换运动估计单元216输出的后验概率来估计视图变换,并基于从视图转变估计单元217输出的后验概率来估计视图转变,以生成所估计的前景视图,从而形成合成视图模型。
由前景背景合成观察单元203将合成视图模型的视图模型参数与从实际输入的图像中提取的图像特征相比较,并计算估计值。基于所计算的估计值,视图和变换估计单元215计算每一视图变换的后验概率,并计算每一视图模型的后验概率。另外,多视图模型视图转变学习单元211以加权的方式用所述后验概率来更新视图模型参数。
多视图模型的L个视图模型中的一个视图模型的视图模型参数通过计算等式(13)来计算。相应地,等式(13)的计算是利用多视图模型的多个视图模型来计算的。
这样,视图模型参数得以学习。
如上所述,多视图模型视图转变学习单元211学习视图转变模型。例如,基于等式(11)中的P(Mv|Xs)来计算和学习视图转变模型的参数。
至此已经描述了图4的多视图模型视图转变学习单元211的学习。然而,图4的多视图模型视图转变学习单元221以这样的方式进行学习。
接下来,参考图5的流程图,描述图3的视图模型学习设备100执行的多视图学习处理的一个示例。
在步骤S21,图像序列输入单元101接收活动图像的输入。然后,与各时间对应的帧图像作为输入图像序列被提供到图像特征提取单元102。
在步骤S22,图像特征提取单元102从在步骤S21的处理中输入的输入图像序列的、在每一时间处的图像中提取图像特征。
在步骤S23,前景估计学习单元104进行下文参考图6的流程图描述的前景估计处理。然后,前景估计学习单元104输出通过在前景视图模型上进行多个视图变换而得到的所估计的前景视图。
在步骤S24,背景估计学习单元105进行下文参考图7的流程图描述的背景估计处理。然后,背景估计学习单元105输出通过在背景视图模型上进行多个视图变换而得到的所估计的背景视图。
在步骤S25,前景背景合成观察单元103进行下文参考图8的流程图描述的合成观察处理。然后,前景背景合成观察单元103合成在步骤S23的处理中输出的所估计的前景视图以及在步骤S24的处理中输出的所估计的背景视图,以生成合成视图模型,并针对在步骤S22的处理中提取的图像特征来计算合成视图模型的估计值。
实质上,步骤S23到步骤S25的处理被反复执行活动图像的长度,然后视图模型学习处理进行到步骤S26。
在步骤S26,前景估计学习单元104进行下文参考图9的流程图描述的前景学习处理。然后,基于在步骤S25的处理中得到的估计值来更新前景的视图模型参数。
在步骤S27,背景估计学习单元105进行下文参考图10的流程图描述的背景学习处理。然后,基于在步骤S25的处理中得到的估计值来更新背景的视图模型参数。
实质上,例如,步骤S23到步骤S27的处理被反复执行预定次,或被反复执行直到等式(6)中表示的对数似然性的变化量等于或小于预定阈值。
这样,执行了视图模型学习处理。
接下来,参考图6来描述图5的步骤S23的前景估计处理的一个具体示例。
在步骤S41,视图变换运动估计单元115根据在时间s-1处的视图变换Ts-1来估计在时间s处的视图变换T′s。一般而言,由于假定前景的运动是规则或者连续的,因此,通过使用诸如粒子滤波器等动态估计模型,针对变换的动态来估计前景的运动。
在步骤S42,视图变换估计单元114基于视图变换运动估计单元115在步骤S41的估计结果来估计在时间s处的适当的视图变换Ts。此时,视图变换估计单元114输出适当的视图变换Ts的多个候选。例如,视图变换估计单元114输出具有上百个不同参数的仿射变换,作为视图变换的候选。具体地,视图变换估计单元114输出用于平移(translate)前景视图模型的变换、用于扩展并缩小前景视图模型的变换、用于转动前景视图模型的变换、用于进行变换的组合的仿射变换或投影变换。
在步骤S43,视图变换估计单元114在前景视图模型上执行在步骤S42的处理中估计的多个视图变换。此时,前景视图模型的参数从视图模型参数112中读出,并经历视图变换。
在步骤S44,视图变换估计单元114输出作为步骤S43的处理的结果而得到的估计的前景视图。在此,输出与视图变换的候选对应的多个估计的前景视图。
这样,执行了前景估计处理。
接下来,参考图7来描述图5的步骤S24的背景估计处理一个具体示例。
在步骤S61,视图变换运动估计单元125根据时间s-1处的视图变换Ts-1来估计在时间s处的视图变换T′s。一般而言,一般而言,由于假定背景的运动是规则或者连续的,因此,通过使用诸如粒子滤波器等动态估计模型,针对变换的动态来估计背景的运动。
在步骤S62,视图变换估计单元124基于视图变换运动估计单元125在步骤S61的估计结果来估计在时间s处的适当的视图变换Ts。此时,视图变换估计单元124输出适当的视图变换的多个候选。例如,视图变换估计单元124输出具有上百个不同参数的仿射变换,作为视图变换的候选。具体地,例如,视图变换估计单元124输出用于平移(translate)前景的图像的仿射变换、用于扩展并缩小前景的图像的仿射变换、用于转动前景的图像的仿射变换以及模式仿射变换(如用于投影前景的图像的仿射变换)。
在步骤S63,视图变换估计单元124在背景视图模型上执行在步骤S62的处理中估计的多个视图变换。此时,背景视图模型的参数从视图模型参数122读出,并经历视图变换。
在步骤S64,视图变换估计单元124输出作为步骤S63的处理的结果而得到的估计的背景视图。在此,输出与视图变换的候选对应的多个估计的背景视图。
或者,在背景估计处理的情况下,在步骤S62中仅输出视图变换的一个候选,而在步骤S64中可输出所估计的一个背景视图。这是因为,当作为前景的对象正在移动时,与前景相比,背景的运动足够小。
这样,执行了背景估计处理。
接下来,参考图8的流程图来描述在图5的步骤S25中执行的合成观察处理的一个具体示例。
在步骤S81,前景背景合成观察单元103形成前景和背景的合成视图模型。
此时,前景背景合成观察单元103合成在图6的步骤S44的处理中输出的所估计的前景视图以及在图7的步骤S64的处理中输出的所估计的背景视图。另外,前景背景合成观察单元103确定在图5的步骤S22的处理中提取的图像特征的参数与合成视图模型的参数之间的对应关系。
在步骤S82,前景背景合成观察单元103相对于在步骤S22的处理中提取的图像特征,计算在步骤S81的处理中形成的合成视图模型的估计值。
这样,执行了合成观察处理。
接下来,参考图9的流程图来描述图5的步骤S26的前景学习处理的一个具体示例。
在步骤S101,视图变换估计单元114和视图模型学习单元111中的每一个获取估计值,该估计值是在图8的步骤S82的处理中计算的估计值并且是在每一时间处的合成视图模型的估计值。在这种情况下,获取似然性P(Xs|Tk),作为与每一时间对应的估计值。
在步骤S102,视图变换估计单元114计算每一视图变换的后验概率。此时,当提取(观察)图像特征Xs时,用上述等式(7)来将后验概率计算作为视图变换为Tk时的概率P(Tk|Xs)。
在等式(7),PTk为通过视图变换Tk输出的概率。概率PTk由视图变换运动估计单元115以与每一视图变换对应的方式计算,并被提供到视图变换估计单元114。
在步骤S103,视图模型学习单元111计算视图模型参数。也就是说,当给定了在步骤S102的处理中得到的在每一时间处的每一视图变换的后验概率P(Tk|Xs)时,视图模型学习单元111利用上述等式(8)来计算视图模型参数。
在步骤S104,视图模型学习单元111基于在步骤S103的处理中得到的视图模型参数来更新视图模型参数112。
这样,进行了前景学习处理。
接下来,参考图10的流程图描述图5的步骤S27的背景学习处理的一个具体示例。
在步骤S121,视图变换估计单元124和视图模型学习单元121中的每一个获取估计值,该估计值是在图8的步骤S82的处理中计算的估计值并且是在每一时间处的合成视图模型的估计值。在这种情况下,获得似然性P(Xs|Tk),作为与每一时间对应的估计值。
在步骤S122,视图变换估计单元124计算每一视图变换的后验概率。此时,当提取(观察)图像特征Xs时,通过上述等式(7)将后验概率计算作为视图变换为Tk时的概率P(Tk|Xs)。
在等式(7),PTk是通过视图变换Tk输出的概率。概率PTk由视图变换运动估计单元125以与每一视图变换对应的方式来计算,并被提供到视图变换估计单元124。
在步骤S123,视图模型学习单元121计算视图模型参数。也就是说,当给定在步骤S122的处理中获得的在每一时间处的每一视图变换的后验概率P(Tk|Xs)时,视图模型学习单元121利用上述的等式(8)来计算视图模型参数。
在步骤S124,视图模型学习单元121基于在步骤S123的处理中得到的视图模型参数来更新视图模型参数122。
这样,执行了背景学习处理。
接下来,参考图11的流程图来描述图4的视图模型学习设备200执行的视图模型学习处理。
在步骤S151,图像序列输入单元201接收活动图像的输入。然后,被使得与每一时间对应的图像作为输入图像的序列而被提供到图像特征提取单元202。
在步骤S152,图像特征提取单元202从在步骤S151中输入的输入图像序列的在每一时间处的图像中提取图像特征。
在步骤S153,前景估计学习单元204执行下文参考图12的流程图描述的前景估计处理。然后,前景估计学习单元204输出前景多视图模型的视图模型中的适当的视图模型的组合的多个候选以及多个视图变换中的适当的视图变换。例如,前景估计学习单元204输出视图模型VM1和视图变换T1的组合的候选以及视图模型VM2和视图变换T2的组合f的候选等。输出通过这样的组合而得到的每一估计的前景视图。
在步骤S154,背景估计学习单元205执行下文参考图13的流程图描述的背景估计处理。然后,背景估计学习单元205输出背景多视图模型的视图模型中的适当的视图模型的组合的多个候选以及多个视图变换终端的适当的视图变换。输出通过这样的组合而得到的每一估计的背景视图。
在步骤S155,前景背景合成观察单元203进行下文参考图14的流程图描述的合成观察处理。然后,前景背景合成观察单元203合成在步骤S153的处理中输出的所估计的前景视图以及在步骤S154的处理中输出的所估计的背景视图,以生成合成视图模型,并针对在步骤S152的处理中提取的图像特征来计算合成视图模型的估计值。
实质上,步骤S153到步骤S155的处理被反复执行活动图像的长度,然后,多视图模型学习处理进行到步骤S156。
在步骤S156,前景估计学习单元204执行下文参考图15的流程图描述的前景学习处理。然后,基于在步骤S155的处理中得到的估计值来更新前景的视图模型参数。
在步骤S157,背景估计学习单元205执行下文参考图16的流程图描述的背景学习处理。然后,基于在步骤S155的处理中得到的估计值来更新背景的视图模型参数。
实质上,例如,步骤S23到步骤S27的处理被反复执行预定次数,或者被反复执行直到等式(10)表示的对数似然性的变化量小于或等于预定阈值。
这样,执行了视图模型学习处理。
接下来,参考图12来描述图11的步骤S153的前景估计处理的一个具体示例。
在步骤S171,视图转变估计单元217根据在时间s-1处的视图模型Mv,s-1来估计在时间s处视图模型M′v,s。在此,由于假定要学习的前景中存在三维结构,因此,例如,使用诸如HMM等随机生成模型来估计视图模型的转变。
在步骤S172,视图和变换估计单元215和视图转变估计单元217基于在步骤S171的估计结果来估计视图模型的候选。此时,视图和变换估计单元215输出适当的视图模型的多个候选。
在步骤S173,视图变换运动估计单元216根据在时间s-1处的视图变换Ts-1来估计在时间s处的视图变换T′s。一般而言,由于假定前景的运动是规则连续的,因此,利用诸如粒子滤波器等动态模型针对变换的动态来估计前景的运动。
在步骤S174,视图和变换估计单元215基于视图变换运动估计单元216在步骤S172的估计结果来估计在时间s处的适当的视图变换Ts。此时,视图和变换估计单元215输出适当的视图变换的多个候选。例如,视图和变换估计单元215输出具有多个模式的仿射变换,作为仿射变换的候选。具体地,例如,视图和变换估计单元215输出用于平移前景的图像的仿射变换、用于扩展和缩小前景的图像的仿射变换、用于转动前景的图像的仿射变换以及模式的仿射变换(如用于投影前景的图像的仿射变换)。
在步骤S175,视图和变换估计单元215在步骤S172的处理中输出的每一视图模型上执行在步骤S174的处理中输出的视图变换。此时,所估计的每一视图模型的参数从多视图模型参数212中读出,并经历视图变换。
此时,视图模型和视图变换的预定数量的组合被选择,并经历视图变换。例如,视图模型和视图变换的上百个组合(即视图模型VM1和视图变换T1的组合和视图模型VM2和视图变换T2的组合等)被选择,并且每一组合经历视图变换。
在步骤S176,视图和变换估计单元215输出作为步骤S175的处理的结果而得到的所估计的前景视图。在此,视图和变换估计单元215输出对应于视图模型和视图变换的组合的多个估计的前景视图。
这样,执行了前景估计处理。
接下来,参考图13来描述图11的步骤S154的背景估计处理的一个具体示例。
在步骤S191,视图转变估计单元227根据在时间s-1处的视图模型Mv,s-1来估计在时间s处的视图模型M′v,s。在此,由于假定要学习的背景中存在三维结构,因此,例如,利用诸如HMM的随机生成模型来估计视图模型的转变。
在步骤S192,视图和变换估计单元225基于视图转变估计单元227在步骤S191的估计结果来估计视图模型的候选。此时,视图和变换估计单元225输出适当的视图模型的多个候选。
在步骤S193,视图变换运动估计单元226根据在时间s-1处的视图变换Ts-1来估计在时间s处的视图变换T′s。一般而言,由于假定背景的运动是规则或连续的,因此,通过利用诸如粒子滤波器的动态估计模型,针对变换的动态来估计背景的运动。
在步骤S194,视图和变换估计单元225基于视图变换运动估计单元226在步骤S192的估计结果来估计在时间s处的适当的视图变换Ts。此时,视图和变换估计单元225输出适当的视图变换的多个候选。例如,视图和变换估计单元225输出具有上百个不同模式的仿射变换,作为仿射变换的候选。具体地,视图变换估计单元225输出用于平移背景视图模型的变换、用于扩展和缩小背景视图模型的变换、用于转动背景视图模型的变换、用于执行变换的组合的仿射变换或投影变换。
在步骤S195,视图和变换估计单元225在步骤S192的处理中输出的每一视图模型上执行在步骤S194的处理中输出的视图变换。此时,所估计的每一视图模型的参数从多视图模型参数222中读出,并经历视图变换。
此时,视图模型和视图变换的预定数量的组合被选择,并经历视图变换。例如,视图模型和视图变换的上百个组合被选择,且每一组合经历视图变换。
在步骤S196,视图和变换估计单元225输出作为步骤S195的处理的结果而得到的所估计的背景视图。在此,视图和变换估计单元215输出与视图模型和视图变换的组合对应的所估计的多个背景视图。
或者,在背景估计处理的情况下,在步骤S192中仅输出视图模型的一个候选,在步骤S194中仅输出视图变换的一个候选,而在步骤S196中可输出一个估计的背景视图。这是因为,例如当作为前景的对象正在移动时,与前景相比,背景的运动足够小。
这样,执行了背景估计处理。
接下来,参考图14的流程图来描述在图11的步骤S155中执行的合成观察处理的一个具体示例。
在步骤S211,前景背景合成观察单元203形成前景和背景的合成视图模型。
此时,前景背景合成观察单元203合成在图12的步骤S176的处理中输出的所估计的前景视图以及在图13的步骤S196的处理中输出的所估计的背景视图。另外,前景背景合成观察单元203确定在图5的步骤S152中提取的图像特征的参数与合成视图模型的参数之间的对应关系。
在步骤S212,前景背景合成观察单元203相对于在步骤S152的处理中提取的图像特征,计算在步骤S211的处理中形成的合成视图模型的估计值。此时,前景背景合成观察单元203利用上述等式(9)来计算估计值。
这样,执行了合成观察处理。
接下来,参考图11的流程图来描述图15的步骤S156的前景学习处理的一个具体示例。
在步骤S231,视图和变换估计单元215和多视图模型视图转变学习单元211中的每一个获取估计值,该估计值是在图14的步骤S212的处理中计算的估计值并且是在每一时间处的合成视图模型的估计值。
在步骤S232,视图和变换估计单元215基于在步骤S231中得到的估计值来计算与视图模型关联的似然性。在这种情况下,以与每一时间对应的方式来计算似然性P(Xs|Mv)。
在步骤S233,视图和变换估计单元215基于在步骤S231中得到的估计值来计算与视图变换关联的似然性。在这种情况下,以与每一时间对应的方式来计算似然性P(Xs|Tk)。
在步骤S234,视图和变换估计单元215计算每一视图模型的后验概率。此时,当提取(观察)图像特征Xs时,利用上述的等式(11)将后验概率计算作为视图模型为Mv时的概率P(Mv|Xs)。
在步骤S235,视图和变换估计单元215计算每一视图变换的后验概率。此时,当提取(观察)图像特征Xs时,利用上述的等式(12)将后验概率计算作为视图变换为Tk时的概率P(Tk|Xs)。
在等式(11),PMv是通过视图模型Mv输出的概率。概率PMv由视图转变估计单元217以与每一视图变换对应的方式计算,并被提供到视图和变换估计单元215。在等式(12),PTk是通过视图变换Tk输出的概率。概率PTk由视图变换运动估计单元216以与每一视图变换对应的方式计算,并被提供到视图和变换估计单元215。
在步骤S236,多视图模型视图转变学习单元211计算视图模型参数。也就是说,当给定在步骤S234的处理中得到的在每一时间的每一视图模型的后验概率P(Mv|Xs)以及在步骤S235的处理中得到的在每一时间处的每一视图变换的后验概率P(Tk|Xs)时,多视图模型视图转变学习单元211利用上述等式(13)的来计算视图模型参数。
在步骤S237,多视图模型视图转变学习单元211基于在步骤S236的处理中得到的视图模型参数来更新多视图模型参数212。
这样,执行了前景学习处理。
接下来,参考图16的流程图来描述图11的步骤S157的背景学习处理一个具体示例。
在步骤S251,视图和变换估计单元225和多视图模型视图转变学习单元221的每一个获取估计值,该估计值是在图14的步骤S212的处理中计算的估计值并且是在每一时间处的合成视图模型的估计值。
在步骤S252,视图和变换估计单元225基于在步骤S251中得到的估计值来计算与视图模型关联的似然性。此时,以与每一时间对应的方式来计算似然性P(Xs|Mv)。.
在步骤S253,视图和变换估计单元225在步骤S251中得到的估计值来计算与视图变换关联的似然性。此时,以与每一时间对应的方式来计算似然性P(Xs|Tk)。
在步骤S254,视图和变换估计单元225计算每一视图模型的后验概率。此时,当提取(观察)图像特征Xs时,通过上述的等式(11)将后验概率计算作为视图模型为Mv时的概率P(Mv|Xs)。
在步骤S255,视图和变换估计单元225计算每一视图模型的后验概率。此时,当提取(观察)图像特征Xs时,通过上述的等式(12)将后验概率计算作为视图变换为Tk时的概率P(Tk|Xs)。
在等式(11),PMv是通过视图模型Mv输出的先验概率。The先验概率PMv由视图转变估计单元227以与每一视图模型对应的方式计算,并被提供到视图和变换估计单元225。在等式(12),PTk是通过视图变换Tk输出的概率。概率PTk由视图变换运动估计单元226以与每一视图变换对应的方式来计算,并被提供到视图和变换估计单元225。
在步骤S256,多视图模型视图转变学习单元221计算视图模型参数。也就是说,当给定了在步骤S254的处理中得到的在每一时间处的每一视图模型的后验概率P(Mv|Xs)以及在步骤S255的处理中得到的每一视图变换的后验概率P(Tk|Xs)时,多视图模型视图转变学习单元221利用上述等式(13)来计算视图模型参数。
在步骤S257,多视图模型视图转变学习单元221基于在步骤S256的处理中得到的视图模型参数来更新多视图模型参数222。
这样,执行了背景学习处理。
例如,在根据相关技术的学习图像处理中,当学习识别目标的模型以形成识别器时,学习是通过向作为学习数据的大量图像数据赋予识别目标的标记来执行的。
例如,当为面部识别而学习图像时,需要赋予用于指定人名、他或她的面部取向、显示这人的面部图像的区域的信息等,作为标记。另外,当为对象识别而学习图像时,需要赋予用于指定对象名称、对象取向以及显示对象的区域的信息等,作为标记。
例如,当在学习图像处理中学习图像时,赋予标记会增加处理负担。因此,难以在短时间内完成学习。
然而,在本技术的实施例中,无需通过向大量的图像数据赋予识别目标的标记来学习图像。相应地,例如,通过简单地输入活动图像等来容易地完成学习。
另外,在本技术的实施例中,实现了建模,使得对多视图模型中的各个视图模型的视图转变估计能够通过利用HMM等以统计的方式执行。因此,例如,无需完成针对每一视图的学习。另外,即使当视图的数量增加时,也可以简单地完成学习。
此外,在本技术的实施例中,图像中的前景和背景被分解,并分别被学习为前景视图模型和背景视图模型。因此,例如,即使当实际活动图像中包含与前景接近的背景时,也能够简单地完成学习。
相应地,与相关技术相比,在本技术的实施例中,能够以较少的计算量来进行学习图像处理。
至此,已经基于前景和背景的每一个用单视图模型来表示并且在前景和背景上进行相同的视图变换的假定描述了以上参考图5到图10示出的处理。已经基于前景和背景的每一个用多视图模型来表示并且在前景和背景上进行相同的视图变换的假定描述了以上参考图11到图16示出的处理。
然而,实质上,可向背景和前景应用不同的视图模型和不同的视图变换。
例如,可通过用多视图模型来表示前景而分别用单视图模型和多视图模型来表示背景来学习视图模型。
或者,可将诸如HMM、FNN或RNN等动态学习估计模型用于前景视图变换的运动估计。可将诸如粒子滤波器或卡尔曼滤波器等动态估计模型用于背景视图变换的运动估计。
也就是说,作为一个变型,图4中的视图模型学习设备200的背景估计学习单元205的配置可被替代为图3的视图模型学习设备100的背景估计学习单元105的配置。另外,例如,作为一个变型,前景估计学习单元204的视图变换运动估计单元216和视图转变估计单元217可集成在一起,并且可根据与背景估计学习单元205的视图转变估计和视图变换运动估计不同的方法来进行估计。
这样,可以各种形式来修改根据本技术的实施例的视图模型学习和利用学习的结果来执行的图像识别。下文中,将描述一些示例,其中,具体地设置了前景的视图模型和视图变换以及背景的视图模型和视图变换,并且学习了视图模型,以识别图像。
也就是说,将描述作为具体的视图模型学习和应用了本技术的实施例的图像处理设备的图像识别的示例的第一到第三具体示例。
第一具体示例
在第一具体示例,通过输入并学习活动图像(其中图17所示的前景图像正相对于图18所示的背景图像而移动)来识别存在前景图像的区域。
在这种情况下,图3的视图模型学习设备100将前景学习为单视图模型,并且也将背景学习为单视图模型,然后利用作为学习结果的视图模型来识别前景图像。
当在视图模型的学习之后进行图像识别时,象视图模型学习一样,也估计视图变换,或者也估计视图转变。然而,当图像被识别时,通常仅示出所述视图变换或视图变换的一个候选。
图17示出的前景图像是通过5乘5个像素的矩形区域而形成的图像,并且具有相应的像素为白或黑的预定图案。
图18示出的背景图像是通过10乘20个像素的矩形区域而形成的图像,并且具有相应的像素为白或黑的预定图案。
在此,假设后面的活动图像被输入到图像序列输入单元101。也就是说,在每一时间处的输入图像是在背景的预定位置处反复显示前景并且通过在随后的时间沿着向上、向下、向右和向左的方向中的一个方向将前景的位置随机移动一个像素而使前景相对于背景正在移动的输入图像序列。
在第一具体示例,相应地,假定背景(或相机)不移动,而前景只平移。在第一具体示例,通过将输入图像序列的二进制图案(0或1)转换为灰度图案(0到1的范围中的连续值)而得到的结果被用作图像特征。另外,前景视图模型MFG和背景视图模型MBG为具有预定数量的像素且每一像素的亮度值(像素值)为在0到1的范围中的连续值的矩形区域。
图17所示的前景被合成到图18所示的背景上,以形成图19所示的按时间顺序的图像,然后,所述图像被输入到视图模型学习设备100。图19所示的图像为从作为活动图像输入的图像中提取的在三个时间处的图像。在图19,在时间s=s1,前景图像显示在区域301中,该区域301位于图像的中间的下部。在时间s=s2,前景图像显示在区域302中,该区域302位于图像的中间的略靠下的部分。在时间s=s3,前景图像显示在区域303中,该区域303位于图像的中间。
如上所述,图像特征提取单元102提取通过将输入图像序列的二进制图案转换成灰度图案而得到的结果,作为图像特征。例如,图像特征提取单元102提取在时间s处的图像特征Xs。
前景背景合成观察单元103合成由前景估计学习单元104估计的所估计的前景视图和由背景估计学习单元105估计的所估计的背景视图。所估计的前景视图可通过在前景视图模型MFG上进行预定视图变换Tk来获得。在这种情况下,由于背景中有运动,因此,背景视图模型MBG可控用作所估计的没有改变的背景视图。前景背景合成观察单元103形成背景和前景的合成视图模型Mk,FGBG
合成视图模型Mk,FGBG通过表达式(14)来得到。
M k , FGBG = M BG ⊕ T k M FG - - - ( 14 )
等式(14)中,运算符表示后面的计算。即,得到经过视图变换Tk的前景视图模型MFG的几何模型TkMFG,G以及与几何模型TkMFG,G几何对应的背景视图模型MBG的特征点M′BG,G。在这种情况下,获得背景中与前景的每一像素重叠的坐标位置,作为特征点M′BG,G。另外,特征点M′BG,G的特征量M′BG,F用前景视图模型MFG的特征量模型MFG,F来替代。
也就是说,用前景的每一像素的亮度值来替代背景中与前景的每一像素重叠的坐标位置处的每一像素的亮度值。
由于如上所述在此假定前景仅平移,因此,等式(16)中的视图变换Tk用等式(15)中的仿射变换(affine transform)来替代。
T k = 1 0 u k 0 1 v k 0 0 0 . - - - ( 15 )
前景背景合成观察单元103计算前景和背景的合成视图模型Mk,FGBG的似然性P(Xs|Mk,FGBG),作为估计值。另外,计算似然性P(Xs|Mk,FGBG),作为估计值。在这种情况下,由于前景和背景的合成视图模型Mk,FGBG的似然性与视图变换Tk的似然性P(Xs|Tk)相同,因此上述估计值可用等式(16)来表示。
P ( X s | T k ) = P ( X s | M k , FGBG ) = 1 D exp ( - Σ i , j C FGBG , s ( x s , i - ( m k , FGBG , j ) ) 2 2 σ 2 ) - - - ( 16 )
在等式(16),σ和D为预先确定的参数。在等式(16),CFGB,s表示输入图像序列中在时间s处的图像与合成视图模型之间的对应关系。也就是说,等式(16)的最右边的分子表示输入图像序列中在时间s处的图像的各个像素的亮度值与背景和前景的合成视图模型对应的各个像素的亮度值之间的差的平方和。
视图变换估计单元114的视图变换估计以及视图模型学习单元111的视图模型学习是基于用等式(16)计算的似然性来执行的。
在第一具体示例,视图变换估计单元114和视图变换运动估计单元115的估计是根据HMM算法来执行的。
由于如上所述地假定前景仅平移,因此,准备了HMM状态转变概率表,其中前景视图模型的位置对应于背景视图模型中。在这种情况下,描述了状态转变概率表,例如,从视图变换Ta到视图变换Tb的转变概率以及从视图变换Ta到视图变换Tc的转变概率。也就是说,该表被准备为描述了当多个视图变换中的每一个(例如,到右边的一次平移以及到左边的一次平移等)为HMM的内部状态节点时、从在时间s处的节点到在时间s+1处的节点的转变的概率。
此时,在状态转变概率表,添加了如下约束:HMM的内部状态节点排列成二维格状,并且内部状态节点之间的并非转变概率的二维格状中的从一个节点到相邻节点的转变概率的转变概率为0。
下文描述的视图变换估计通过在视图变换运动估计单元115中预先存储这样的状态转变概率表并与视图变换估计单元114合作地操作该状态转变概率表来进行。
利用HMM进行的视图变换估计是通过计算要在给定时间的输出的视图变换的后验概率来进行的。要在给定时间的输出的视图变换的后验概率可用等式(17)计算。也就是说,该后验概率可基于与每一视图变换对应的每一状态的观察似然性P(Xs|Tk)以及状态之间的转变概率P(Tk|Tk-1)来计算。另外,该后验概率可基于HMM中的前向状态概率α(Tk)和后向状态概率β(Tk)来计算。
P ( T k | X s ) = p T k · P ( X s | T k ) Σ 1 N X P T k · P ( X s | T k )
= α ( T k ) β ( T k ) Σ 1 N X α ( T k ) β ( T k ) - - - ( 17 )
前向状态概率可以用等式(18)根据前向算法(通常用于计算HMM状态概率)来计算。另外,后向状态概率可以用等式(19)根据后向算法(通常用于计算HMM状态概率)来计算。
下列文献例如详细披露了上述前向算法和后向算法:ChristopherM.Bishop所著的″Pattern Recognition and Machine Learning″(P.335,(Information Science and Statistics),纽约,2006年)(下面也称为文献A)。
α ( T k ) = P ( X s | T k ) Σ T k - 1 α ( T k - 1 ) P ( T k | T k - 1 ) - - - ( 18 )
β ( T k ) = Σ T k + 1 β ( T k + 1 ) P ( X s | T k + 1 ) P ( T k | T k + 1 ) - - - ( 19 )
也就是说,当图像特征提取单元102提取图像特征Xs时,例如,视图变换估计单元114估计多个视图变换的候选。用等式(18)和等式(19)、参考HMM状态转变概率表来计算所估计的每一候选。这样,能够获得针对视图变换的每一候选的前向状态概率α(Tk)和后向状态概率β(Tk)。
视图变换运动估计单元115通过进行等式(17)的计算来计算针对视图变换的每一候选的后验概率。例如,当视图变换估计单元114输出所述候选时,视图变换估计单元114基于变换的后验概率、通过要输出的候选的数量来选择并输出视图变换。
这样,利用所估计的视图变换的候选在前景视图模型上进行了视图变换。
另外,视图模型学习如下进行。
视图模型学习单元111获得相对于在每一时间的图像特征Xs在前景视图模型上进行的每一视图变换TFG,k的后验概率P(TFG,k|Xs),并通过等式(20)表示的计算来计算前景的前景视图模型MFG的视图模型参数。
M FG = 1 S Σ s = 1 S Σ k = 1 N T P ( T FG , k | X s ) · T FG , k - 1 C X , FGBG , s X s - - - ( 20 )
在等式(20),CX,FGBG,s表示与背景对应的图像特征是从在时间s的图像特征Xs中提取的。
视图模型学习单元121获得相对于在每一时间的图像特征Xs在背景视图模型MBG上进行的每一视图变换TBG,k的后验概率P(TBG,k|Xs),并通过等式(21)表示的计算来计算背景的背景视图模型MFG的视图模型参数。
M BG = 1 S Σ s = 1 S C X , FGBG , S X s - - - ( 21 )
图20的图示出第一具体示例中图像识别和视图模型学习中的视图变换估计的机制。
如图20所示,在前景视图模型MFG上进行视图变换Tk,并且作为估计的前景视图而得到的结果被合成到背景视图模型MGB。这样,形成了合成视图模型Mk,FGBG
图20的左上侧的有阴影的矩形图表示前景视图模型MFG。图20的左下侧的白色矩形图表示背景视图模型MBG。图20的右上侧的矩形图表示合成视图模型Mk,FGBG
由于如上所述地假定前景仅平移,因此,视图变换Tk用等式(15)的仿射变换来表示。相应地,所估计的前景视图是当前景视图模型MFG移动到几个位置而没有变化时示出的图像。此时,矩形前景的左上顶点的位置可用从矩形背景的左边开始测量的距离(或像素数)u以及从矩形背景的上边开始测量的距离(或像素数)v来表示。
在这种情况下,状态转变概率表为图20的右下侧示出的表。也就是说,上述v值用状态转变概率表的水平轴来规定,上述u值用状态转变概率表的垂直轴来规定。状态转变概率表的每一节点表示将前景的左上顶点的位置移动(平移)到位置(u,v)的视图变换。然后,描述节点之间的转变概率。
在状态转变概率表,如上所述,添加了如下约束:HMM的内部状态节点排列成二维格状,并且内部状态节点之间的并非转变概率的二维格状中的从一个节点到相邻节点的转变概率的转变概率为0。因此,能够改善状态估计的效率。
在第一具体示例,例如,由于在视图变换估计中使用了HMM的算法,因此,可简单获得针对视图变换的每一候选的前向状态概率α(Tk)和后向状态概率β(Tk)。结果,由于可简单地计算等式(17)中的针对视图变换的每一候选的后验概率,因此,能够更有效地估计视图变换。另外,如同普通的HMM学习一样,基于前向状态概率和后向状态概率来更新HMM状态转变概率。
图21的图示出第一具体示例中的图像识别的结果的一个示例。图21示出活动图像的另一示例,其中图17所示的前景图像正在图18所示的背景图像中移动。图21所示的图像是从作为活动图像输入的图像中提取的在三个时间处的图像。假设图21所示的前景的运动不同于图19所示的前景的运动。
如图21所示,在时间s=s11、时间s=s12及时间s=s13处的图像中的每一个的帧线内识别出前景图像。
第二具体示例
在第二具体示例,使用图4的视图模型学习设备200的背景估计学习单元配置,其被配置为与图3的背景估计学习单元105的配置相同。假设视图模型学习设备200将前景学习为多视图模型,而将背景学习为单视图模型,然后利用作为学习结果的视图模型来识别前景图像。
当在视图模型的学习之后识别图像时,与视图模型学习的情况一样,估计视图变换或者估计视图转变。然而,当识别了图像时,通常仅输出所述视图变换的一个候选或所述视图变换。
在第二具体示例,在前景的视图转变估计中使用HMM,在前景的视图变换估计中使用粒子滤波器,并且在背景的视图变换估计使用粒子滤波器。
图22的图示出第二具体示例中用作输入图像序列的图像的示例。如图22所示,输入图像序列是例如通过将相机移动到围绕笔记本类型的个人计算机的不同位置并以各种角度拍摄所述笔记本类型的个人计算机而得到的图像。例如,在时间s=s1处到时间s=s6处的图像是通过将相机从左边移动到面对所述笔记本类型的个人计算机并拍摄活动图像而得到的。
在第二具体示例的情况下,所述笔记本类型的个人计算机作为前景来学习。放置所述笔记本类型的个人计算机的桌子以及形成所述笔记本类型的个人计算机的背景的书籍等作为背景来学习。
图22所示的输入图像序列包括通过以各种角度来观看作为前景的所述笔记本类型的个人计算机而得到的图像(视图)。另外,假定输入图像序列的前景由于相机的移动而相对于背景相对平移为被扩展或缩小。
另一方面,假定输入图像序列的背景由于相机的移动而平移。
在第二具体示例,使用通过将输入图像序列的RGB图案转换成灰度图案(0到1的范围中的连续值)而得到的结果。
前景多视图模型MFG,V的视图模型{MFG,1,MFG,2,...,MFG,L}的视图模型参数中的每一个包括预定大小的矩形区域的每一像素的坐标值(位置)和亮度值(像素值)。
背景视图模型MBG为面积大于在图22中的每一时间处的图像中显示的背景图像的矩形图像。每一像素的坐标值(位置)和亮度值(像素值)为视图模型参数。
在第二具体示例的情况下,图22示出的输入图像序列被输入到图像序列输入单元201。图像特征提取单元202提取通过将输入图像序列中的每一时间处的图像的RGB图案转换成灰度图案而得到的结果,作为图像特征。
前景背景合成观察单元203合成从前景估计学习单元204输出的所估计的前景视图和从背景估计学习单元105输出的所估计的背景视图,以形成合成视图模型MFGBG
合成视图模型MFGBG通过表达式(22)来获得。
M FGBG = T BG , k M BG ⊕ T FG , k M FG , v - - - ( 22 )
在等式(22)中运算符
Figure BDA0000146612420000402
表示后面的计算。也就是说,获得经过视图变换TFG,k的前景多视图模型MFG,v的几何模型TFG,kMFG,v,G以及背景视图模型MBG的特征点M′BG,G(其为与几何模型TFG,kMFG,v,G几何对应的特征点并经过视图变换TBG,k)。在这种情况下,获得背景中与前景的每一像素重叠的坐标位置,作为特征点M′BG,G。另外,特征点M′BG,G的特征量M′BG,F用前景视图模型MFG,v的特征量模型MFG,v,F来替代。
也就是说,背景中与前景的每一像素重叠的坐标位置处的每一像素亮度值被替代为前景的每一像素的亮度值。
在此由于如上所述假定前景被平移为被扩展或缩小,等式(22)中的视图变换TFG,k通过等式(23)的仿射变换来表示。
T FG , k = s 1 FG , k 0 u FG , k 0 s 2 FG , k v FG , k 0 0 0 - - - ( 23 )
另外,如上所述,由于在此假设背景仅平移,在等式(22)中的视图变换TBG,k用在等式(24)中的仿射变换来表示。
T BG , k = 1 0 u BG , k 0 1 v BG , k 0 0 0 - - - ( 24 )
前景背景合成观察单元203通过等式(25)和等式(26)计算在时间s处的合成视图模型MFGBG的似然性P(Xs|MFGBG)。另外,基于等式(26)的最右侧(并非针对其需要通过边缘化(marginalization)来计算似然性的目标的变量),来计算与下述等式(27)的计算所需的视图变换关联的似然性以及与等式(30)的计算所需的视图模型关联的似然性。
P(Xx|TBG,K,TFG,K,MFG,v)=P(Xs|MFGBG)       (25)
P ( X s | T BG , k T FG , k , M FG , v ) = P ( X s | M FGBG ) = 1 D exp ( - Σ i , j C FGBG , s ( x s , i - ( m FGBG , j ) ) 2 2 σ 2 ) - - - ( 26 )
在等式(26),σ和D是预先确定的参数。在等式(26),CFGBG,s表示输入图像序列中在时间s处的图像与合成视图模型MFGBG之间的对应关系。通过等式(26)得到的似然性被用作估计值。
接下来,描述前景的视图变换估计和视图转变估计。
视图和变换估计单元215和视图变换运动估计单元216如下所述地进行视图变换估计。
准备了粒子滤波器,其中,基于平移、扩展和缩小的假定的视图变换TFG,k的4个参数被用作状态量。在此,这4个参数对应于上述等式(23)中的右侧的矩阵中的位于第一行和第一列的分量、位于第一行和第三列的分量、位于第二行和第二列的分量以及位于第二行和第三列的分量。由于指定前景视图变换的4个参数的组合可对应于粒子滤波器的各个粒子,因此通过指定一个粒子来指定一个视图变换。
另外,例如,粒子滤波器可较好地用于图像识别中的目标跟踪。文献A的第364页等详细披露了粒子滤波器。
使用粒子滤波器执行的视图变换估计是通过计算在给定时间的视图变换的后验概率并计算在随后的时间的视图变换的后验概率来进行的。
在给定时间(时间s)的视图变换的后验概率可用此时采样的粒子的后验概率w(1) s来近似。在时间s处采样的粒子的后验概率可通过等式(27)基于与在时间s处的视图变换关联的似然性来计算。另外,如上所述,视图和变换估计单元215基于前景背景合成观察单元203计算的估计值来计算与视图变换关联的似然性。
P ( T s , k ( l ) | X s ) ≈ w s ( l ) = P ( X s | T s , k ( l ) ) Σ m = 1 M P ( X s | T s , k ( m ) ) - - - ( 27 )
在等式(27)中,与在时间s处的视图变换关联的似然性被表示为P(Xs|T(l) s,k)或者P(Xs|T(m) s,k)。在等式(27),(l)和(m)表示粒子的索引,并且总共有M个粒子。如上所述,由于视图变换可对应于每一粒子,因此,可将粒子的索引赋予视图变换。
用于采样在随后的时间(时间s+1)的视图变换的概率基于在时间s处采样的粒子的后验概率w(1) s来计算,并且用等式(27)以及等式(28)的状态更新规则F(T(1) s+1,k|Ts,k)来计算。
P ( T s + 1 , k | X s ) ≈ Σ l M w s ( l ) F ( T s + 1 , k | T s , k ( l ) ) - - - ( 28 )
在此,例如,状态更新规则是针对等式(29)中在时间s处的视图变换Ts,k的状态量xs给出的。
xs+1=xs+ND  (0,σ)           (29)
该等式表示状态量xs邻近在时间s+1处的状态量xs的方差σ的正态分布。例如,当要学习和识别的前景的运动为轻柔时,状态更新规则是有效的。另一方面,当要学习和识别的前景的运动偏离假定时,需要考虑要学习和识别的前景的运动来设计状态更新规则,或者根据样本学习状态更新模型。
视图变换运动估计单元216针对每种视图变换(4个参数的组合)计算在时间s+1处的视图变换的后验概率。例如,当视图和变换估计单元215输出视图变换的候选时,基于在时间s+1的处视图变换的后验概率通过要输出的多个候选来选择和输出视图变换。
这样,利用所估计的视图变换的候选在前景视图模型上进行了视图变换。
在此,已经描述了粒子滤波器被分别应用于前景和背景的情况。然而,为了生成合成视图模型,粒子是从用于前景的粒子和用于背景的粒子中随机(例如,基于均匀分布概率)选择的。然后,基于所选粒子的视图变换参数的状态量来形成前景和背景的合成视图模型。
视图和变换估计单元215和视图转变估计单元217如下所述地进行视图转变估计。
准备了HMM状态转变概率表,其中前景多视图模型中的多个视图模型的每一个是HMM的内部状态节点。在这种情况下,状态转变概率表描述例如从视图模型Ma到视图模型Mb的转变概率、从视图模型Ma到视图模型Mc的转变概率。
此时,在状态转变概率表,添加了如下约束:HMM的内部状态节点排列成二维格状,并且内部状态节点之间的并非转变概率的二维格状中的从一个节点到相邻节点的转变概率的转变概率为0。这是因为,可假定前景被假定为具有三维结构并且因此从三维结构中进行的多个视图之间的转变被假定为在覆盖三维结构的二维结构上进行。更准确地,可使用在球形表面上排列节点的方法。
例如,如下文所述的,视图转变估计是通过将状态转变概率表存储于视图转变估计单元217中并与视图和变换估计单元215合作地进行操作来进行的。
利用HMM的视图估计是通过计算在给定时间的视图模型的后验概率来进行的。在给定时间的视图模型的后验概率可基于在每一状态的观察似然性P(Xs|MFG,v)以及状态间的转变概率P(MFG,v|MFG,v′)来计算的。另外,在给定时间的视图模型的后验概率可通过等式(30)利用HMM中的前向状态概率α(MFG,v)和后向状态概率β(MFG,v)来计算。
P ( M FG , v | X s ) = P M FG , v · P ( X s | M FG , v ) Σ 1 L P M FG , v · P ( X s | M FG , v )
= α ( M FG , v ) β ( M FG , v ) Σ 1 L α ( M FG , v ) β ( M FG , v ) - - - ( 30 )
前向状态概率可通过根据通常用于利用等式(31)计算HMM状态概率的前向算法来计算。后向状态概率可通过根据通常用于利用等式(32)计算HMM状态概率的后向算法来计算。
α(MFG,v)=P(Xs|MFG,v)Σα(MFG,v′)P(MFG,v |MFG,v′)  (31)
β(MFG,v)=Σβ(MFG,v″)P(Xs|MFG,v″)P(MFG,v|MFG,v″) (32)
也就是说,当图像特征提取单元202提取在时间s处的图像特征Xs时,例如,视图和变换估计单元215估计多个视图转变的候选。利用等式(31)和等式(32)、参考HMM状态转变概率表来计算所估计的每一候选。这样,可得到针对视图变换的每一候选的前向状态概率α(MFG,v)和后向状态概率β(MFG,v)。
这样,视图转变估计单元217针对每一视图模型来计算要在随后的时间转变的视图变换的后验概率。例如,当视图和变换估计单元215输出视图转变的候选时,基于要在随后的时间转变的视图模型的后验概率通过要输出的多个候选来选择和输出视图模型。
在针对其估计并输出视图转变的前景视图模型上进行通过以上述方式估计的视图变换的候选的视图变换。
接下来,描述背景视图变换。
视图变换估计单元124和视图变换运动估计单元125如下所述地进行视图变换估计。
准备粒子滤波器,其中,假定了平移的视图变换TBG,k的两个参数被用作状态量。在此,两个参数对应于上述等式(24)的右侧的矩阵中的位于第一行和第三列的分量以及位于第二行和第三列的分量。
与前景视图变换一样,计算要在随后的时间采样的粒子的后验概率,并基于该后验概率来输出每一视图变换作为候选。
这样,利用所估计的视图变换的候选在背景视图模型进行了视图变换。
在此,已经描述了粒子滤波器被分别应用于前景和背景的情况。然而,为了生成合成视图模型,粒子是从用于前景的粒子和用于背景的粒子中随机(例如,基于均匀分布概率)选择的。然后,基于所选粒子的视图变换参数的状态量来形成前景和背景的合成视图模型。
接下来,将描述视图模型学习。
多视图模型视图转变学习单元211如下所述地计算前景多视图模型的每一视图模型的视图模型参数。
也就是说,多视图模型视图转变学习单元211基于以上述方式利用等式(33)得到的视图变换的后验概率和视图模型的后验概率来计算多视图模型的视图模型MFG,v的视图模型参数。
M FG , v = 1 S Σ s = 1 s Σ k = 1 N T P ( M FG , v | X s ) P ( T FG , k | X s ) · T FG , k - 1 C X , FGBG , s X s - - - ( 33 )
在等式(33),在前景视图模型上进行的视图变换表示为TFG,k,且存在总共NT个视图变换。例如,通过等式(33)计算多视图模型的L个视图模型中的一个视图模型的视图模型参数。相应地,等式(13)的计算通过多视图模型的多个视图模型来进行。
另外,视图模型学习单元121如下所述地计算背景视图模型的视图模型参数。
也就是说,视图模型学习单元121利用等式(34)基于以上述方式计算的视图变换的后验概率来计算视图模型MBG的视图模型参数。
M BG = 1 S Σ s = 1 S Σ k = 1 N T P ( T BG , k | X s ) · T BG , k - 1 C X , FGBG , s X s - - - ( 34 )
在等式(34),在背景视图模型上进行的视图变换被表示为TBG,k且存在总共NT个视图变换。
图23的图示出第二具体示例中的视图模型学习。
在第二具体示例中,如图23所示,在前景多视图模型MFG,V的预定视图模型上进行视图变换TFG,k。该视图模型被视为所估计的前景视图。另外,在背景视图模型MBG上进行视图变换TBG,k。该视图模型被视为所估计的背景视图。
在该示例中,在图的左上侧概念性地示出了前景多视图模型。也就是说,在这种情况下,前景多视图模型包括9个视图模型。在图的左上部,作为前景多视图模型MFG,V的视图模型的这9个视图模型被示出为矩形图。
在该示例中,背景视图模型MBG被配置为面积大于合成视图模型MFGBG,k中所显示的背景图像的面积的矩形图像。也就是说,在图的左下部,背景视图模型MBG的整体尺寸(面积)被示出为较大的矩形,并且作为所估计的背景视图输出的部分的尺寸(面积)被示出为较小的矩形。
然后,合成所估计的前景视图和所估计的背景视图,以形成合成视图模型MFGBG,k。也就是说,在图的右部,白色矩形和由阴影的矩形以重叠的方式示出,作为合成视图模型MFGBG,k。白色矩形为通过在从示出于图的左下部的背景视图模型MBG中提取的图像上进行视图变换TBG,k而得到的所估计的背景视图。另外,有阴影的矩形为通过在示出于图的左上部的前景多视图模型MFG中的所选视图模型上进行视图变换TFG,k而得到的所估计的前景视图。
在第二具体示例中,粒子滤波器用于背景和前景的视图变换估计。因此,例如,即使有大量的视图变换的参数,也能有序地进行视图变换估计。另外,例如,可简单地计算在等式(28)中示出的视图变换的后验概率。
在第二具体示例中,HMM算法被用于前景视图转变的估计。因此,例如,可简单地获得针对视图变换的每一候选的前向状态概率α(Tk)和后向状态概率β(Tk)。结果,由于可简单地进行等式(30)中所示的针对视图转变的每一候选的后验概率,因此,能更有效地估计视图变换。
在状态转变概率表,如上所述,添加了如下约束:HMM的内部状态节点排列成二维格状,并且内部状态节点之间的并非转变概率的二维格状中的从一个节点到相邻节点的转变概率的转变概率为0。因此,可提高状态估计的效率。
图24的图示出了第二具体示例中通过输入图22中示出的输入图像序列、学习前景多视图模型和背景视图模型并识别图像而得到的结果。示出于图24的右上部的图像时作为要学习的输入而输入的图像。
如图24的左上部所示,对应于通过以不同的角度来观看笔记本类型的个人计算机而得到的图像的9个视图模型被学习作为前景多视图模型。另外,如图24的左下部所示,放置所述笔记本类型的个人计算机的桌子和形成所述笔记本类型的个人计算机的背景的书籍等被学习作为背景视图模型。
与实际图像不同的是,在图24所示的视图模型中,模糊地显示了背景和前景的对象。如上所述,这是因为,基于视图转变或者视图变换的后验概率以加权的方式来更新作为视图模型的参数的每一像素的亮度值。
如图24的右下部所示,形成了合成视图模型。也就是说,合成视图模型是通过是通过以重叠的方式显示通过在背景的预定视图模型上进行预定视图变换并在背景视图模型进行预定视图变换而得到的所估计的前景视图来形成的。
在图24,可以理解,形成了与输入图像几乎相同的合成视图模型,因而可适当地学习和识别图像。
第三具体示例
在第三具体示例中,图3的视图模型学习设备100将前景学习为单视图模型,并且也将背景学习为单视图模型,然后利用作为学习结果的视图模型来识别前景图像。
当在视图模型的学习之后识别图像时,如同在视图模型学习中一样,也估计视图变换。然而,当识别了图像时,通常仅输出视图变换的一个候选或者所述视图变换。
在第三具体示例中,局部特征(哈里斯角点)被用作视图模型,而粒子滤波器被用于视图变换估计。
图25的图示出第三具体示例中作为输入图像序列的图像的示例。如图25所示,输入图像序列是通过手动固定桌上的玩偶(填充玩具)的姿势、移动玩偶的正面、后面、右面和左面并用相机拍摄该玩偶来得到的。例如,时间s=s1到时间s=s3的图像时通过逐渐移动玩偶并拍摄活动图像而得到的。
在第三具体示例中,将玩偶作为前景来学习。另外,放置玩偶的桌子以及形成玩偶的背景的咖啡杯、桌面等作为背景来学习。
在第三具体示例中,假定图25中所示的输入图像序列中作为前景的玩偶相对于背景被相对平移,以被扩展或缩小。
另一方面,假定输入图像序列中的背景由于相机的移动而被平移。.
在第三具体示例中,输入图像序列的每一图像的RGB图案被转换成灰度图案(0到1的范围中的连续值),并且通过哈里斯角点检测来检测特征点的位置。检测到的f个特征点的位置的集合被用作图像特征。在图25的时间s=s1到时间s=s3的图像中,以交叉形状等表示的点被绘在玩偶、桌子、咖啡杯以及桌面中。所绘的点为通过哈里斯角点检测而检测到的特征点的部分。
在此,已经描述了通过哈里斯角点检测来检测特征点的示例。然而,还可使用其他方法来检测特征点。
相应地,在第三具体示例中,无需在图像特种包括像素的亮度值等。图像特征仅包括每一特征点的坐标位置等。例如,在每一时间的图像特征X1,X2,...Xs中的图像特征X1包括有关从时间1处的图像中检测到的特征点的坐标位置的集合(x1,y9)、(x18,y31)的信息。另外,图像特征X1包括有关从时间1处的图像中检测到的特征点的坐标位置的集合(x3,y6)、(x11,y38)等的信息。因此,在第三具体示例中,无需包括特征量模型,这是因为视图模型参数仅包括几何模型就足够了。
在哈里斯角点检测中,图像的边缘通常被检测作为特征点。例如,作为前景的玩偶的图像中的边缘的点以及作为背景的咖啡杯和桌面的图像中的边缘的点被检测作为特征点。
在第三具体示例中,包括玩偶的图像中的第一特征点、第二边缘点等的特征点的集合以及二维空间中各个特征点之间的相对位置被学习作为前景视图模型。在第三具体示例中,包括咖啡杯和桌面的图像中的第一特征点、第二边缘点等的特征点的集合以及二维空间中各个特征点之间的相对位置被学习作为背景视图模型。
与几何模型(坐标位置等)相似,诸如方向可控滤波器等的特征量模型可被添加作为有关特征点的信息。
在第三具体示例中,图25所示的输入图像序列被输入到图像序列输入单元101。图像特征提取单元102通过哈里斯角点检测从输入图像序列中在每一时间的图像中检测特征点。
前景背景合成观察单元103合成由前景估计学习单元104估计的所估计的前景视图以及由背景估计学习单元105估计的所估计的背景视图,以形成合成视图模型MFGBG
所估计的前景视图可通过在前景视图模型MFG上进行视图变换TFG,k而得到,并被表示为TFG,kMFG。所估计的背景视图可通过在背景视图模型MBG上进行视图变换TBG,k来得到,并被表示为TBG,kMBG
合成视图模型MFGBG通过等式(35)而得到。
M FGBG = T BG , k M BG ⊕ T FG , k M FG - - - ( 35 )
在等式(35)中的操作符
Figure BDA0000146612420000492
表示两个特征点集合的相加计算。也就是说,图像特征和合成视图模型二者包括有关特征点的位置的信息。相应地,合成视图模型MFGBG是通过将由所估计的前景视图TFG,kMFG指示的特征点的集合与由所估计的背景视图TBG,kMBG指示的特征点的集合相加而得到的。
在此,如上所述,由于假定前景被平移为被扩展或缩小,因此,等式(35)的视图变换TFG,k用等式(36)的仿射变换来表示.
T FG , k = s 1 FG , k 0 u FG , k 0 s 2 FG , k v FG , k 0 0 0 - - - ( 36 )
另外,如上所述,由于在此假定背景仅被平移,因此,等式(35)的视图变换TBG,k用等式(37)的仿射变换来表示。
T BG , k = 1 0 u BG , k 0 1 v BG , k 0 0 0 - - - ( 37 )
前景背景合成观察单元103通过等式(38)和等式(39)来计算在时间s处的合成视图模型MFGBG的似然性P(Xs|MFGBG)。
P(Xs|TBG,k,TFG,k)=P(Xs|MFGBG)(38)
P ( X s | T BG , k , T FG , k ) = P ( X s | M FGBG ) = 1 D exp ( - Σ i , j C FGBG , s ( x s , i - ( m FGBG , j ) ) 2 2 σ 2 ) - - - ( 39 )
在等式(39),σ和D是预先确定的参数。在等式(39),CFGBG,s表示输入图像序列中在时间s处的图像的特征点与合成视图模型MFGBG的特征点之间的对应关系。通过等式(39)得到的似然性被用作估计值。
此时,例如,以下面的方式来确定输入图像序列中在时间s处的图像的特征点与合成视图模型MFGBG的特征点之间的对应关系。也就是说,通过组合优化算法的拍卖算法(auction algorithm)来选择特征点对,使得彼此对应的特征点对之间的距离作为一个整体被缩短。
下列文献详细披露了拍卖算法:Kubo Mikio和Matsui Tosiki所著的″Combin ation Optimization[collection of short articles],Chapter 3Assignment Problem″(ISBN 978-4-254-12617-4C3341,Asakura出版社,1999年1月10日)。
如上所述,基于彼此对应的特征点对之间的距离的似然性用by等式(38)和等式(39)来计算。
接下来,描述前景和背景视图变换。
关于前景视图变换,视图变换估计单元114和视图变换运动估计单元115执行如下的视图变换估计。
准备粒子滤波器,其中基于平移、扩展和缩小的假定的视图变换TFG,k的4个参数被用作特征量。在此,这4个参数对应于上述等式(36)的右边的矩阵中的位于第一行和第一列的分量、位于第一行和第三列的分量、位于第二行和第二列的分量以及位于第二行和第三列的分量。由于指定前景视图变换的4个参数的组合可对应于粒子滤波器的各个粒子,因此,通过指定一个粒子来指定一个视图变换。.
如在第二具体示例中描述的,利用粒子滤波器进行的视图变换估计是通过计算在给定时间的视图变换的后验概率并计算在随后的时间的视图变换的后验概率来进行的。
在给定时间(时间s)的视图变换的后验概率可用此时采样的粒子的后验概率w(1) s来表示。在时间s处采样的粒子的后验概率可基于与在时间s处的视图变换关联的似然性来计算。另外,如上所述,视图变换估计单元114基于由前景背景合成观察单元103计算的估计值来计算与视图变换关联的似然性。
用于采样在随后的时间(时间s+1)的视图变换的概率是基于在时间s处采样的粒子的后验概率w(1) s以及状态更新规则F(T(1) s+1,k|Ts,k)来计算的。
视图变换运动估计单元115针对每种视图变换(4个参数的组合)来计算在时间s+1处的视图变换的后验概率。例如,当视图变换估计单元114输出视图变换的候选时,基于在时间s+1处的视图变换的后验概率通过要输出的多个候选来选择并输出视图变换。
这样,利用所估计的视图变换的候选在前景视图模型上进行了视图变换。
关于背景视图变换,视图变换估计单元124和视图转变估计单元125执行如下的视图转变估计。
准备了粒子滤波器,其中假定平移的视图变换TBG,k两个参数被用作状态量。在此,这两个参数对应于上述等式(37)右边的矩阵中的位于第一行和第三列的分量以及位于第二行和第三列的分量。
如同前景视图变换中一样,计算在随后的时间采样的粒子的后验概率,并基于该后验概率输出每一视图变换作为候选。
这样,利用所估计的视图变换的候选在前景视图模型上进行了视图变换。
接下来,将描述视图模型学习。
视图模型视图转变学习单元111如下所述的计算前景视图模型的视图模型参数。
也就是说,视图模型学习单元111通过等式(40)基于以上述方式得到的视图变换的后验概率来计算视图模型MFG的视图模型参数。
M FG = 1 S Σ s = 1 S Σ k = 1 N T P ( T FG , k | X s ) · T FG , k - 1 C X , FGBG , s X s - - - ( 40 )
在等式(40),在前景视图模型上进行的视图变换被表示为TFG,k,并且存在总共NT个视图变换。
另外,视图模型学习单元121如下所述地计算背景视图模型的视图模型参数。
也就是说,视图模型学习单元121基于以上述方式计算的视图变换的后验概率用等式(41)来计算视图模型MBG的视图模型参数。
M BG = 1 S Σ s = 1 S Σ k = 1 N T P ( T BG , k | X s ) · T BG , k - 1 C X , FGBG , s X s - - - ( 41 )
在等式(41),在背景视图模型上进行的视图变换被表示为TBG,k,并且存在总共NT个视图变换。
图26到28的图示出在第三具体示例中的视图模型学习。
在第三具体示例中,如图26所示,在前景视图模型MFG上进行视图变换TFG,k。该视图模型被视为所估计的前景视图。另外,在背景视图模型MBG上进行视图变换TBG,k。该视图模型被视为所估计的背景视图。
在该示例中,图中的左上部示出的矩形内示出了多个点,作为前景视图模型MFG。各个点为形成前景视图模型的特征点。
在该示例中,图中的左下部示出的矩形内示出了多个点,作为背景视图模型MBG。各个点为形成背景视图模型的特征点。
然后,所估计的前景视图和所估计的背景视图被合成,以形成合成视图模型MFGBG,k。如上所述,合成视图模型是通过将所估计的前景视图中的特征点的集合与所估计的背景视图中的特征点的集合相加而得到的。在该示例中,在图中的中右部所示的矩形内示出多个点,作为合成视图模型MFGBG,k。这些点是形成合成视图模型的特征点。
不同于第一和第二具体示例,在第三具体示例中,局部特征量被用于图像特征或视图模型参数。相应地,与第一和第二具体示例相比,即使针对环境中诸如照明条件等的变化,也能够进行鲁棒的识别。结果,例如,能够实现能以高速和较低的开销来学习和识别图像的设备。
图27和28的图示出第三具体示例中通过输入图25所示的输入图像序列、学习前景视图模型和背景视图模型以及识别图像而得到的结果。
在图27和28,被识别为前景和背景的特征点的点被显示为图中交叉形状或图中圆形的绘制点。在图27和28,显示在图中左侧(前景估计)的图像中的用交叉形状等表示的绘制点为作为前景的特征点来学习和识别(估计)的点。在图27和28,显示在图中右侧(背景估计)的图像中的用圆形等表示的绘制点为作为背景的特征点来学习和识别(估计)的点。
图27示出在学习的早期阶段中通过识别图像而得到的结果,并且图28示出在充分学习后通过识别图像而得到的结果。
如图27所示,在学习的早期阶段中,例如,在所估计的前景图像中背景的一部分被绘制为前景的特征点,因此,背景的该部分被错误地识别为前景。也就是说,应理解,在学习的早期阶段中不能适当地识别背景和前景。
然而,如图28所示,应理解,在充分学习之后几乎适当地识别了背景和前景。也就是说,根据图28所示的识别结果可以理解,获得了合成视图模型,其中,可以几乎正确地绘制出输入图像中的前景的特征量和背景的特征点。
至此已经描述了应用了根据本技术的第一、第二和第三具体示例的图像处理设备中的具体视图模型学习和图像识别的示例。
当然,实质上可以实施除了上述示例之外的具体示例。例如,可实现用多视图模型来学习前景并用多视图模型来学习背景的具体示例。例如,可实现假定前景的运动为平移、扩展及缩小且假定背景的运动为平移、扩展及缩小的具体示例。
或者,可假定转动或投影等作为前景和背景的运动。
这样,可以用各种形式来修改根据本技术的实施例的视图模型学习以及利用该学习结果进行的图像识别。可参考上述具体示例来实现其他具体示例。相应地,所述具体示例可以用相同的方式来披露。
另外,至此已经描述了一个目标(例如笔记本类型的个人计算机)作为前景来学习和识别并且一个目标(例如桌子或书籍)作为背景来学习和识别的示例。然而,例如,可将多个目标作为前景来学习和识别斌可将多个目标作为背景来学习和识别。
至此已经描述了将本技术的实施例应用到图像识别的示例。然而,例如,本技术的实施例可应用于传感器信息,而不是图像。例如,本技术的实施例可应用到诸如利用压力传感器的触觉传感器等的传感器信息。
上述处理序列可以用硬件或软件来执行。当上述处理序列用软件来执行时,该软件的程序被安装到嵌入专用硬件的计算机或者能够通过从网络或记录介质中安装各种程序来执行各种功能的通用个人计算机700(如图29所示)中。
在图29,CPU(中央处理单元)701根据存储于ROM(只读存储器)702中的程序或者从存储单元708加载到RAM(随机存取存储器)703上的程序来执行各种处理。在RAM 703中不仅适当地存储有CPU 701执行的各种程序,还存储有所需的数据等。
CPU 701、ROM 702以及RAM 703通过总线704彼此互连。总线704还连接到输入/输出接口705。
输入单元706(配置为键盘或鼠标等)、输出单元707(配置为扬声器或显示器等)、存储单元708(配置为硬盘等)以及通信单元709(配置为网络接口卡,如调制解调器或LAN卡)连接到输入/输出接口705。通信单元709通过包括互联网的网络进行通信。
驱动器710根据需要连接到输入/输出接口705。以适当的方式来安装可拆卸介质711(如磁盘、光盘、磁光盘或者半导体存储器等),使得从所安装的可拆卸介质711中读出的计算机程序可根据需要而被安装于存储单元708中。
当上述处理序列通过软件来执行时,从诸如互联网等网络或者诸如可拆卸介质711等记录介质中安装该软件的程序。
记录介质包括可拆卸介质711,如磁盘(包括软盘(注册商标))、光盘(包括CD-ROM(致密盘-只读存储器)和DVD(数字通用盘))、磁光盘(包括MD(微小盘)(注册商标))或者半导体存储器等,该介质存储程序并被分发以将程序给予远离图29所示的设备主体的用户。记录介质还包括在ROM 702或存储单元708中包括的硬盘,其存储程序并以嵌入在设备主体的方式而被递送到用户。
在本说明书中,上述处理序列不仅包括以上述的顺序按照时间顺序进行的处理,还包括平行或以独立的方式执行的程序(不必按照时间顺序来执行)。
本技术的实施例不限于上述实施例,而是可以在本技术的范围内用各种形式来修改,而不脱离本技术的核心。
本技术的实施例可以如下所述地实施。
(1)一种图像处理设备包括:图像特征输出单元,用于与帧时间对应地输出图像特征中的每一个,所述图像特征被形成作为输入活动图像数据中的每一帧的图像的多个特征点中的特征;前景估计单元,用于通过在前景视图模型上进行作为几何变换的视图变换来估计时间s处的前景图像,并且输出所估计的前景视图,其中,所述前景视图模型具有所述图像中的前景的图像特征,作为与所述时间s处的图像特征有关的参数;背景估计单元,用于通过在背景视图模型上进行作为几何变换的视图变换来估计所述时间s处的背景图像,并输出所估计的背景视图,所述背景视图模型具有所述图像中的背景的图像特征,作为与所述时间s处的图像特征有关的参数;合成视图生成单元,用于通过合成所估计的前景视图和所估计的背景视图来生成合成视图;前景学习单元,用于基于通过在所述合成视图和所述时间s处的图像特征之间进行比较而得到的估计值并通过基于随机生成模型来更新所述前景视图模型的参数,来学习所述前景视图模型;以及背景学习单元,用于基于所述估计值、通过基于随机生成模型来更新所述背景视图模型的参数,来学习所述背景视图模型。
(2)在(1)中所述的图像处理设备中,所述前景估计单元和所述背景估计单元中的每一个基于所述估计值来计算多个视图变换中的每一个的后验概率,基于所述图像特征和所述后验概率来估计该视图变换,以及通过在所述视图模型上进行所述视图变换来分别输出所估计的前景视图和所估计的背景视图。
(3)在(1)或(2)中所述的图像处理设备中,所述前景学习单元和所述背景学习单元中的每一个基于根据所述估计值来计算的每一视图变换的后验概率,对经过多次视图变换的视图模型的参数进行加权,基于加权的参数来分别更新所述前景视图模型的参数和所述背景视图模型的参数。
(4)在(1)到(3)中的任一项所述的图像处理设备中,所述视图模型被配置为通过多个视图模型而形成的多视图模型,所述多个视图模型与通过以不同的角度来观看所述前景和所述背景中的每一个而得到的图像对应。
(5)在(1)到(4)中的任一项所述的图像处理设备中,所述前景视图模型和所述背景视图模型之一被配置为通过多个视图模型而形成的多视图模型,所述多个视图模型与通过以不同的角度来观看所述前景和所述背景中的每一个而得到的图像对应。
(6)在(4)或(5)中所述的图像处理设备中,所述前景估计单元和所述背景估计单元中的每一个基于所述估计值来计算所述多个视图模型中的每一个的后验概率,基于所述图像特征和所述后验概率来估计所述视图变换,以及通过在所估计的与转变对应的视图模型上进行所述视图变换,来输出所估计的前景视图和所估计的背景视图。在计算所述视图模型的后验概率时,使用HMM、FNN、RNN、粒子滤波器和卡尔曼滤波器中的一个作为基于视图转变来估计先验概率的动态学习估计模型。
(7)在(6)中所述的图像处理设备中,所述前景估计单元和所述背景估计单元中的每一个基于所述估计值来计算多个视图变换中的每一个的后验概率,以及基于所述图像特征和所述后验概率来估计该视图变换。
(8)在(4)或(7)中所述的图像处理设备中,所述和前景学习单元和所述背景学习单元中的每一个基于根据所述估计值而计算的每一转变的后验概率,对与多个转变对应的视图模型的参数进行加权,基于根据所述估计值而计算的、每一视图变换的后验概率,对经过多个视图变换的视图模型的参数进行加权,以及基于经加权的参数来分别更新所述前景视图模型的参数和所述背景视图模型的参数。
(9)在(1)到(8)中的任一项所述的图像处理设备中,在计算所述随机生成模型中的视图变换的后验概率时,使用HMM、FNN、RNN、粒子滤波器和卡尔曼滤波器中的一个作为基于视图变换运动来估计先验概率的动态学习估计模型。
(10)在(1)到(9)中的任一项所述的图像处理设备中,在所述前景学习单元中使用的随机生成模型不同于在所述背景学习单元中使用的随机生成模型。
(11)在(1)到(10)中的任一项所述的图像处理设备中,所述图像特征输出单元输出每一像素的像素位置和像素值彼此对应的信息,作为所述图像特征。
(12)在(1)到(10)中的任一项所述的图像处理设备中,所述图像特征输出单元输出利用哈里斯角点检测方法而检测到的特征点位置集合,作为所述图像特征。
(13)一种图像处理方法包括:由图像特征输出单元来与帧时间对应地输出图像特征中的每一个,所述图像特征被形成作为输入活动图像数据中的每一帧的图像的多个特征点中的特征;由前景估计单元通过在前景视图模型上进行作为几何变换的视图变换来估计时间s处的前景图像,并且输出所估计的前景视图,所述前景视图模型具有所述图像中的前景的图像特征,作为与所述时间s处的图像特征有关的参数;由背景估计单元通过在背景视图模型上进行作为几何变换的视图变换来估计所述时间s处的背景图像,并输出所估计的背景视图,所述背景视图模型具有所述图像中的背景的图像特征,作为与所述时间s处的图像特征有关的参数;由合成视图生成单元通过合成所估计的前景视图和所估计的背景视图来生成合成视图;由前景学习单元基于通过在所述合成视图和所述时间s处的图像特征之间进行比较而得到的估计值并通过基于随机生成模型来更新所述前景视图模型的参数,来学习所述前景视图模型;以及由背景学习单元基于通过基于随机生成模型来更新所述背景视图模型的参数而得到的估计值,来学习所述背景视图模型。
(14)一种程序使得计算机作为图像处理设备来工作,该图像处理设备包括:图像特征输出单元,用于与帧时间对应地输出图像特征中的每一个,所述图像特征被形成作为输入活动图像数据中的每一帧的图像的多个特征点中的特征;前景估计单元,用于通过在前景视图模型上进行作为几何变换的视图变换来估计时间s处的前景图像,并且输出所估计的前景视图,所述前景视图模型具有所述图像中的前景的图像特征,作为与所述时间s处的图像特征有关的参数;背景估计单元,用于通过在背景视图模型上进行作为几何变换的视图变换来估计所述时间s处的背景图像,并输出所估计的背景视图,所述背景视图模型具有所述图像中的背景的图像特征,作为与所述时间s处的图像特征有关的参数;合成视图生成单元,用于通过合成所估计的前景视图和所估计的背景视图来生成合成视图;前景学习单元,用于基于通过在所述合成视图和所述时间s处的图像特征之间进行比较而得到的估计值并通过基于随机生成模型来更新所述前景视图模型的参数,来学习所述前景视图模型;以及背景学习单元,用于基于通过基于随机生成模型来更新所述背景视图模型的参数而得到的估计值,来学习所述背景视图模型。
(15)一种记录介质,用于存储(14)中所述的程序。
本公开包含与2011年3月31日提交于日本专利局的日本优先权专利申请JP 2011-077696中披露的主题相关的主题,该日本申请的所有内容通过引用合并于此。
本领域的技术人员应理解,根据设计需求或者其他因素可以进行各种修改、组合、子组合和变更,只要这些修改、组合、子组合和变更在所附权利要求及其等同的范围内即可。

Claims (15)

1.一种图像处理设备,包括:
图像特征输出单元,用于与帧时间对应地输出图像特征中的每一个,所述图像特征被形成作为输入活动图像数据中的每一帧的图像的多个特征点中的特征;
前景估计单元,用于通过在前景视图模型上进行作为几何变换的视图变换来估计时间s处的前景图像,并且输出所估计的前景视图,其中,所述前景视图模型具有所述图像中的前景的图像特征,作为与所述时间s处的图像特征有关的参数;
背景估计单元,用于通过在背景视图模型上进行作为几何变换的视图变换来估计所述时间s处的背景图像,并输出所估计的背景视图,所述背景视图模型具有所述图像中的背景的图像特征,作为与所述时间s处的图像特征有关的参数;
合成视图生成单元,用于通过合成所估计的前景视图和所估计的背景视图来生成合成视图;
前景学习单元,用于基于通过在所述合成视图和所述时间s处的图像特征之间进行比较而得到的估计值并通过基于随机生成模型来更新所述前景视图模型的参数,来学习所述前景视图模型;以及
背景学习单元,用于基于所述估计值、通过基于随机生成模型来更新所述背景视图模型的参数,来学习所述背景视图模型。
2.根据权利要求1所述的图像处理设备,其中,所述前景估计单元和所述背景估计单元中的每一个
基于所述估计值来计算多个视图变换中的每一个的后验概率,
基于所述图像特征和所述后验概率来估计该视图变换,以及
通过在所述视图模型上进行所述视图变换来分别输出所估计的前景视图和所估计的背景视图。
3.根据权利要求1所述的图像处理设备,其中,所述前景学习单元和所述背景学习单元中的每一个
基于根据所述估计值来计算的每一视图变换的后验概率,对经过多次视图变换的视图模型的参数进行加权,
基于加权的参数来分别更新所述前景视图模型的参数和所述背景视图模型的参数。
4.根据权利要求1所述的图像处理设备,其中,所述视图模型被配置为通过多个视图模型而形成的多视图模型,所述多个视图模型与通过以不同的角度来观看所述前景和所述背景中的每一个而得到的图像对应。
5.根据权利要求1所述的图像处理设备,其中,所述前景视图模型和所述背景视图模型之一被配置为通过多个视图模型而形成的多视图模型,所述多个视图模型与通过以不同的角度来观看所述前景和所述背景中的每一个而得到的图像对应。
6.根据权利要求4所述的图像处理设备,其中,所述前景估计单元和所述背景估计单元中的每一个
基于所述估计值来计算所述多个视图模型中的每一个的后验概率,
基于所述图像特征和所述后验概率来估计所述视图变换,以及
通过在所估计的与转变对应的视图模型上进行所述视图变换,来输出所估计的前景视图和所估计的背景视图,
其中,在计算所述视图模型的后验概率时,使用隐藏马尔科夫模型、前向神经网络、自递归神经网络、粒子滤波器和卡尔曼滤波器中的一个作为基于视图转变来估计先验概率的动态学习估计模型。
7.根据权利要求1所述的图像处理设备,其中,所述前景估计单元和所述背景估计单元中的每一个
基于所述估计值来计算多个视图变换中的每一个的后验概率,以及
基于所述图像特征和所述后验概率来估计该视图变换。
8.根据权利要求1所述的图像处理设备,其中,所述和前景学习单元和所述背景学习单元中的每一个
基于根据所述估计值而计算的每一转变的后验概率,对与多个转变对应的视图模型的参数进行加权,
基于根据所述估计值而计算的、每一视图变换的后验概率,对经过多个视图变换的视图模型的参数进行加权,以及
基于经加权的参数来分别更新所述前景视图模型的参数和所述背景视图模型的参数。
9.根据权利要求1所述的图像处理设备,其中,在计算所述随机生成模型中的视图变换的后验概率时,使用隐藏马尔科夫模型、前向神经网络、自递归神经网络、粒子滤波器和卡尔曼滤波器中的一个作为基于视图变换运动来估计先验概率的动态学习估计模型。
10.根据权利要求1所述的图像处理设备,其中,在所述前景学习单元中使用的随机生成模型不同于在所述背景学习单元中使用的随机生成模型。
11.根据权利要求1所述的图像处理设备,其中,所述图像特征输出单元输出每一像素的像素位置和像素值彼此对应的信息,作为所述图像特征。
12.根据权利要求1所述的图像处理设备,其中,所述图像特征输出单元输出利用哈里斯角点检测方法而检测到的特征点位置集合,作为所述图像特征。
13.一种图像处理方法,包括:
由图像特征输出单元来与帧时间对应地输出图像特征中的每一个,所述图像特征被形成作为输入活动图像数据中的每一帧的图像的多个特征点中的特征;
由前景估计单元通过在前景视图模型上进行作为几何变换的视图变换来估计时间s处的前景图像,并且输出所估计的前景视图,所述前景视图模型具有所述图像中的前景的图像特征,作为与所述时间s处的图像特征有关的参数;
由背景估计单元通过在背景视图模型上进行作为几何变换的视图变换来估计所述时间s处的背景图像,并输出所估计的背景视图,所述背景视图模型具有所述图像中的背景的图像特征,作为与所述时间s处的图像特征有关的参数;
由合成视图生成单元通过合成所估计的前景视图和所估计的背景视图来生成合成视图;
由前景学习单元基于通过在所述合成视图和所述时间s处的图像特征之间进行比较而得到的估计值并通过基于随机生成模型来更新所述前景视图模型的参数,来学习所述前景视图模型;以及
由背景学习单元基于通过基于随机生成模型来更新所述背景视图模型的参数而得到的估计值,来学习所述背景视图模型。
14.一种程序,该程序使得计算机作为图像处理设备来工作,该图像处理设备包括:
图像特征输出单元,用于与帧时间对应地输出图像特征中的每一个,所述图像特征被形成作为输入活动图像数据中的每一帧的图像的多个特征点中的特征;
前景估计单元,用于通过在前景视图模型上进行作为几何变换的视图变换来估计时间s处的前景图像,并且输出所估计的前景视图,所述前景视图模型具有所述图像中的前景的图像特征,作为与所述时间s处的图像特征有关的参数;
背景估计单元,用于通过在背景视图模型上进行作为几何变换的视图变换来估计所述时间s处的背景图像,并输出所估计的背景视图,所述背景视图模型具有所述图像中的背景的图像特征,作为与所述时间s处的图像特征有关的参数;
合成视图生成单元,用于通过合成所估计的前景视图和所估计的背景视图来生成合成视图;
前景学习单元,用于基于通过在所述合成视图和所述时间s处的图像特征之间进行比较而得到的估计值并通过基于随机生成模型来更新所述前景视图模型的参数,来学习所述前景视图模型;以及
背景学习单元,用于基于通过基于随机生成模型来更新所述背景视图模型的参数而得到的估计值,来学习所述背景视图模型。
15.一种记录介质,用于存储根据权利要求14所述的程序。
CN201210080952XA 2011-03-31 2012-03-23 图像处理设备、图像处理方法、程序和记录介质 Pending CN102737251A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011-077696 2011-03-31
JP2011077696A JP5645079B2 (ja) 2011-03-31 2011-03-31 画像処理装置および方法、プログラム、並びに記録媒体

Publications (1)

Publication Number Publication Date
CN102737251A true CN102737251A (zh) 2012-10-17

Family

ID=46927327

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210080952XA Pending CN102737251A (zh) 2011-03-31 2012-03-23 图像处理设备、图像处理方法、程序和记录介质

Country Status (3)

Country Link
US (1) US8849017B2 (zh)
JP (1) JP5645079B2 (zh)
CN (1) CN102737251A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107229941A (zh) * 2016-03-25 2017-10-03 本田技研工业株式会社 示教数据的生成方法
CN109949335A (zh) * 2017-12-20 2019-06-28 华为技术有限公司 一种图像处理方法及装置
CN109982088A (zh) * 2017-12-28 2019-07-05 华为技术有限公司 图像处理方法及装置
CN110148089A (zh) * 2018-06-19 2019-08-20 腾讯科技(深圳)有限公司 一种图像处理方法、装置及设备、计算机存储介质
CN110490950A (zh) * 2019-08-20 2019-11-22 腾讯科技(深圳)有限公司 图像样本生成方法、装置、计算机设备和存储介质
CN111742342A (zh) * 2018-03-12 2020-10-02 日立产业控制解决方案有限公司 图像生成方法、图像生成装置以及图像生成系统

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
PT2594077E (pt) 2010-07-15 2016-03-01 Ge Video Compression Llc Codificação de vídeo híbrida para suporte a síntese de visualização intermédia
US9015093B1 (en) 2010-10-26 2015-04-21 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US8775341B1 (en) 2010-10-26 2014-07-08 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
JP2013191163A (ja) * 2012-03-15 2013-09-26 Sony Corp 情報処理装置、情報処理方法、及び、プログラム
US10310068B2 (en) * 2014-12-08 2019-06-04 Northrop Grumman Systems Corporation Variational track management
CN104680140B (zh) * 2015-02-13 2017-10-31 电子科技大学 基于图像的人群聚集状态检测方法
US9916679B2 (en) * 2015-05-13 2018-03-13 Google Llc Deepstereo: learning to predict new views from real world imagery
JP6477907B2 (ja) * 2015-10-09 2019-03-06 株式会社Ihi 線分検出方法
US10216983B2 (en) * 2016-12-06 2019-02-26 General Electric Company Techniques for assessing group level cognitive states
US10445565B2 (en) * 2016-12-06 2019-10-15 General Electric Company Crowd analytics via one shot learning
KR102070956B1 (ko) * 2016-12-20 2020-01-29 서울대학교산학협력단 영상 처리 장치 및 방법
US10346721B2 (en) 2017-11-01 2019-07-09 Salesforce.Com, Inc. Training a neural network using augmented training datasets
CN108364316A (zh) * 2018-01-26 2018-08-03 阿里巴巴集团控股有限公司 交互行为检测方法、装置、系统及设备
KR102086042B1 (ko) * 2018-02-28 2020-03-06 서울대학교산학협력단 영상 처리 장치 및 방법
AU2018429247B2 (en) 2018-06-29 2022-07-07 Fujitsu Limited Specifying method, determination method, specifying program, determination program, and information processing apparatus
WO2020036389A1 (en) * 2018-08-13 2020-02-20 Lg Electronics Inc. Method for transmitting video, apparatus for transmitting video, method for receiving video, and apparatus for receiving video
JP7377048B2 (ja) 2019-09-30 2023-11-09 キヤノン株式会社 画像処理装置及び方法、及び撮像装置
CN111338532A (zh) * 2020-02-28 2020-06-26 珠海豹趣科技有限公司 一种形状特效的显示方法、装置及计算机可读存储介质
US11800056B2 (en) 2021-02-11 2023-10-24 Logitech Europe S.A. Smart webcam system
US11800048B2 (en) 2021-02-24 2023-10-24 Logitech Europe S.A. Image generating system with background replacement or modification capabilities

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1345430A (zh) * 1999-12-28 2002-04-17 索尼公司 信号处理方法与设备以及记录介质
CN1459080A (zh) * 2001-02-01 2003-11-26 索尼公司 图像处理装置
CN1465196A (zh) * 2001-06-27 2003-12-31 索尼公司 图像处理设备和方法、以及图像拍摄设备
JP2008026974A (ja) * 2006-07-18 2008-02-07 Mitsubishi Electric Corp 人物追跡装置
US20080253610A1 (en) * 2007-04-10 2008-10-16 Denso Corporation Three dimensional shape reconstitution device and estimation device
CN101587586A (zh) * 2008-05-20 2009-11-25 株式会社理光 一种图像处理装置及图像处理方法
CN101631189A (zh) * 2008-07-15 2010-01-20 鸿富锦精密工业(深圳)有限公司 图像合成系统及方法
CN102446352A (zh) * 2011-09-13 2012-05-09 深圳市万兴软件有限公司 视频图像处理方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003143473A (ja) * 2001-10-31 2003-05-16 Nippon Hoso Kyokai <Nhk> 背景画像生成装置およびそのプログラム
US7024054B2 (en) * 2002-09-27 2006-04-04 Eastman Kodak Company Method and system for generating a foreground mask for a composite image
US8903167B2 (en) * 2011-05-12 2014-12-02 Microsoft Corporation Synthesizing training samples for object recognition

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1345430A (zh) * 1999-12-28 2002-04-17 索尼公司 信号处理方法与设备以及记录介质
CN1459080A (zh) * 2001-02-01 2003-11-26 索尼公司 图像处理装置
CN1465196A (zh) * 2001-06-27 2003-12-31 索尼公司 图像处理设备和方法、以及图像拍摄设备
JP2008026974A (ja) * 2006-07-18 2008-02-07 Mitsubishi Electric Corp 人物追跡装置
US20080253610A1 (en) * 2007-04-10 2008-10-16 Denso Corporation Three dimensional shape reconstitution device and estimation device
CN101587586A (zh) * 2008-05-20 2009-11-25 株式会社理光 一种图像处理装置及图像处理方法
CN101631189A (zh) * 2008-07-15 2010-01-20 鸿富锦精密工业(深圳)有限公司 图像合成系统及方法
CN102446352A (zh) * 2011-09-13 2012-05-09 深圳市万兴软件有限公司 视频图像处理方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MICHALIS K.TITSIAS等: "Unsupervised Learning of Multiple Aspects of Moving Objects from Video", 《ADVANCES IN INFORMATICS》 *
陶焜等: "体育视频全景图合成技术", 《计算机辅助设计与图形学报》 *
黄静等: "基于二值掩码图像的图像合成方法及其应用", 《计算机辅助设计与图形学学报》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107229941A (zh) * 2016-03-25 2017-10-03 本田技研工业株式会社 示教数据的生成方法
CN107229941B (zh) * 2016-03-25 2020-11-27 本田技研工业株式会社 示教数据的生成方法
CN109949335A (zh) * 2017-12-20 2019-06-28 华为技术有限公司 一种图像处理方法及装置
CN109949335B (zh) * 2017-12-20 2023-12-08 华为技术有限公司 一种图像处理方法及装置
CN109982088A (zh) * 2017-12-28 2019-07-05 华为技术有限公司 图像处理方法及装置
CN109982088B (zh) * 2017-12-28 2021-07-16 华为技术有限公司 图像处理方法及装置
CN111742342A (zh) * 2018-03-12 2020-10-02 日立产业控制解决方案有限公司 图像生成方法、图像生成装置以及图像生成系统
CN110148089A (zh) * 2018-06-19 2019-08-20 腾讯科技(深圳)有限公司 一种图像处理方法、装置及设备、计算机存储介质
CN110148089B (zh) * 2018-06-19 2024-04-23 腾讯科技(深圳)有限公司 一种图像处理方法、装置及设备、计算机存储介质
CN110490950A (zh) * 2019-08-20 2019-11-22 腾讯科技(深圳)有限公司 图像样本生成方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
US20120250982A1 (en) 2012-10-04
US8849017B2 (en) 2014-09-30
JP5645079B2 (ja) 2014-12-24
JP2012212322A (ja) 2012-11-01

Similar Documents

Publication Publication Date Title
CN102737251A (zh) 图像处理设备、图像处理方法、程序和记录介质
Pishchulin et al. Articulated people detection and pose estimation: Reshaping the future
Song et al. Body surface context: A new robust feature for action recognition from depth videos
Zhu et al. Evaluating spatiotemporal interest point features for depth-based action recognition
Lee et al. Coupled visual and kinematic manifold models for tracking
JP2009514109A (ja) 人体モーションの追跡に関する判別モーションモデリング
Uddin et al. Human activity recognition using body joint‐angle features and hidden Markov model
EP2249286A1 (en) Robot with vision-based 3D shape recognition
Etemad et al. Classification and translation of style and affect in human motion using RBF neural networks
Gao et al. A data-driven robotic Chinese calligraphy system using convolutional auto-encoder and differential evolution
Uddin et al. Human Activity Recognition via 3-D joint angle features and Hidden Markov models
CN106355204B (zh) 基于贝叶斯学习和增量子空间学习的目标跟踪方法
CN103985143A (zh) 基于字典学习的视频中判别性在线目标跟踪方法
CN106682585A (zh) 一种基于kinect2的动态手势识别方法
Bilen et al. Object and action classification with latent variables
CN108154176B (zh) 一种针对单一深度图像的3d人体姿态估计算法
Zhang et al. Arbitrary view action recognition via transfer dictionary learning on synthetic training data
Angelopoulou et al. Evaluation of different chrominance models in the detection and reconstruction of faces and hands using the growing neural gas network
Appenrodt et al. Multi stereo camera data fusion for fingertip detection in gesture recognition systems
Sabbaghi et al. Learning of gestures by imitation using a monocular vision system on a humanoid robot
Oikonomopoulos et al. Trajectory-based representation of human actions
JP2010271787A (ja) 特徴量生成装置、特徴量生成方法および特徴量生成プログラム、ならびにクラス判別装置、クラス判別方法およびクラス判別プログラム
Liu et al. Robust hand tracking with Hough forest and multi-cue flocks of features
Wang et al. Synthesizing trees by plantons
John et al. Multiple view human articulated tracking using charting and particle swarm optimisation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20121017