CN101393605B

CN101393605B - 图像处理设备和图像处理方法

Info

Publication number: CN101393605B
Application number: CN2008102115305A
Authority: CN
Inventors: 鹤见辰吾
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2007-09-18
Filing date: 2008-09-17
Publication date: 2012-07-11
Anticipated expiration: 2028-09-17
Also published as: CN101393605A; JP2009070314A; US9098770B2; US20130170703A1; US8379986B2; DE602008000955D1; US20090092336A1; US9968845B2; EP2040221A1; JP4636064B2; US20150294469A1; EP2040221B1

Abstract

本发明涉及一种图像处理设备和图像处理方法。图像处理设备包括：获取单元，被配置为获取拍摄图像；识别单元，被配置为从拍摄图像中识别与预先注册的注册图像相对应的对象；以及检测单元，被配置为基于与从拍摄图像中识别出的对象相对应的注册图像，检测另一个对象与对应于注册图像的对象相重叠的区域。

Description

图像处理设备和图像处理方法

相关申请的交叉引用

本发明包含关于2007年9月18日在日本专利局提交的日本专利申请JP2007-240497的主题，其全部内容通过引用包含于此。

技术领域

本发明涉及一种图像处理设备和图像处理方法，尤其涉及一种可以在从拍摄的图像中识别出的对象的任意位置处检测与另一个对象的重叠的图像处理设备和图像处理方法。

背景技术

迄今为止，已经提出一种信息处理设备，其识别包括在拍摄图像中的印刷于卡片上的引导部分，利用该引导部分的位置作为参考，确定形成有值可变的可变区域代码的可变区域的位置，获取其可变区域的哪个部分被隐藏，并基于该部分执行命令(例如，参见日本未审专利申请公报第2006-171958号)。

发明内容

然而，应当指出，利用上述信息处理设备，用于从拍摄图像中识别卡片的引导部分和检测出隐藏的可变区域被分开设置，并且仅从可变区域检测隐藏，因此，不能检测出卡片上任意位置的隐藏。其结果是，难以为用户提供各种用户接口。

已经认识到存在这样的需要，使得能够检测在从拍摄图像中识别出的对象的任意位置处与另一个对象的重叠。

根据本发明实施例，一种处理设备，包括：获取单元，被配置为获取拍摄图像；识别单元，被配置为从拍摄图像中识别与预先注册的注册图像相对应的对象；以及检测单元，被配置为基于与从拍摄图像中识别出的对象相对应的注册图像，检测另一个对象与对应于注册图像的对象相重叠的区域。

该图像处理设备还可以包括发出单元，被配置为发出与重叠区域相对应的命令。

该图像处理设备还可以包括：显示控制单元，被配置为显示拍摄图像；显示控制单元将与命令相对应的图标显示在拍摄图像内与注册图像相对应的对象上；以及发出单元发出与显示在重叠区域上的图标相对应的命令。

显示控制单元可以将与命令相对应的图标显示在与注册图像相对应的对象的、对象被第一次识别时拍摄图像重叠的区域之外的区域上。

检测单元可以从拍摄图像内与注册图像相对应的对象区域中，检测作为接近所述另一个对象的亮度的亮度区域的亮度近似区域；显示控制单元将与命令相对应的图标显示在与注册图像相对应的对象的、亮度近似区域之外的区域上。

与注册图像相对应的对象可以包括与命令相对应的标记；发出单元发出与存在于重叠区域上的标记相对应的命令。

图像处理设备还可以包括校正单元，被配置为校正拍摄图像内与注册图像相对应的对象的亮度以及注册图像的亮度中的至少一个，使得拍摄图像内与注册图像相对应的对象的亮度与注册图像的亮度相同；检测单元基于拍摄图像内与注册图像相对应的对象的亮度和注册图像的亮度之间的差检测重叠区域，拍摄图像内的对象的亮度和注册图像的亮度中的至少一个已经由校正单元校正。

图像处理设备还可以包括：第一指定区域跟踪单元，被配置为执行第一指定区域跟踪处理，第一指定区域跟踪处理用于跟踪基于识别单元的识别结果指定的拍摄图像内的第一指定区域；以及第二指定区域跟踪单元，被配置为执行第二指定区域跟踪处理，第二指定区域跟踪处理用于跟踪基于作为第一指定区域跟踪处理的结果获得的对象参数指定的拍摄图像内的第二指定区域；检测单元基于拍摄图像内基于作为第二指定区域跟踪处理的结果获得的对象参数的区域的图像以及与从拍摄图像中识别出的对象相对应的注册图像，检测重叠区域。

根据本发明的实施例，一种图像处理方法，包括步骤：获取拍摄图像；从拍摄图像中识别与预先注册的注册图像相对应的对象；以及基于与从拍摄图像中识别出的对象相对应的注册图像，检测另一个对象与对应于注册图像的对象相重叠的区域。

根据本发明的实施例，上述图像处理方法还包括步骤：执行第一指定区域跟踪处理，第一指定区域跟踪处理用于跟踪基于识别的结果指定的拍摄图像内的第一指定区域；以及执行第二指定区域跟踪处理，第二指定区域跟踪处理用于跟踪基于作为第一指定区域跟踪处理的结果获得的对象参数指定的拍摄图像内的第二指定区域，其中，基于拍摄图像内基于作为第二指定区域跟踪处理的结果获得的对象参数的区域的图像以及与从拍摄图像中识别出的对象相对应的注册图像，检测重叠区域。

根据本发明的实施例，获取拍摄图像；从拍摄图像中识别与注册图像相对应的对象；基于拍摄图像和与从拍摄图像中识别出的对象相对应的注册图像，检测在对应于注册图像的对象处另一个对象重叠的区域。

如上所述，根据本发明的实施例，可以在从拍摄图像中识别出的对象的任意位置检测出与另一个对象的重叠。

附图说明

图1是示出应用本发明的实施例的图像处理设备的总体图；

图2是示出图1所示的图像处理设备的配置例子的框图；

图3是示出图2所示的识别单元的实施例的配置的框图；

图4是用于说明图3所示的学习单元的学习处理的流程图；

图5是用于说明图3所示的学习单元的学习处理的流程图；

图6是用于说明分辨率图像的图；

图7是用于说明DoG滤波器的标度(scale)空间的图；

图8是用于说明特征点附近的浓度梯度方向的图；

图9是用于说明用于计算直方图频率的方法的图；

图10是示出方向直方图例子的图；

图11是示出方向直方图例子的图；

图12是示出方向直方图例子的图；

图13是用于说明特征量提取处理的图；

图14是示出重采样例子的图；

图15是用于说明一般对象识别处理和重叠检测处理的总体图；

图16是用于说明图像处理设备的处理的总体图；

图17是用于说明图2所示的图像处理设备的图像处理的流程图；

图18是用于说明图2所示的图像处理设备的图像处理的流程图；

图19是用于说明图标的布局的图；

图20是用于说明可以由图像处理设备提供的智能训练系统的图；

图21是用于说明可以由图像处理设备提供的智能训练系统的图；

图22是用于说明可以由图像处理设备提供的智能训练系统的图；

图23是用于说明图2所示的识别单元的一般对象识别处理的流程图；

图24是用于说明图2所示的识别单元的一般对象识别处理的流程图；

图25是用于说明图2所示的识别单元的一般对象识别处理的流程图；

图26是用于说明学习时和识别时的多重分辨率的图；

图27是用于说明特征量比较处理的图；

图28是用于说明内围层(inlier)和外围层(outlier)的图；

图29是用于说明估计处理的细节的流程图；

图30是用于说明估计处理的图；

图31是示出应用本发明的实施例的图像处理设备的另一个实施例的结构的框图；

图32是用于说明图31所示的图像处理设备的图像处理的流程图；

图33是用于说明图31所示的图像处理设备的图像处理的流程图；

图34是示出图31所示的指定区域跟踪单元的配置例子的框图；

图35是用于说明图31所示的指定区域跟踪单元的第一指定区域跟踪处理的流程图；

图36是用于说明光流(optical flow)的计算的图；

图37是用于说明代表仿射(representation affine)矩阵的图；

图38是用于说明代表仿射矩阵的图；

图39是示出图31所示的指定区域跟踪单元的配置例子的框图；

图40是用于说明图31所示的指定区域跟踪单元的第二指定区域跟踪处理的流程图；以及

图41是用于说明图31所示的图像处理设备的处理定时的图。

具体实施方式

在说明本发明的实施例之前，下面参考或不参考附图讨论在本发明的实施例中公开的权利要求的特征和特定要素之间的对应关系。本说明意欲保证支持所要求保护的发明的实施例在本说明书中得到描述。因此，即使下面实施例中的要素未被说明为涉及本发明的某一特征，这不一定意味着该要素不涉及权利要求中的该特征。相反，即使在这里要素被说明为涉及权利要求的某一特征，这不一定意味着该要素不涉及权利要求的其它特征。

根据本发明的实施例，用于从拍摄图像中识别与预先注册的注册图像相对应的对象的图像处理设备(例如图2所示的图像处理设备11)包括：获取单元(例如图2所示的图像获取单元21)，其被配置为获取拍摄图像；识别单元(例如图2所示的识别单元23)，其被配置为从拍摄图像中识别与注册图像相对应的对象；以及检测单元(例如图2所示的图像比较单元28)，其被配置为基于与从拍摄图像中识别出的对象相对应的注册图像来检测另一个对象与对应于注册图像的对象重叠的区域。

图像处理设备还可以包括发出单元(例如图2所示的命令发出单元30)，其被配置为发出与重叠区域相对应的命令。

图像处理设备还可以包括显示控制单元(例如图2所示的图像合成单元32)，其被配置为显示拍摄图像；其中显示控制单元在拍摄图像内与注册图像相对应的对象上显示与命令相对应的图标；并且发出单元发出与在重叠区域上显示的图标相对应的命令。

图像处理设备还可以包括校正单元(例如图2所示的图像校正单元27)，其被配置为校正拍摄图像内的对象的亮度和注册图像的亮度中的至少一个，使得拍摄图像内的对象的亮度与注册图像的亮度相同；其中检测单元基于拍摄图像内的对象的亮度和注册图像的亮度之间的差来检测重叠区域，其中拍摄图像内的对象的亮度和注册图像的亮度中的至少一个已经由校正单元进行了校正。

图像处理设备还可以包括：第一指定区域跟踪单元(例如图31所示的指定区域跟踪单元231)，其被配置为执行第一指定区域跟踪处理，用于跟踪基于识别单元的识别结果指定的第一指定区域；以及第二指定区域跟踪单元(例如图31所示的指定区域跟踪单元232)，其被配置为执行第二指定区域跟踪处理，用于跟踪基于第一指定区域跟踪处理的结果指定的第二指定区域；其中检测单元根据拍摄图像内基于第二指定区域跟踪处理的结果的区域的图像以及与从拍摄图像中识别出的对象相对应的注册图像来检测重叠区域。

根据本发明的实施例，用于从拍摄图像中识别与预先注册的注册图像相对应的对象的图像处理设备(例如图2所示的图像处理设备11)的图像处理方法包括如下步骤：获取拍摄图像(例如图17所示的步骤S112)；从拍摄图像中识别与注册图像相对应的对象(例如图17所示的步骤S113)；以及基于与从拍摄图像中识别出的对象相对应的注册图像检测另一个对象与对应于注册图像的对象重叠的区域(例如图18所示的步骤S121)。

下面，参考附图详细说明应用本发明的具体实施例。

图1示出应用了本发明的实施例的图像处理设备的总体图。设置在图1所示的图像处理设备11中的拍摄单元12对被摄体A进行拍摄。图像处理设备11在例如设置在图像处理设备11中的显示器等的图像显示单元33的整个屏幕上显示作为结果获得的被摄体A的拍摄图像。

现在，如图1所示，当被摄体A在手中持有预先注册的静止图像或运动图像的印刷物时(下文中，预先注册的静止图像或运动图像将被酌情称为“注册图像”)，图像处理设备11基于拍摄单元12拍摄的被摄体A的拍摄图像和注册图像识别拍摄图像内与注册图像相对应的对象(这里是注册图像的图像)的位置和姿势。随后，图像处理设备11基于识别出的位置和姿势在图像显示单元33上显示的拍摄图像内与注册图像相对应的对象(下文中酌情称为“目标对象”)的任意位置上显示用作用户接口的图标13。

随后，当被摄体A将他/她的手指等移动到注册图像的印刷物与在图像显示单元33上显示的图标13的位置相对应的位置时，图像处理单元11检测到拍摄图像内的目标对象与手指之间重叠，并基于重叠区域的位置发出与在该位置上显示的图标13相对应的命令。

如上所述，图像处理设备11基于拍摄图像和注册图像识别目标对象，对于目标对象，不需设置用于识别该目标对象的区域。此外，图像处理设备11检测拍摄图像内的目标对象与手指之间的重叠，从而可以在目标对象的任意位置设置用作用户接口的图标。其结果是，可以为用户提供各种用户接口。

图2是示出图1所示的图像处理设备11的结构例子的框图。图2所示的图像处理设备11包括拍摄单元12、图像获取单元21、线程建立单元22、识别单元23、注册图像字典注册单元24、结束判断单元25、几何变换单元26、图像校正单元27、图像比较单元28、命令判断单元29、命令发出单元30、图标生成单元31、图像合成单元32以及图像显示单元33。

拍摄单元12例如包括包含光电变换元件的视频摄像机并且对被摄体进行拍摄，所述光电变换元件用于将光学图像变换为电信号，例如是CCD(电荷耦合器件，Charge Coupled Device)、COMS(互补金属氧化物半导体，Complementary Metal-Oxide Semiconductor)传感器等。拍摄单元12将作为结果而获得的以帧为单位的拍摄图像提供给图像获取单元21作为输入图像。

图像获取单元21将从拍摄单元12提供的输入图像提供给线程建立单元22和图标生成单元31。响应于从图像获取单元21提供的输入图像，线程建立单元22将该输入图像提供给识别单元23，并建立一般对象识别线程，一般对象识别线程是用于识别输入图像内的目标对象的一般对象识别处理的线程。具体来说，线程建立单元22将从图像获取单元21提供的输入图像提供给识别单元23，并指示执行一般对象识别处理的识别单元23开始一般对象识别处理。

此外，响应于从结束判断单元25提供的表示图像处理设备11进行的图像处理结束的结束信息，线程建立单元22消除一般对象识别线程。具体来说，线程建立单元22指示识别单元23结束一般对象识别处理。

识别单元23基于从线程建立单元22提供的输入图像以及在注册图像字典注册单元24中注册的注册图像来执行一般对象识别处理。应当指出，该一般对象识别处理在线程建立单元22指示一般对象识别处理开始时开始并重复，直到指示一般对象识别处理结束为止。

此外，与作为一般对象识别处理的结果而获得的输入图像中包含的目标对象相对应，识别单元23将在注册图像字典注册单元24中注册的注册图像的ID(下文中称为“注册ID”)以及表示目标对象的输入图像的位置和姿势的对象参数提供给几何变换单元26和图像合成单元32。

另外，识别单元23基于注册ID将图标ID提供给图标生成单元31，图标ID是以与注册ID相关联的方式在注册图像字典注册单元24中注册的要布置在与注册ID相对应的目标对象上的图标的ID。此外，识别单元23基于一般对象识别处理的结果识别目标对象一次，然后在目标对象不能被识别出的情况下，将表示消除输入图像内的目标对象的消除信息提供给结束判断单元25。

利用注册图像字典注册单元24，注册了已经被变换了灰度、大小缩小并进行了去阴影处理的注册图像(下文中称为处理后的注册图像)、未处理的注册图像、注册图像特征量组、图标ID等。

响应于从识别单元23提供的消除信息或从命令发出单元30提供的命令，结束判断单元25判断图像处理是否结束。响应于判断结果，结束判断单元25将结束信息提供给线程建立单元22。

几何变换单元26根据从识别单元23提供的对象参数确定作为输入图像内的目标对象所在的区域的对象区域，并对作为该对象区域的图像的对象区域进行几何变换。因此，对象区域的图像的姿势变成与注册图像相同的姿势。几何变换单元26将从识别单元23提供的注册ID和几何变换后的对象区域图像提供给图像校正单元27。

图像校正单元27基于从几何变换单元26提供的注册ID获得以与注册ID相关联的方式在注册图像字典注册单元24中注册的处理后的注册图像。此外，图像校正单元27将从几何变换单元26提供的对象区域图像变换灰度，并将变换后的对象区域图像的大小改变为与处理后的注册图像的大小相同的大小。

此外，图像校正单元27采用处理后的注册图像的亮度值(下文中酌情称为“注册亮度值”)以及灰度变换和大小变换之后的对象区域图像的亮度值(下文中酌情称为“对象亮度值”)来校正注册亮度值，使得注册亮度值与对象亮度值一致。图像校正单元27将校正了注册亮度值之后的处理后的注册图像以及灰度变换和大小变换之后的对象区域图像提供给图像比较单元28。

图像比较单元28基于从图像校正单元27提供的处理后的注册图像的注册亮度值与对象区域图像的对象亮度值之间的差判断目标对象是否与另一个对象重叠。此外，图像比较单元28检测作为目标对象与另一个对象重叠的区域的重叠区域的位置，并将作为表示该位置的信息的重叠位置信息提供给命令判断单元29和图标生成单元31。

此外，图像比较单元28采用对象区域图像来建立亮度图，并基于该亮度图从对象区域图像中提取亮度近似区域。应当指出，术语“亮度近似区域”意为与作为检测出与目标对象重叠的另一个对象(目标)的预先假设的对象(例如操作图标的手指)的亮度接近的亮度区域。图像比较单元28将提取的亮度近似区域提供给图标生成单元31。

基于从图像比较单元28提供的重叠位置信息以及从图标生成单元31提供的表示图标位置的图标位置信息，命令判断单元29检测包括在重叠区域中的图标。命令判断单元29将表示与检测到的图标相对应的命令的命令信息提供给命令发出单元30。

基于从命令判断单元29提供的命令信息，命令发出单元30发出用命令信息表示的命令。例如，命令发出单元30向图像合成单元32发出用于播放与目标对象相对应的注册图像的命令，或向结束判断单元25发出用于结束图像处理的命令。

基于从识别单元23提供的图标ID以及从图像比较单元28提供的重叠位置信息和亮度近似区域，图标生成单元31确定要布置在目标对象上的图标的位置。图标生成单元31将表示所确定的图标的位置的图标位置信息提供给命令判断单元29。此外，图标生成单元31将图标位置信息、图标ID以及从图像获取单元21提供的输入图像提供给图像合成单元32。

图像合成单元32与相应的图标ID相关联地存储图标图像。基于图标ID，图像合成单元32读出相应地存储的图标图像。此外，基于从图标生成单元31提供的图标位置信息，图像合成单元32将读取的图标图像合成(叠加)到从图标生成单元31提供的输入图像上以生成图标被布置在输入图像内的目标对象上的合成图像。

此外，基于从命令发出单元30提供的命令和从识别单元23提供的注册ID，图像合成单元32从注册图像字典注册单元24中读出作为与该注册ID相对应的注册图像的运动图像。基于读取的运动图像、从图标生成单元31提供的输入图像以及从识别单元23提供的对象参数，图像合成单元32合成输入图像和运动图像以生成合成图像，其中输入图像内的目标对象被改变为作为注册图像的运动图像。

另外，图像合成单元32将合成图像提供给图像显示单元33。图像显示单元33显示从图像合成单元32提供的合成图像。

图3是示出图2所示的识别单元23的详细配置例子的框图。识别单元23包括用于执行注册图像学习处理的学习单元111以及用于识别输入图像内的目标对象的识别单元112两个部件。

学习单元111包括多重分辨率生成单元121、特征点提取单元122以及特征量提取单元123。

多重分辨率生成单元121根据在注册图像字典注册单元24中注册的注册图像生成多重分辨率图像。特征点提取单元122从多重分辨率生成单元121生成的各多重分辨率图像中提取特征点。特征量提取单元123提取特征点提取单元122提取的每个特征点的特征量，将其特征量组提供给注册图像字典注册单元24，以与相应的注册ID相关联的方式注册该特征量组。

识别单元112包括多重分辨率生成单元131、特征点提取单元132、特征量提取单元133、kd树构造单元134、特征量比较单元135以及估计单元136。

多重分辨率生成单元131根据从线程建立单元22输入的输入图像生成多重分辨率图像。特征点提取单元132从多重分辨率生成单元131生成的各多重分辨率图像中提取特征点。特征量提取单元133提取特征点提取单元132提取的每个特征点的特征量。多重分辨率生成单元131、特征点提取单元132以及特征量提取单元133进行的处理与学习单元111的多重分辨率生成单元121、特征点提取单元122以及特征量提取单元123进行的处理相同。

kd树构造单元134根据在注册图像字典注册单元24中注册的特征量组构造kd树。特征量比较单元135将特征量提取单元133提取的特征量组和表示为kd树构造单元134构造的kd树的与作为识别目标的全部目标对象相对应的全部注册图像(或在对每个目标对象进行处理的情况下与每个目标对象相对应的每个注册图像)的特征量组进行比较。基于特征量比较单元135的比较结果，估计单元136估计包含在输入图像中的目标对象的存在及其位置和姿势，并输出表示其位置和姿势的对象参数以及与目标对象相对应的注册ID。

应当指出，学习单元111和识别单元112二者不必同时存在。对于学习单元111的学习结果，可以在图像处理设备11中实现其中注册必要信息的注册图像字典注册单元24。

接下来，参考图4和图5说明学习单元111处进行的学习处理。在用户指示开始学习处理时，该处理开始。应当指出，稍后将参考图23～图25说明识别单元112的一般对象识别处理。

多重分辨率生成单元121重复步骤S11～S27中的处理，直到在稍后说明的步骤S28中判断出全部注册图像已经被处理为止。现在，在步骤S11中，多重分辨率生成单元121选择一个未处理的注册图像。在步骤S12中，多重分辨率生成单元121生成多重分辨率组。具体地说，多重分辨率生成单元121根据预定倍率缩小作为学习对象的注册图像以生成多重分辨率图像组。例如，如果假设作为最小分辨率图像的从原始图像的缩小率是α，且要输出的多重分辨率图像的数量是N(包括原始图像)，则具有第k(原始图像取k＝0)多重分辨率的分辨率图像I^[k]通过将原始图像缩小α×(N-k)倍生成。

可选地，可以考虑另一种方法，其中将用于生成具有低一级的分辨率的图像的缩小率取为γ(固定值)，即用缩小率γ^k来生成I^[k]。

图6示出假设参数N＝10且α＝0.1的情况下生成的多重分辨率图像组。在图6所示的例子的情况下，生成了总共10级的多重分辨率图像，从原始图像以0.9的缩小率缩小的图像I^[1]等，直到以0.1的缩小率缩小的图像I^[9]。规定缩小率的系数k的值越大，图像被缩小的越小，因此系数k的值越大，每帧的图像帧越小。

接下来，特征点提取单元122重复步骤S13～S26中的处理，直到在稍后说明的步骤S27中判断出全部分辨率图像都已经被处理为止，从而从多重分辨率生成单元121生成的各分辨率图像I^[k](k＝0～N-1)中提取特征点(标度不变的特征点)，以便即使在图像放大/缩小变换(标度变换)的情况下也可以鲁棒地进行提取。标度不变特征点提取方法的例子包括：构造图像的标度空间、在每个标度图像的高斯差分(DoG，Difference ofGaussian)滤波器输出的局部最大点(预定局部范围的最大点)和局部最小点(预定局部范围的最小点)中提取即使在标度方向改变的情况下位置也不变的点作为标度特征点的方法(D.Lowe，“Object recognition fromlocal scale-invariant features，”in Proc.International Conference onComputer Vision Vol.2，pp.1150-1157，September 20-25，1999，Corfu，Greece)；以及构造图像的标度空间、在Harris角点检测器从每个标度图像中提取的角点中提取提供标度空间图像的高斯-拉普拉斯(LoG，Laplacian of Gaussian)滤波器输出中的局部最大值的点作为特征点的方法(K.Mikolajczyk，C.Schmid，“Indexing based on scale invariantinterest points，”International Conference on Computer Vision，525-531，July 2001)。任何提取方法可以应用到特征点提取单元122，只要可以提取标度不变特征点即可。

现在，作为本发明的实施例，说明一种方法作为标度不变特征点提取方法，该方法基于D.Lowe提出的方法(“Distinctive image features fromscale-invariant key points，”accepted for publication in the InternationalJournal of Computer Vision，2004)。利用该方法，通过标度不变特征点提取目标图像的标度空间表达(T.Lindeberg，“Scale-space：A framework forhandling image structures at multiple scales，”Journal of AppliedStatistics，Vol.21，no.2，pp 224-270，1994)，从相关图像的DoG滤波器输出中提取考虑了标度方向的局部最大点和局部最小点作为特征点。

现在，在步骤S13中，特征点提取单元122选择各分辨率图像中未处理的分辨率图像。然后，在步骤S14中，特征点提取单元122生成标度空间分辨率图像。也就是说，生成了标度不变特征点提取目标图像I(在多重分辨率生成单元121处生成的各分辨率图像(k＝0、1、2等直到9的各分辨率图像)中的一个分辨率图像成为标度不变特征点提取目标图像)的标度空间。通过采用表达式(1)所示的二维高斯函数，利用σ＝K_sσ₀对标度不变特征点提取目标图像I进行卷积积分(高斯滤波)，来生成标度空间的第s(s＝0到s-1)分辨率图像L_s。

g (x, y) = \frac{1}{2 π σ^{2}} e^{\frac{- (x^{2} + y^{2})}{2 σ^{2}}} . . . (1)

这里，σ₀是为了标度不变特征点提取目标图像I的噪声去除的目的而用于确定阴影去除的程度的参数；K是关于阴影去除程度的常数因子，其在标度空间的各分辨率之间是共用的，并且是与分辨率图像I^[k]中的k不同的因子。现在，假设将图像的水平方向取为X轴，并将其竖直方向取为Y轴。

图7示出如此产生的标度空间的例子。该例子示出通过采用下面的5个二维高斯函数关于图像I产生的分辨率图像L₀到L₄。

L_{0} = I &CircleTimes; G_{σ_{0}} . . . (2)

L_{1} = I &CircleTimes; G_{{kσ}_{0}} . . . (3)

L_{2} = I &CircleTimes; G_{k^{2} σ_{0}} . . . (4)

L_{3} = I &CircleTimes; G_{k^{2} σ_{0}} . . . (5)

L_{4} = I &CircleTimes; G_{k^{4} σ_{0}} . . . (6)

应当指出，表达式(2)～(6)右侧的卷积积分符号的右侧各项代表下面的表达式。也就是说，表达式(2)～(6)与表达式(1)基本相同。

G_{k^{s} σ_{0}} = \frac{1}{2 π {(k^{s} σ_{0})}^{2}} e^{- \frac{(x^{2} + y^{2})}{2 {(k^{s} σ_{0})}^{2}}} . . . (7)

在图7中，分辨率级别的数目假设为S＝5。

接下来，在步骤S15中，特征点提取单元122计算DoG滤波器输出图像。也就是说，获得如此获得的特征点提取目标图像I的标度空间的各分辨率图像L_s的DoG滤波器输出图像。该DoG滤波器是一种用于图像的轮廓增强的二维微分滤波器，经常与LoG滤波器一起作为在人类视觉系统中信息从视网膜到被外侧膝状体中继为止所执行的处理的近似模型。可以通过获取两个高斯滤波器输出图像之间的差有效地获得DoG滤波器的输出。也就是说，如图7中央的列所示，可以通过从上面一级的分辨率图像L_s+1中减去分辨率图像L_s(通过计算L_s+1-L_s)来获得第s(S＝0到S-2)分辨率的DoG滤波器输出图像D_s。

接下来，在步骤S16中，特征点提取单元122提取标度不变特征点。具体来说，在DoG滤波器输出图像D_s(s＝1～s-3)上的像素，DoG滤波器输出图像D_s的直接近场区域(在本实施例的情况下，由预定位置处的3×3个像素组成的区域)以及其下一级的DoG滤波器输出图像D_s-1和其上一级的DoG滤波器输出图像D_s+1上的相同位置(相应的位置)的直接近场区域的总共27个像素中，提取作为局部最大像素(27个像素中的最大值)及作为局部最小像素(27个像素中的最小值)的像素作为标度不变特征点，并作为特征点组K_s(s＝1～s-3)保持。图7右侧的列示出了特征点组K_s。这样提取的特征点是关于因子为k²的分辨率改变(即标度的改变)具有位置不变性的标度不变特征点。

特征点提取单元122重复步骤S13～S26中的处理直到在稍后说明的步骤S27中判断出全部分辨率图像已经被处理为止，并且关于多重分辨率生成单元121生成的多重分辨率级别图像I^[k]中的每一个提取标度不变特征点组。

接下来，特征点提取单元123重复步骤S17～S25中的处理直到在步骤S26中判断出全部特征点已经被处理为止，并且提取从各多重分辨率级别图像I^[k]中提取的每个特征点的特征量。下文中，基于上下文，将特征点的特征量称为“特征点特征量”或简称为“特征量”。

对于特征点特征量，采用对于图像旋转变换和亮度变化不变的特征量。多个特征量可以应用于一个特征点。在这种情况下，在后级的特征量比较单元135中，需要用于整合不同特征量的比较结果的处理。在本实施例的情况下，采用从提取了相关特征点的图像的特征点近场区域的浓度梯度信息(每个点处的浓度梯度强度和浓度梯度方向)得出的两个特征量作为特征量。一个是沿相关特征点近场区域的主浓度梯度方向(下文中，称为“规范(canonical)方向”)校正的方向直方图，另一个是沿规范方向校正的经过低维退化(degeneracy)的浓度梯度向量。

第一特征量(类型1的特征量)是与特征点附近的浓度梯度方向相关的直方图(方向直方图)沿其主方向被校正为0的特征量。为了提取该第一特征量，在步骤S17中，特征量提取单元123选择一个未处理的特征点。随后，在步骤S18中，特征量提取单元123获得浓度梯度强度M_x，y和方向R_x，y。也就是说，如图8所示，分别由表达式(8)和(9)获得特征点附近(本实施例中为以相关特征点P为中心以7个像素为直径(3.5个像素为半径)的范围内包含的像素组)的浓度梯度强度M_x，y和方向R_x，y。这些表达式中的x，y是要获得浓度梯度的像素在图像上的坐标，并且I_x，y是其像素值。

M_{xy} = \sqrt{{(I_{x + 1, y} - I_{x, y})}^{2} + {(I_{x, y + 1} - I_{x, y})}^{2}} . . . (8)

R_xy＝tan^-1(I_x，y+1-I_x，y，I_x+1，y-I_x，y) …(9)

接下来，在步骤S19中，特征量提取单元123生成方向直方图。具体来说，基于特征点附近每个像素的方向R_x，y，以等级宽度Δθ和等级数360°/Δθ按方向直方图的相关等级(本实施例中Δθ＝10°)累加每个像素的频率。这时，如图9所示，为了减小由于等级的量化误差造成的影响，累加与从等级(图9中的水平方向)的中心值到方向R_x，y的距离的远近成比例的值。具体来说，如果假设距方向R_x，y最近的两个等级被取为g和g+1，并且等级g的中心值和方向R_x，y之间的距离与等级g+1的中心值和方向R_x，y之间的距离分别取为d₁和d₂，则要相加到等级g和g+1的频率值分别是d₂/(d₁+d₂)和d₁/(d₁+d₂)。因此，减小了量化误差。

接下来，在步骤S20中，特征量提取单元123将频率规一化。具体来说，通过除以特征点附近的像素的数目(包括在直径为7个像素的范围内的像素数)来规一化获得的方向直方图的频率。因此，可以通过仅累加梯度方向来获得相对亮度改变强的特征量。

此外，特征量提取单元123在步骤S21中提取规范方向，并在步骤S22中将角度沿规范方向规一化。具体来说，为了获得对于旋转变换的不变特征量，提取作为提供获得的方向直方图的强峰(strong peak)的角度的规范方向，并偏移直方图，使得作为规范方向的角度变为0，从而执行角度规一化。利用与在角点周围提取的特征点相关的直方图，沿与其边缘垂直的方向出现多个强峰，所以在这种情况下，产生了校正后(规格化)的方向直方图，使得对于每个峰其角度变为0。换句话说，分别生成了规范方向上的数目的特征量。例如，假设规范方向上的峰的基准是峰方向，从而提供不小于最大累加值的80％的累加值。

例如，在图10所示的方向直方图中，存在角度为80度的频率V₈₀和角度为200度的频率V₂₀₀两个峰。也就是说，80度的角度和200度的角度成为规范方向。在这种情况下，生成了如图11所示使得作为规范方向的80度的角度变为0的规格化的直方图，以及如图12所示使得作为规范方向的200度的角度变为0的规格化的直方图。

如此获得的类型1的特征量成为具有与方向直方图的等级数相同的维数的特征向量(本实施例中是36(＝360/10)维向量，即由代表36个等级的频率的数字构成的向量)。

接下来，获得低维退化浓度梯度向量作为第二特征量(类型2的特征量)。对于类型1的特征量，忽略了特征点附近的像素的空间布局，而只关注特征点附近的局部区域处浓度梯度向量方向上的趋势(频率)，但对于类型2的特征量，关注特征点附近的每个浓度梯度向量的空间布局。这两种类型的特征量用来利用稍后说明的技术进行特征量比较，从而实现对于视点变化以及亮度变化来说强的识别。

为了提取类型2的特征量，首先，在步骤S23中，特征量提取单元123对特征点近场图像进行旋转校正。也就是说，对特征点近场图像进行旋转校正，使得在上述处理中获得的特征点附近的规范方向变为0度。此外，在步骤S24中，特征量提取单元123计算浓度梯度向量。例如，如上所述，图13上部所示的特征点附近的像素的浓度梯度如图10所示分布的情况下，规范方向变为80度和200度的方向。因此，如图13中部左侧的图所示，在这种情况下将特征点近场图像沿顺时针方向旋转，使得上部图像的80度的规范方向变为0度。随后，计算其浓度梯度向量组。因此，这等同于获得假设图10所示的80度角度的规范方向为0度时规格化并获得的图11所示的方向直方图的浓度梯度向量组。

此外，类似地，如图13中部的右侧所示，对特征点近场图像进行旋转校正，使得200度的规范方向变为0度。随后，计算其图像的浓度梯度向量组。因此，这等同于获得假设图10所示的200度角度的规范方向为0度时规格化并获得的图12所示的方向直方图的浓度梯度向量组。

接下来，在步骤S25中，特征量提取单元123对浓度梯度向量组进行维数退化。也就是说，为了使若干像素周围的特征点提取位置的偏差能够被吸收，例如，通过对通常内接(inscribe)在直径为7个像素的圆内侧的正方形内的5×5像素的向量组进行线性插值重采样以得到3×3像素的向量组，来对该浓度梯度向量组进行维数退化，如图13底部两侧所示。

具体来说，如图14所示，通过使用下面的表达式利用与其附近的4个原始图像像素的距离比计算重采样图像的像素值，来进行线性插值重采样。

f(X，Y)＝(1-q)·[(1-p)·f(x，y)+p·f(x+1，y)]+q·[(1-p)·f(x，y+1)+p·f(x+1，y+1)] …(10)

在上述表达式中，如图14所示，(X，Y)是重采样图像的像素，(x，y)、(x+1，y)、(x，y+1)和(x+1，y+1)是重采样图像(X，Y)附近的原始图像像素，f(a，b)是坐标(a，b)的像素值，p和q是沿x坐标方向和y坐标方向从相邻像素到重采样图像(X，Y)的距离比。

因此，将经过维数退化的向量的各分量x，y应用到特征向量的各维数，从而获得类型2的特征量。在使用线性插值重采样进行重采样得到3×3向量组的情况下，获得18(＝3×3×2)维的特征量。

应当指出，在重采样之后的目标图像大小不大于原始图像大小的一半的情况下，通过每次将原始图像缩小0.5倍以获得比目标大小大0.5倍的乘数大小的最小图像，并根据获得的图像执行表达式(10)的重采样，可以减小重采样时的误差。例如，在通过线性插值重采样生成具有原始图像大小的0.2倍大小的图像的情况下，对通过对原始图像进行2次0.5倍的重采样获得的大小是原始图像大小的0.25倍的图像进行表达式(10)的线性插值重采样。

在步骤S26中，特征量提取单元123判断是否对全部特征点进行了处理，在存在未处理的特征点的情况下，处理返回到步骤S27，重复执行随后的处理。在步骤S26中判断出对全部特征点都进行了处理的情况下(在对全部特征点进行了步骤S17～S25中的处理的情况下)，在步骤S27中，特征点提取单元122判断是否对全部分辨率图像进行了处理。在存在未经处理的分辨率图像的情况下，处理返回到步骤S13，重复执行随后的处理。在判断出对全部分辨率图像进行了步骤S13～S25中的处理的情况下，在步骤S28中，多重图像生成单元121判断是否对全部注册图像进行了处理。在存在未经处理的注册图像的情况下，处理返回到步骤S11，重复执行随后的处理。在判断出对全部注册图像进行了步骤S11～S25中的处理的情况下，处理前进到步骤S29。

在步骤S29中，注册图像字典注册单元24对如此提取的特征点特征量添加标签，并以与提取了特征点特征量的注册图像的注册ID相关联的方式对其进行注册。在这种情况下，进行标签添加，并注册在注册图像字典注册单元24中，使得可以参照每个注册ID的注册图像的多重分辨率图像组的哪个图像的从哪个标度提取的哪个特征点的特征量。

如上所述，在注册图像字典注册单元24中预先注册与要识别的目标对象相对应的注册图像的特征量组。

在识别单元23包括学习单元111和识别单元112二者的情况下，识别单元112可以照样采用注册图像字典注册单元24。在学习单元111和识别单元112被配置为不同的图像处理设备的情况下，在图像处理设备11中实现如上所述注册了必要信息的注册图像字典注册单元24。应当指出，可以进行如下设置：不在图像处理设备11中实现注册图像字典注册单元24，而通过线缆或无线通信采用在外部设置的注册图像字典注册单元24。

接下来，参考图15对识别单元23进行的一般对象识别处理以及图像比较单元28进行的用于检测重叠区域的位置的重叠检测处理的概要进行说明。

在图15中，左侧示出识别单元23进行的用于识别输入图像内的目标对象的一般对象识别处理的概要，右侧示出图像比较单元28进行的重叠检测处理的概要。

如图15的左侧所示，在一般对象识别处理中，将从输入图像151中提取的每个特征点的特征量和从注册图像152中提取的每个特征点的特征量相比较，并基于比较结果识别目标对象151A。应当指出，在图15中，十字代表输入图像151和注册图像152之间匹配的特征点。此外，白圆代表与注册图像152的特征点不匹配的输入图像151的特征点，黑圆代表与输入图像151的特征点不匹配的注册图像152的特征点。

参考稍后说明的图23～图25说明该一般对象识别处理的细节，但是在一般对象识别处理中，识别出对应于与输入图像151相匹配的特征点多于预定数目(例如3个)的注册图像152的目标对象151A。因此，即使目标对象151A的一部分被重叠的手指等另一个对象隐藏，只要在输入图像151中存在比与注册图像152匹配的预定数目多的特征点，就可以识别出目标对象151A。

相应地，如图15的右侧所示，在重叠检测处理中，可以基于亮度校正之后的处理后的注册图像154的注册亮度值与在通过一般对象识别处理识别出目标对象的输入图像151中灰度变换和大小变换之后的对象区域图像153的对象亮度值之间的差，来检测重叠区域的位置。

具体来说，在重叠检测处理中，根据作为亮度值表示处理后的注册图像154的注册亮度值与对象区域图像153的对象亮度值之间的差的亮度差分图像155，检测出亮度差分图像155的亮度值大于预定阈值的区域，即区域155A中对象亮度值与注册亮度值不匹配的位置，作为重叠区域的位置。

如上所述，在重叠检测处理中，利用对象区域图像153和处理后的注册图像154之间的差来检测重叠区域，所以即使在隐藏目标对象的另一个对象不动的情况下，也可以检测出被另一个对象隐藏的区域，即重叠区域的位置。

接下来，参考图16对图像处理设备11处的从输入图像的获取直到重叠区域位置的检测的处理概要进行说明。

如图16所示，利用图像处理设备11，从输入图像中识别目标对象，并根据作为其结果获得的对象参数确定输入图像内的对象区域。随后，利用图像处理设备11，对其对象区域图像执行几何变换，将几何变换后的对象区域图像变换为灰度。此外，改变几何变换后的对象区域图像的大小，使得与处理后的注册图像的大小相同。

另一方面，将注册图像变换为灰度，减小为预定大小，并利用高斯滤波器等进行去阴影处理。将作为其结果获得的处理后的注册图像注册在注册图像字典注册单元24中。随后，采用明显没有被处理后的注册图像与灰度变换和大小变换后的对象区域图像之间的另一个对象隐藏的通过识别处理匹配的特征点的外围处的亮度值之间的差，来校正处理后的注册图像的注册亮度值，以使没有被另一个对象隐藏的区域的对象区域图像的对象亮度值与注册亮度值相同。

随后，生成亮度差分图像，将灰度变换和大小变换之后的对象区域图像的对象亮度值与校正之后的处理后的注册图像的注册亮度值之间的差表示为亮度值，检测亮度差分图像的亮度值大于预定阈值的区域的位置作为重叠区域的位置。

如上所述，利用图像处理设备11，校正注册亮度值，使得没有被另一个对象隐藏的区域的对象区域图像的对象亮度值与注册亮度值相同，并通过校正后的注册亮度值和对象亮度值之间的差来检测重叠区域的位置，从而可以在重叠检测处理中增强对明亮环境的鲁棒性。

接下来，参考图17和图18示出的流程图说明图像处理设备11进行的图像处理。例如当用户指示开始图像处理时，该图像处理开始。

在步骤S111中，线程建立单元22建立一般对象识别线程。在步骤S112中，图像获取单元21获取由拍摄单元12拍摄的拍摄图像作为输入图像。随后，图像获取单元21将输入图像提供到线程建立单元22和图标生成单元31。

在步骤S113中，识别单元23执行一般对象识别处理。稍后将参考图23～图25说明该一般对象识别处理的细节，但在通过一般对象识别处理从输入图像中识别出与注册图像相对应的目标对象的情况下，从识别单元23输出该注册图像的注册ID和对象参数。

在步骤S114中，几何变换单元26判断是否通过一般对象识别处理识别出了对象，即是否从识别单元23提供了注册ID和对象参数。在步骤S114中判断为通过一般对象识别处理没有识别出对象的情况下，处理前进到图18中的步骤S129。

另一方面，在步骤S114中判断为通过一般对象识别处理识别出了对象的情况下，在步骤S115中，几何变换单元26获取作为一般对象识别处理的结果的从识别单元23提供的注册ID。将该注册ID提供给图像合成单元32。此外，几何变换单元26从注册图像字典注册单元24中读出与该注册ID相对应的图标ID，作为与目标对象相对应的图标ID，并将其提供给图标生成单元31。

在步骤S116中，几何变换单元26获取作为一般对象识别处理的结果的从识别单元23提供的对象参数。也将对象参数提供到图像合成单元32。

在步骤S117中，几何变换单元26根据从识别单元23提供的对象参数确定输入图像内的对象区域，并对对象区域图像进行几何变换。随后，几何变换单元26将从识别单元23提供的注册ID以及几何变换后的对象区域图像提供给图像校正单元27。

在步骤S118中，基于从几何变换单元26提供的注册ID，图像校正单元27从注册图像字典注册单元24中读出并获得与该注册ID相对应的处理后的注册图像。

在步骤S119中，图像校正单元27将从几何变换单元26提供的对象区域图像变换为灰度，并将变换后的对象区域图像的大小改变为与处理后的注册图像的大小相同的大小。

在图18的步骤S120中，图像校正单元27采用在识别单元23进行的一般对象识别处理中匹配的特征点外围的注册亮度值和对象亮度值，来校正注册亮度值，使得该特征点外围的注册亮度值和对象亮度值变得一致。随后，图像校正单元27将对注册亮度值进行了校正后的处理后的注册图像以及灰度变换和大小变换后的对象区域图像提供给图像比较单元28。

在步骤S121中，图像比较单元28对处理后的注册图像的注册亮度值和对象区域图像的对象亮度值进行用于获取差的差分处理，并检测作为亮度值表示该差的亮度差分图像的亮度值大于预定阈值的区域的位置作为重叠区域的位置。随后，图像比较单元28将重叠位置信息提供给命令判断单元29和图标生成单元31。

在步骤S122中，图像比较单元28判断自从图像处理开始后，是否第一次识别出目标对象，即自从图像处理开始后，是否第一次从图像校正单元27输入了处理后的注册图像和对象区域图像。

在步骤S122中判断出自从图像处理开始后第一次识别出目标对象的情况下，在步骤S123中，图像比较单元28采用对象区域图像来提取亮度近似区域，亮度近似区域是与估计为检测出与目标对象重叠的另一个对象的对象的亮度接近的亮度区域，图像比较单元28将其提供给图标生成单元31。

在步骤S124中，基于从识别单元23提供的图标ID以及从图像比较单元28提供的重叠位置信息和亮度接近区域，图标生成单元31将图标布置在对象区域中由重叠位置信息表示的重叠区域及亮度近似区域以外的区域上。

具体来说，基于图标ID、重叠位置信息以及亮度近似区域，图标生成单元31将对象区域中重叠区域和亮度近似区域之外的区域的位置确定为在目标对象上布置图标的位置。例如，如图19所示，在拍摄手中持有包括穿着西式服饰的儿童的照片160的状态的情况下，例如，在一般对象识别处理将照片160识别为目标对象时，将下列区域以外的区域的位置确定为图标164的位置：持有照片的手的区域161、在用手指进行估计操作的情况下作为亮度近似区域的儿童面部区域162以及作为在第一次识别出目标对象时检测出的重叠区域的露出的皮肤的区域163。

随后，图标生成单元31将图标位置信息提供给命令判断单元29，并将图标位置信息、图标ID以及输入图像提供给图像合成单元32。

如上所述，利用图像处理设备11，不在第一次识别出目标对象时已经重叠了另一个对象的重叠区域、以及亮度近似区域上布置图标，该亮度近似区域是与被估计为检测出与目标对象重叠的另一个对象的对象的亮度接近的亮度区域，从而可以增强重叠检测处理的鲁棒性。

在步骤S125中，基于从图标生成单元31提供的图标位置信息和图标ID，图像合成单元32合成从图标生成单元31提供的图标图像和输入图像，以生成图标布置在输入图像内的目标对象上的合成图像。随后，图像合成单元32将合成图像提供给图像显示单元33。

在步骤S126中，图像显示单元33显示从图像合成单元32提供的合成图像，处理进行到步骤S129。

另一方面，在步骤S122中没有判断出自从图像处理开始后第一次识别出目标对象的情况下，即自从图像处理开始后目标对象的识别执行了不少于两次的情况下，在步骤S127中，基于从图像比较单元28提供的重叠位置信息以及从图标生成单元31提供的图标位置信息，命令判断单元29判断是否在图标处检测出重叠。

具体来说，基于重叠位置信息和图标位置信息，命令判断单元29判断图标是否布置在重叠区域上。随后，在图标布置在重叠区域上的情况下，命令判断单元29判断为在图标处检测出重叠，在图标没有布置在重叠区域上的情况下，命令判断单元29判断为在图标处没有检测出重叠。

在步骤S127中判断出在图标处没有检测出重叠的情况下，处理进行到步骤S129。

此外，在步骤S127中判断为在图标处检测出重叠的情况下，命令判断单元29将检测出重叠的图标的命令信息提供给命令发出单元30。随后，在步骤S128中，基于从命令判断单元29提供的命令信息，命令发出单元30发出由该命令信息表示的命令。

例如，在图19中，在与照片160对应的注册图像是运动图像并且图标164是用于播放与照片160对应的运动图像的图标的情况下，命令发出单元30发出用于播放作为与照片160对应的注册图像的运动图像的命令以及用于将图标164改变为用于停止播放与照片160对应的运动图像的图标的命令。随后，处理进行到步骤S129。

在步骤S129中，响应于从识别单元23提供的消除信息或从命令发出单元30提供的命令，结束判断单元25判断图像处理是否要结束。在步骤S129中，在没有做出图像处理要结束的判断的情况下，即在消除信息和用于结束图像处理的命令没有提供到结束判断单元25的情况下，处理返回到图17中的步骤S112，重复随后的处理。

另一方面，在步骤S129中判断为要结束图像处理的情况下，即在将消除信息或用于结束图像处理的命令提供给结束判断单元25的情况下，结束判断单元25将结束信息提供给线程建立单元22。随后，在步骤S130中，响应于从结束判断单元25提供的结束信息，线程建立单元22消除一般对象识别线程，处理结束。

应当指出，根据上面的说明，关于输入图像本身合成图标，但可以进行下列设置：用注册图像替换输入图像内的目标对象，并且关于替换后的输入图像合成图标。在这种情况下，与关于输入图像本身合成图标的情况相比，用户可以作为更清晰的图像来观看目标对象。

此外，替换目标对象的图像可以不是注册图像，而是预先存储的对应于注册图像的预定图像。在这种情况下，可以进行下列设置：将已经布置了图标的图像存储为预定图像，并将目标对象替换为预定图像的图像按原样显示为布置了图标的合成图像。

接下来，参考图20～图22对可以由图像处理设备11提供的智能训练系统进行说明。

利用图20～图22所示的智能训练系统，将用于智能训练的打印了与注册图像相对应的图片的卡片171提供给用户。如图20的左侧所示，用户手中持有卡片171，将其保持为对着拍摄单元12，并指示开始图像处理。图像处理设备11将卡片171识别为目标对象，如图20的右侧所示，用预先存储的对应于卡片171的预定图像182替换输入图像181内的卡片171。随后，如图20的右侧所示，图像处理设备11在图像182上显示汽车形状的图标183、飞机形状的图标184以及自行车形状的图标185。

应当指出，利用图像处理设备11，还与注册图像相对应地注册了例如“哪个是汽车？”的语音，随着图标183～图标185的显示从未示出的扬声器输出语音。

随后，用户将手指放在卡片171上与图标183～185中假设形状是汽车形状的图标的显示位置相对应的的位置上。基于输入图像181、注册图像以及图标位置信息，图像处理设备11检测图标183～185处的重叠，在检测出具有汽车形状的图标183处的重叠的情况下，输出用于输出表示正确回答的语音的命令，并控制未示出的扬声器输出该表示正确回答的语音。

此外，当用户手中持有另一个智能训练卡(未示出)，将其保持为对着拍摄单元12，并指示开始图像处理时，如图21所示，与图20所示的情况相似，图像处理设备11用预先存储的对应于卡片的图像192替换输入图像191内的卡片，并将郁金香形状的图标193和向日葵形状的图标194显示在图像192上。

这时，图像处理设备11从未示出的扬声器输出对应于注册图像地注册的例如“哪一个是郁金香？”的语音。随后，用户将手指放在卡片上与图标193和194中形状假设为郁金香形状的图标的显示位置相对应的位置上。

与图20所示的情况相似，在图像处理设备11检测出郁金香形状的图标193处的重叠的情况下，输出用于输出表示正确回答的语音的命令，并控制未示出的扬声器输出该表示正确回答的语音。

此外，当用户手中持有另一个智能训练卡(未示出)，将其保持为对着拍摄单元12，并指示开始图像处理时，如图22所示，图像处理设备11用预先存储的其中布置了运动的瓢虫形状的图标203的对应于该卡片的运动图像202替换输入图像201内的卡片。

这时，图像处理设备11从未示出的扬声器输出对应于注册图像注册的例如“请抓住运动的瓢虫”的语音。随后，用户将手指放在卡片上假设为瓢虫形状的图标203的显示位置的位置上。

基于输入图像201、注册图像以及预先存储的图标203的运动，图像处理设备11检测图标203处的重叠，在检测出重叠的情况下，输出用于输出表示正确回答的语音的命令，并控制未示出的扬声器输出该表示正确回答的语音。

此外，尽管在附图中未示出，图像处理设备11可以提供下面的智能训练系统。利用该智能训练系统，用户绘制汽车和自行车的图片，在拍摄单元12处拍摄该卡片，并且将拍摄图像注册在注册图像字典注册单元24中，将该拍摄图像作为注册图像。

这时，用户以与注册图像相关联的方式注册自行车在卡片上的位置、作为与自行车对应的音频的自行车铃声、汽车在卡片上的位置以及作为与汽车对应的音频的汽车喇叭声。

随后，用户保持绘制了自行车和汽车的图画的卡片，将其保持为对着拍摄单元12，并指示开始图像处理。基于该图像、该卡片的注册图像以及自行车和汽车在卡片上的位置，图像处理设备11检测汽车或自行车处的重叠，在检测出自行车处的重叠的情况下，从未示出的扬声器输出自行车铃声。此外，在检测出汽车处的重叠的情况下，图像处理设备11从未示出的扬声器输出汽车喇叭声。

接下来，参考图23～图25所示的流程图，对图2所示的识别单元23处的一般对象识别处理进行说明。

在步骤S331～S347中，将这时输入的输入图像作为要处理的输入图像，多重分辨率生成单元131、特征点提取单元132以及特征量提取单元133执行与在步骤S11～S27中在学习单元111的多重分辨率生成单元121、特征点提取单元122以及特征量提取单元123处对目标输入图像进行的处理相同的处理。省略其说明，以免冗余。然而，应当指出，在识别时由参数N和α确定的多重分辨率图像的结构与学习时不同。

在学习时多重分辨率生成单元121用宽倍率范围和精细的精度生成多重分辨率图像，而在识别时多重分辨率生成单元131用粗略的精度生成多重分辨率图像。具体来说，在步骤S12中学习时，本实施例应用的参数是N＝10和α＝1，而在步骤S332中识别时，参数是N＝2和α＝0.5。下面说明其理由。

(1)为了提高识别精度，希望使用尽可能多的特征点特征量信息来进行特征量比较。也就是说，希望从多重分辨率图像中提取尽可能多的特征点。

(2)为了获得标度改变的鲁棒性，希望尽可能宽地加宽关于多重分辨率图像的结构的标度范围。

(3)在学习注册图像时，不需要太多地强调实时性，从而可以增加注册图像的多重分辨率图像的数目，并且可以加宽标度范围以提取并保持特征点特征量。

(4)利用本实施例，关于从目标输入图像提取的特征点特征量，使用根据全部注册图像的全部特征点和特征量构造的kd树的k近邻(k-NN，k-Nearest Neighbor)搜索(稍后说明)来执行特征量的比较，所以特征量比较所需的计算成本与从目标输入图像提取的特征点的数目成比例地增加，但是对于注册的图像特征点的数目，如果假设在根据全部注册图像构造kd树的情况下，所有注册的图像特征点是n个，则计算成本可以被抑制为log n级(即0(log n))。

(5)此外，另一方面，识别时的实时性被认为是重要的，所以存在通过将多重分辨率图像的数目减小为尽可能少来降低计算成本的需要。

(6)然而，在目标输入图像内的注册图像的大小大于原始注册图像的大小的情况下，单独采用目标输入原始图像，而不根据目标输入图像生成多重分辨率图像，这使得不可能识别出目标对象。

出于上面的理由，如图26所示，在学习时根据注册图像，以更宽的范围(N＝10，α＝0.1)生成更多的多重分辨率图像组，并提取更多的特征点，但是另一方面，在识别时，根据目标输入图像，生成必须的最小(k＝0，1)多重分辨率图像组(N＝2，α＝0.5)，从中提取特征点，通过对kd树应用k-NN搜索执行特征量的比较，从而能够以良好的精度实现识别，而不增加计算成本。图26示出原始注册图像的大小太大，并且没有相应的标度大小等级的目标对象，但是将原始注册图像(k＝0)减小0.5倍(k＝1)，从而得到相应的标度大小等级的目标对象。

在对全部特征点和全部分辨率图像执行了步骤S331～S345中的处理的情况下，处理进行到步骤S348。

如稍后说明的，将从目标输入图像提取的每个特征点特征量(经过维数退化的浓度梯度向量组)与注册图像的每个特征点特征量相比较，并将作为相应的特征点组的候选项的特征点特征量与相似的注册图像组合。最简单的特征量比较方法是全搜索。也就是说，最简单的方法是：针对全部注册图像的全部特征点特征量，对目标输入图像的每个特征点特征量进行特征量之间的相似度计算，根据相似度选择相应的特征点组。然而，应当指出，使用全搜索的方法从计算成本方面来看是不可行的，因此在本发明实施例中，为了从大量数据组中搜索数据，采用使用称为kd树的数据结构的树搜索方法(J.H.Friedman，J.L.Bentley，R.A.Finkel，“Analgorithm for finding best matches in logarithmic expected time，”ACMTransactions on Mathematical Software，Vol.3，pp.209-266，September1977)。该“kd树”意思是“k维树结构”。

在需要在到目前为止的学习处理中注册在注册图像字典注册单元24中的注册图像中识别一部分注册图像的情况下，在步骤S348中，kd树构造单元134仅根据关于要识别的注册图像的全部特征点特征量构造kd树。在本实施例中，分别构成了类型1的特征量的36d树(k＝36)以及类型2的特征量的18d树(k＝18)。在树的每个叶(端节点)中，与标签一起保持一个特征点特征量，从而可以参考该特征量是哪个注册ID的注册图像的多重分辨率图像组的哪个图像的从哪个标度提取的哪个特征点的特征量。

另一方面，在识别在注册图像字典注册单元24中注册的全部注册图像的情况下，在每次附加地学习注册图像时重新构造树，并将树本身注册在注册图像字典注册单元24中。在这种情况下，省略步骤S348中的kd树构造处理。

在步骤S349中，特征量比较单元135选择目标输入图像的未经处理的特征点。在步骤S350中，特征量比较单元135将目标输入图像的类型1的特征点特征量和k个相似的注册图像的特征点特征量组合为对组(pair group)。相似地，在步骤S351中，特征量比较单元135将目标输入图像的类型2的特征点特征量和k个相似的注册图像的特征点特征量组合为对组。

也就是说，通过k-NN搜索(虽然，使用相同的字符k，但是k-NN搜索的k值和kd树的k值可以是任意不同的值(当然，可以是相同的值))，将特征点提取单元132和特征量提取单元133提取的目标输入图像的每个特征点特征量与特征量相似的k个(在图27所示的例子的情况下为4个)注册图像特征点和特征量组合为对组。在本实施例中，分别采用表达式(12)的欧几里德(Euclidean)距离(其表示值越大，相似度越小)作为用于类型1的特征量的k-NN搜索的不相似度以及表达式(13)所示的余弦相关值作为类型2的特征量的相似度。

dis \tan ce (u_{v}, u_{v}) = \sqrt{Σ_{n = 1}^{N} {(u_{n} - v_{n})}^{2}} . . . (12)

similarity (u_{v}, v_{v}) = \frac{1}{2} (\frac{u_{v} \cdot v_{v}}{| | u_{v} | | | | v_{v} | |} + 1) . . . (13)

然而，在表达式(12)中，分别地，u_v和v_v表示作为计算不相似度的目标的特征量向量，u_n和v_n表示u_v和v_v的n维的值，N表示u_v和v_v的维数。

在表达式(13)中，u_v和v_v表示作为计算相似度的目标的特征量向量，u_v·v_v表示向量的内积。当提取特征量相似的k对(组)时，可以包括对于不相似度(对于类型1的特征量)和相似度(对于类型2的特征量)的阈值确定。使用余弦相关值作为针对类型2的特征量的相似性计算标度的理由是防止特征量受到由于亮度改变引起的局部浓度梯度向量的强度改变的影响。此外，可以进行下列设置：根据余弦相关值，用向量长度1代替相似度来正规化u_v和v_v，将欧几里德距离取为不相似度，并作为类型2的特征量。同样，在这种情况下，防止了特征量受由于亮度改变引起的局部浓度向量的强度改变的影响。

特征量比较单元135针对每个目标输入图像的特征点执行步骤S349～S351中的处理。随后，在步骤S352中，特征量比较单元135判断是否对全部特征点进行了处理，在存在未经处理的特征点的情况下，处理返回到步骤S349，重复执行随后的处理。在步骤S352中判断为对全部特征点进行了处理的情况下，处理进行到步骤S353。

在采用类型1和类型2两种类型的特征量时，特征量比较单元135使用上述方法针对每个特征量类型获取关于目标输入图像的特征点的特征点对，并且在步骤S353中，仅选择类型1和类型2二者公用的提取的特征点对作为相应的特征点组的候选项，并针对每个注册图像进行分类。随后，将相应的特征点组的该候选项被提供到随后阶段的估计单元136。利用估计单元136执行针对每个注册图像的处理，所以针对每个注册图像对提取的相应的特征点组的候选项进行分类和传递，从而可以实现高效的处理。

图27示意性示出上述处理。kd树构造单元134生成类型1的特征量的36d树结构和类型2的特征量的18d树结构。通过对目标组的特征量组的k-NN搜索(在这种情况下k＝4)，从类型1的特征量的36d树结构中搜索到类型1的特征量的4个相似的对组。在该例子中，将用目标输入图像中的正方形表示的特征点特征量(正方形、五边形、三角形、圆或十字形状表示特征点特征量)视为类型1的特征量的36d树结构中的五边形、三角形、圆或十字的相似的形状，并进行搜索。此外，通过k-NN搜索搜索到类型2的特征点特征量的4个相似对组。在该例子中，将目标输入图像中的正方形视为类型2的特征量的18d树结构中的平行四边形、十字、圆或菱形的相似形状，并进行搜索。

在类型1的特征量的4个相似对组和类型2的特征量的4个相似对组中，选择公用的相似对组。在本例子的情况下，类型1的特征量的相似对组是下列4个对组：正方形和五边形对组、正方形和三角形对组、正方形和圆形对组以及正方形和十字形对组。另一方面，类型2的特征量的相似对组是下列4个对组：正方形和平行四边形对组、正方形和十字形对组、正方形和圆形对组以及正方形和菱形对组。因此，正方形和圆形相似对组以及正方形和十字形相似对组是两种类型公用的特征点对，将其选择为相应的特征点对(组)的候选项。

应当指出，代替根据要针对每个特征量类型识别的全部注册图像的全部特征点特征量构造一个kd树、并搜索目标输入图像的每个特征点特征量的k-NN的上述设置，可以进行下列设置：针对每个注册图像为每个特征量类型构造kd树，并针对每个注册图像搜索目标输入图像的每个特征点特征量的k-NN。在任意一种情况下，输出是针对注册图像分类的相应的特征点对组的候选项，并且共同保持稍后说明的随后阶段的处理。

可以通过上述处理提取特征点附近具有相似局部浓度梯度信息的对组(注册图像特征点和目标输入图像特征点的对组)，但是从宏观方式来看，如此获得的对组不仅包括相应的特征点之间的空间位置关系与对应于注册图像的目标对象在目标输入图像上的位置和姿势(目标对象位置和姿势)不冲突的“真特征点对(内围层(inlier))”，还包括相应的特征点之间的空间位置关系与对应于注册图像的目标对象在目标输入图像上的位置和姿势冲突的“假特征点对(外围层(outlier))”。

图28示意性地示出内围层和外围层。如图所示，如果假设图左侧所示的三角形注册图像与图右侧所示的目标输入图像的三角形检测目标对象相对应，则该三角形注册图像的顶点附近的特征点P1～P4分别与检测目标对象的特征点P11～P14相对应。也就是说，分别地，特征点P1对应于特征点P11，特征点P2对应于特征点P12，特征点P3对应于特征点P13，特征点P4对应于特征点P14。因此，相应的特征点组的这些候选项构成内围层。应当指出，在图28中，内围层用实线示出。

相应地，一般将注册图像的特征点P5定位在三角形内部的中心，将特征点P6定位在三角形四周外部附近。相应地，与特征点P5成对组的目标输入图像的特征点P15以及与特征点P6成对组的目标输入图像的特征点P16是远离检测目标对象的点。也就是说，特征点P5和P15的相应特征点组的候选项以及特征点P6和P16的相应特征点组的候选项是外围层。应当指出，在图28中，外围层用虚线示出。

可以考虑通过最小二乘估计获取估计的图像变换参数的方法作为用于导出对象参数的方法，该对象参数用来根据相应特征点组的候选项确定目标对象在目标输入图像内的位置和姿势。利用该方法，可以通过重复下面的处理来获得具有高精度的目标对象位置和姿势：消除空间位置关系与作为估计结果的目标对象位置和姿势的空间位置关系冲突的相应的对，再次用最小二乘估计对其余各对进行估计图像变换参数导出。

然而，应当指出，已知在相应特征点组的候选项内有大量外围层的情况下，以及在存在与真图像变换参数极度偏离的外围层的情况下，通过上述最小二乘估计得到的估计结果通常是不令人满意的(Hartley R.，Zisserman A.，“Multiple View Geometry in Computer Vision，”Chapter 3，pp.69-116，Cambridge University Press，2000)。因此，在图像变换的一定限制下，根据本实施例的估计单元136从相应特征点组的候选项的空间位置关系中提取“真特征点对(内围层)”，并使用提取的内围层估计用于获得目标对象的位置和姿势的图像变换参数。

针对每个要识别的注册图像执行估计单元136进行的估计处理，判断是否存在与每个注册图像相对应的目标对象，并在存在的情况下，执行位置和姿势的估计。在下面的说明中出现的相应特征点组的候选项意为如下对组：在作为特征量比较单元135的输出的相应特征点组的候选项中，仅与相关注册图像有关的对被结组。

图像变换的例子包括欧几里德变换、相似度变换、仿射变换以及投影变换，但在本实施例中，将对在仿射变换限制下进行位置和姿势估计的情况进行详细说明。如上所述，除非存在多于3个的特征点组，否则无法计算仿射变换参数，所以在步骤S354中选择一个未经处理的注册图像之后，估计单元136在步骤S355中判断是否存在多于3个的相应特征点对(组)的候选项。

在存在两个或更少相应特征点组的候选项的情况下，在步骤S356中，估计单元136将其视为目标输入图像中不存在目标对象，或目标对象位置和姿势检测失败，并输出“不可识别”。这时，在图17所示的步骤S114中，几何变换单元26响应于从估计单元136输出的“不可识别”判断出没有识别出对象。

另一方面，在存在多于3个的相应特征点组的候选项的情况下，估计单元136可以检测目标对象位置和姿势，从而执行仿射变换参数的估计。因此，在步骤S357中，估计单元136执行坐标变换。也就是说，将相应特征点组的候选项的注册图像特征点位置坐标变换为原始记录的图像的位置坐标，将目标输入图像特征点位置坐标变换为输入原始图像的位置坐标。随后，在步骤S358中，估计单元136执行估计处理。

如果假设由3个相应特征点组的候选项组成的对组P是([x₁y₁]^T，[u₁v₁]^T)，([x₂y₂]^T，[u₂v₂]^T)和([x₃y₃]^T，[u₃v₃]^T)，则对组P和仿射变换参数之间的关系可以用下面的表达式(14)所示的线性系统表示。

(\begin{matrix} x_{1} & y_{1} & 0 & 0 & 1 & 0 \\ 0 & 0 & x_{1} & y_{1} & 0 & 1 \\ x_{2} & y_{2} & 0 & 0 & 1 & 0 \\ 0 & 0 & x_{2} & y_{2} & 0 & 1 \\ x_{3} & y_{3} & 0 & 0 & 1 & 0 \\ 0 & 0 & x_{3} & y_{3} & 0 & 1 \end{matrix}) (\begin{matrix} a_{1} \\ a_{2} \\ a_{3} \\ a_{4} \\ b_{1} \\ b_{2} \end{matrix}) = (\begin{matrix} u_{1} \\ v_{1} \\ u_{2} \\ v_{2} \\ u_{3} \\ v_{3} \end{matrix}) . . . (14)

当重写例如AX_v＝b_v的该表达式(14)(下标v代表其所附的字符(例如x_v中的x)是向量。下面相同)时，仿射变换参数x_v的最小二乘解可以用下面的表达式(15)给出。

x_v＝A^-1b_v …(15)

在从相应特征点组的候选项中随机重复选择对组P，使得其中混合一个或更多个外围层的情况下，仿射变换参数以分散的方式投影在参数空间上。另一方面，在重复随机选择了只由内围层组成的对组P的情况下，仿射变换参数中的任意一个极其相似于目标对象位置和姿势的相应真仿射变换参数，即变为参数空间上的近的距离。因此，当重复随机地从相应特征点组的候选项中选择对组P、并将仿射变换参数投影在参数空间上的处理时，内围层在参数空间上形成高密度(大量成员)簇，并且外围层以分散的方式出现。换句话说，当在参数空间上进行分簇时，具有大量成员的簇的要素变为内围层。

参考图29所示的流程图说明估计单元136处的估计处理的细节。应当指出，采用NN(近邻，Nearest Neighbor)方法作为估计单元136的分簇方法。这时，上述参数b₁和b₂可以根据注册图像取各种值，所以分簇时分簇阈值的选择取决于甚至在x空间中的注册图像。因此，在假设真参数和a₁～a₄相似，但是几乎没有给出仿射变换参数使得b₁和b₂不同的对组P的情况下，估计单元136只对参数a₁～a₄(下文中，作为a_v来说明)规定的参数空间进行分簇。应当指出，即使出现不满足上述假设的情况，与a_v空间独立地对参数b₁和b₂规定的参数空间进行分簇，并考虑其结果，从而可以容易地防止该问题。

首先，在步骤S401中，估计单元136执行初始化。具体来说，将作为表示重复次数的变量的计数值cnt设置为cnt＝1，从相应特征点组的候选项中选择3对作为对组P₁，并获得仿射变换参数a_v1。此外，估计单元136将代表簇数目的变量N设为N＝1，并在仿射变换参数空间a_v上建立以a_v1为中心的簇z₁。估计单元136将该簇z₁的质心(centroid)c_v1设置为c_v1＝a_v1，将表示簇成员数目的变量nz₁设置为nz₁＝1，并将计数值cnt更新为cnt＝2。

接下来，在步骤S402中，估计单元136从相应特征点组的候选项中随机选择3对作为对组P_cnt，并计算仿射变换参数a_vcnt。随后，估计单元136将计算出的仿射变换参数a_vcnt投影到参数空间上。

接下来，在步骤S403中，估计单元136利用NN方法对仿射变换参数空间进行分簇。具体来说，估计单元136首先根据下面的表达式(16)获得每个簇z_i的仿射变换参数a_vcnt和质心c_vi(i＝1～N)之间距离d(a_vcnt，c_vi)中的最小距离d_min。

d_min＝min1≤i≤N{d(a_Vcnt，c_Vi)} …(16)

随后，如果对于预定阈值τ(例如，τ＝0.1)保持d_min＜τ，则估计单元136使a_vcnt属于给出d_min的簇z_i，并用包括a_vcnt的全部成员更新簇z_i的质心c_i。此外，估计单元136将簇z_i的成员数n_zi增加为n_zi＝n_zi+1。另一方面，如果保持d_min≥τ，则估计单元136建立将a_vcnt设置到仿射变换空间a_v上的质心c_VN+1的新簇z_N+1，将该簇的簇数目nz_N+1设置为nz_N+1＝1，并将簇数目N增加为N＝N+1。

随后，在步骤S404中，估计单元136判断是否满足重复结束条件。例如，重复结束条件可以设置为诸如下面的情况：最大成员数超过预定阈值(例如，15)的情况，以及最大成员数和第二大成员数之间的差超过预定阈值(例如，3)的情况，或重复次数计数器的计数值cnt超过预定阈值(例如，5000次)的情况。在步骤S404中判断出不满足重复结束条件的情况下(判断结果为“否”的情况下)，在步骤S405中，估计单元136将重复次数的计数值cnt增加为cnt＝cnt+1，然后处理返回到步骤S402，并重复随后的处理。

另一方面，在步骤S404中判断出满足重复结束条件的情况下(在判断结果为“是”的情况下)，在步骤S406中，估计单元136确定在上述处理中获得的内围层数，当获得的内围层数小于3对时，估计单元136无法确定仿射变换参数，所以输出识别结果“未检测到目标对象”，当提取的内围层数不小于2对时，基于该内围层，利用最小二乘法估计用于确定目标对象位置和姿势的仿射变换参数，将其输出作为识别结果。

如果假设内围层是([x_IN1 y_IN1]^T，[u_IN1 v_IN1]^T)，([x_IN2 y_IN2]^T，[u_IN2 v_IN2]^T)等，则内围层和仿射变换参数之间的关系可以用下面的表达式(17)所示的线性系统来表示。

(\begin{matrix} \begin{matrix} x_{IN 1} & y_{IN 1} & 0 & 0 & 1 & 0 \end{matrix} \\ \begin{matrix} 0 & 0 & x_{IN 1} & y_{IN 1} & 0 & 1 \end{matrix} \\ \begin{matrix} x_{IN 2} & y_{IN 2} & 0 & 0 & 1 & 0 \end{matrix} \\ \begin{matrix} 0 & 0 & x_{IN 2} & y_{IN 2} & 0 & 1 \end{matrix} \\ . . \\ . . \end{matrix}) (\begin{matrix} a_{1} \\ a_{2} \\ a_{3} \\ a_{4} \\ b_{1} \\ b_{2} \end{matrix}) = (\begin{matrix} u_{IN 1} \\ v_{IN 1} \\ u_{IN 2} \\ v_{IN 2} \\ . . \\ . . \end{matrix}) . . . (17)

当重写该表达式(17)时，例如A_INX_VIN＝b_vIN，可以用下面的表达式(18)给出仿射变换参数X_VIN的最小二乘解。

X_VIN＝(A_IN ^TA_IN)¹A_IN ^Tb_VIN …(18)

在步骤S406中，估计单元136将该仿射变换参数X_VIN估计为对象参数。估计单元136保持该对象参数，并且以与该对象参数相关联的方式保持与在前面紧接的步骤S354中选择的注册图像相对应的注册ID。

现在，处理返回到图25，在步骤S358或S356中的处理之后，在步骤S359中，估计单元136判断是否处理了全部注册图像。在存在未经处理的注册图像的情况下，处理返回到步骤S354，重复执行随后的处理。在步骤S359中判断出处理了全部注册图像的情况下，在步骤S360中，估计单元136将在步骤S406中保持的注册ID和对象参数输出到指定区域跟踪单元231。随后，处理结束。

对每个要识别的注册图像进行上述图25所示的步骤S354～S359中的处理。图30示意性示出了该处理。在该例子中，首先，从相应特征点组p1～p6的候选项中随机选择相应特征点组的3个候选项p1、p3和p4，并将基于其计算的仿射变换参数投影到参数空间。接下来，随机选择相应特征点组的3个候选项p3、p4和p6，并将基于其计算的仿射变换参数投影到参数空间。进一步重复相同的处理，在该例子中，选择相应特征点组的3个候选项p5、p4和p1，基于其计算仿射变换参数，并将其投影到参数空间。随后，在参数空间上，对邻近仿射变换参数进行分簇，将最小二乘法应用到进行分簇的仿射变换参数，从而确定对象参数。

即使在相应特征点组的候选项中包括大量外围层的情况下，采用上述技术使得可以消除外围层，因此可以以高精度执行位置和姿势估计(对象参数导出)。

在上述实施例中，说明了仿射变换限制下的位置和姿势估计的细节。在仿射变换限制下，如果平面区域占优(dominant)，例如在诸如盒、书等三维对象的情况下，可以针对关于占优平面的视点改变进行鲁棒的位置和姿势估计。然而，应当指出，为了对曲面和凸凹占优的三维对象进行鲁棒的位置和姿势估计，需要将仿射限制扩展到投影变换限制。然而，在这种情况下，同样可以仅通过增加要估计的维数来简单地扩展上述技术。

例如，在图26和图28中利用虚线示出了如此确定的目标对象的位置和姿势。如这些图所示，在本实施例中，不仅检测出存在与注册图像相对应的目标对象，而且在存在目标对象的情况下还估计并输出其位置和姿势。

应当指出，估计单元136估计的位置和姿势意为关于目标输入图像的目标对象的相对位置和姿势，所以在将目标对象的位置和姿势视为参考位置和姿势的情况下，这意味着估计单元136估计目标对象关于注册图像的位置和姿势。

应当指出，在上面的说明中，进行了下列设置：假设阈值τ为常数值，但当执行步骤S402～S405中的重复处理时，可以应用例如所谓的“退火(annealing)方法”的技术，其中首先执行使用相对大的阈值τ的内围层的粗略提取，在每次重复次数增加时逐渐采用更小的阈值τ。因此，可以以高精度提取内围层。

此外，在上面的说明中，进行了下列设置：重复从相应特征点组的候选项中随机选择对组P、并将其仿射变换参数投影在参数空间上的处理，在假设在参数空间上具有最大成员数的簇的要素是内围层的情况下，利用最小二乘法来估计对象参数，但是本发明不局限于此，例如，可以将具有最大成员数的簇的质心取为对象参数。此外，组可以由不少于3个的特征点组成。

如上所述，针对每个注册图像对特征量比较单元135针对每个注册图像提取的特征点对进行分类，在估计单元136处对每个注册图像进行位置和姿势估计，从而即使在目标输入图像中包括多个注册图像的图像的情况下，也可以进行目标对象注册图像的识别。

应当指出，如上所述，在一般对象识别处理中，生成多分辨率图像，并对全部分辨率图像进行特征量的比较，使得处理负荷相对大。此外，与在注册图像字典注册单元24中注册的大量注册图像的特征量进行比较，所以在注册图像字典注册单元24中注册的注册图像的量越大，处理负荷越大。

因此，在一般对象识别处理的负荷大并且难以对注册图像的每个帧进行实时跟踪的情况下，如图31所示，图像处理设备每若干帧执行一般对象识别处理，并对于另外的帧，通过执行负荷小的跟踪处理来获得对象参数等。

具体来说，图31所示的图像处理设备211包括拍摄单元12、注册图像字典注册单元24、结束判断单元25、图像校正单元27、图像比较单元28、命令判断单元29、命令发出单元30、图标生成单元31、图像合成单元32、图像显示单元33、图像获取单元221、线程建立单元222、识别单元223、跟踪单元224、几何变换单元225以及图像数据存储单元226。应当指出，与图2中相同的部件用相同的附图标记表示，省略其说明，以避免冗余说明。

图像获取单元221将从拍摄单元12提供的拍摄图像提供到图标生成单元31、线程建立单元222、跟踪单元224以及图像数据存储单元226。

响应于从图像获取单元221提供的输入图像，线程建立单元222将输入图像提供到识别单元223，并建立一般对象识别线程以及第一和第二跟踪线程。应当指出，第一和第二跟踪线程是将跟踪单元224执行的跟踪处理分割为两个。

具体来说，线程建立单元222将从图像获取单元221提供的输入图像提供到识别单元223，并指示用于执行一般对象识别线程的识别单元223以及用于执行第一和第二跟踪线程的跟踪单元224开始处理。

此外，响应于从结束判断单元25提供的结束信息，线程建立单元222消除一般对象识别线程以及第一和第二跟踪线程。具体来说，线程建立单元222指示识别单元23和跟踪单元24结束处理。

识别单元223以与图2所示的识别单元23基本相同的方式构成，但是其不仅输出注册ID和作为识别结果获得的对象参数，还输出识别出目标对象的输入图像的帧编号。

也就是说，与识别单元23相似，识别单元223基于从线程建立单元222提供的输入图像以及在注册图像字典注册单元24中注册的注册图像进行一般对象识别处理。随后，识别单元223将与包括在输入图像中的目标对象相对应的注册ID、作为一般对象识别处理的结果获得的对象参数以及输入图像的帧编号提供到跟踪单元224。

此外，与识别单元23相似，识别单元223将与目标对象相对应的图标ID提供到图标生成单元31。此外，与识别单元23相似，识别单元223基于一般对象识别处理的结果将消除信息提供到结束判断单元25。

如上所述，跟踪处理被分为第一跟踪线程和第二跟踪线程的两个线程，所以跟踪单元224由用于执行第一跟踪线程的指定区域跟踪单元231以及用于执行第二跟踪线程的指定区域跟踪单元232构成。

指定区域跟踪单元231基于从识别单元223提供的帧编号读出存储在图像数据存储单元226中的具有预定帧数的输入图像。指定区域跟踪单元231基于从识别单元223提供的对象参数指定要进行跟踪的区域作为指定区域。

此外，指定区域跟踪单元231对从图像数据存储单元226中读出的具有预定帧数的输入图像的指定区域进行跟踪。指定区域跟踪单元231将从识别单元223提供的注册ID以及作为跟踪结果获得的对象参数提供给指定区域跟踪单元232。稍后将参考图34说明指定区域跟踪单元231的细节。

基于从指定区域跟踪单元231提供的对象参数，指定区域跟踪单元232指定要进行跟踪的区域作为指定区域。指定区域跟踪单元232读出从图像获取单元221提供的刚拍摄的输入图像。指定区域跟踪单元232对指定区域进行读取的输入图像的跟踪。

此外，指定区域跟踪单元232将从指定区域跟踪单元231提供的注册ID、作为跟踪结果获得的对象参数以及从图像获取单元221提供的输入图像的帧编号提供给几何变换单元225。此外，指定区域跟踪单元232将注册ID和对象参数提供给图像合成单元32。

基于从跟踪单元224的指定区域跟踪单元232提供的帧编号，几何变换单元225从图像数据存储单元226中读出具有该帧编号的输入图像。

此外，几何变换单元225根据从指定区域跟踪单元232提供的对象参数，确定从图像数据存储单元226中读出的输入图像内的对象区域，并对对象区域图像进行几何变换。几何变换单元225将从指定区域跟踪单元232提供的注册ID以及几何变换之后的对象区域图像提供到图像校正单元27。图像数据存储单元226存储从图像获取单元221提供的输入图像。

接下来，参考图32和图33所示的流程图对图像处理设备211进行的图像处理进行说明。例如，当用户指示开始图像处理时，该图像处理开始。

在步骤S501中，线程建立单元222建立一般对象识别线程、第一跟踪线程以及第二跟踪线程。

在步骤S502中，图像获取单元221获取拍摄单元12拍摄的拍摄图像作为输入图像。随后，图像获取单元221将输入图像提供到图标生成单元31、线程建立单元222、跟踪单元224以及图像数据存储单元226。

在步骤S503中，识别单元223判断现在是否正在进行一般对象识别处理。在步骤S503中判断出没有进行一般对象识别处理的情况下，即在还未进行第一一般对象识别处理的情况下，或在完成了一次一般对象识别处理的情况下，处理进行到步骤S504。

在步骤S504中，识别单元223开始图23到图25所示的一般对象识别处理。然而，应当指出，在识别单元223进行的一般对象识别处理中，在图25所示的步骤S360中，与注册ID和对象参数一起输出识别出目标对象的输入图像的帧编号。

在步骤S505中，指定区域跟踪单元231判断是否在前一一般对象识别处理中识别出了对象。

在步骤S505中判断出没有在前一一般对象识别处理中识别出对象的情况下，即在前一一般对象识别处理的步骤S356(图25)中输出“不可识别”的情况下，处理进行到图33所示的步骤S526。

在步骤S505中判断出在前一一般对象识别处理中识别出对象的情况下，即在前一一般对象识别处理的步骤S360(图25)中输出注册ID、对象参数和帧编号的情况下，或在紧接的前一步骤S504中开始的一般对象识别处理是第一次一般对象识别处理的情况下，处理进行到步骤S506。

在步骤S506中，跟踪单元224的指定区域跟踪单元231获取在前一次一般对象识别处理中从识别单元223输出的注册ID。该注册ID还被提供到图像合成单元32。

在步骤S507中，指定区域跟踪单元231获取在前一次一般对象识别处理中从识别单元223输出的对象参数。在步骤S508中，指定区域跟踪单元231获取在前一次一般对象识别处理中从识别单元223输出的帧编号。

在步骤S509中，指定区域跟踪单元231开始用于跟踪具有预定帧数的输入图像的指定区域的第一指定区域跟踪处理。此外，指定区域跟踪单元232执行用于跟踪现在刚拍摄的输入图像的指定区域的第二指定区域跟踪处理。

将参考稍后说明的图35说明第一指定区域跟踪处理的细节。此外，将参考稍后说明的图40说明第二指定区域跟踪处理的细节。

另一方面，在步骤S503中判断出正在进行一般对象识别处理的情况下，在步骤S510中，指定区域跟踪单元232判断目标对象是否在前一次第二指定区域跟踪处理中已经能够被跟踪，即是否在稍后说明的图35所示的第一指定区域跟踪处理或稍后说明的图40所示的第二指定区域跟踪处理中输出了“不能跟踪”。

在步骤S510中判断出不能在前一次第二指定区域跟踪处理中跟踪目标对象的情况下，处理返回到步骤S502，重复上述处理。

另一方面，在步骤S510中判断出在前一次第二指定区域跟踪处理中能够跟踪目标对象的情况下，在步骤S511中，指定区域跟踪单元232执行第二指定区域跟踪处理。

在步骤S509或S511中的处理之后，处理进行到步骤S512。在步骤S512中，几何变换单元225获取从指定区域跟踪单元232提供的对象参数作为第二指定区域跟踪处理的结果。对象参数还被提供到图像合成单元32。

步骤S513～S515中的处理与图17所示的步骤S117～S119中的处理相同，所以省略其说明。

在图33所示的步骤S516中，图像比较单元28判断第一指定区域跟踪处理中的指定区域是否已经被更新。在步骤S516中判断出第一指定区域跟踪处理中的指定区域已经被更新的情况下，在步骤S517中，与图18所示的步骤S120中的处理相似，图像校正单元27采用在识别单元223进行的一般对象识别处理中匹配的特征点的外围的注册亮度值和对象亮度值来校正注册亮度值，使得该特征点的外围的注册亮度值和对象亮度值变得一致。

随后，图像校正单元27将注册亮度值校正之后的处理后的注册图像以及灰度变换和大小变换之后的对象区域图像提供到图像比较单元28，处理进行到步骤S518。

另一方面，在步骤S516中判断出第一指定区域跟踪处理中的指定区域没有被更新的情况下，处理跳过步骤S517。也就是说，在这种情况下，图像校正单元27将在前一步骤S517中校正了注册亮度值的处理后的注册图像与灰度变换和大小变换之后的对象区域图像一起提供给图像比较单元28。也就是说，以一次一般对象识别处理一次的速率进行注册亮度值的校正。随后，处理进行到步骤S518。

在步骤S518中，与图18所示的步骤S121中的处理相似，图像比较单元28对从图像校正单元27提供的处理后的注册图像的注册亮度值和对象区域图像的对象亮度值进行用于获取差的差分处理，并检测作为亮度值表示差的亮度差分图像的亮度值大于预定阈值的区域的位置作为重叠区域的位置。随后，图像比较单元28将重叠位置信息提供给命令判断单元29和图标生成单元31。

在步骤S519中，图像比较单元28判断自从每一个一般对象识别处理开始后是否第一次执行第一和第二跟踪处理，即自从每一个一般对象识别处理开始后是否第一次从图像校正单元27输入处理后的注册图像和对象区域图像。在步骤S519中判断出自从每一个一般对象识别处理开始后第一次进行第一和第二跟踪处理的情况下，处理进行到步骤S520。

另一方面，在步骤S519中判断出自从每一个一般对象识别处理开始后不是第一次进行第一和第二跟踪处理的情况下，即在自从每一个一般对象识别处理开始后第一和第二跟踪处理执行了不少于2次的情况下，处理进行到步骤S524。

步骤S520～S526中的处理与图18所示的步骤S123～S129中的处理相同，所以省略其说明。

在步骤S527中，响应于从结束判断单元25提供的结束信息，线程建立单元222消除一般对象识别线程以及第一和第二跟踪线程，该处理结束。

为了执行第一指定区域跟踪处理，图31所示的指定区域跟踪单元231具有例如图34所示的配置。

图34所示的指定区域跟踪单元231包括区域指定单元241、特征点提取单元242、光流计算单元243、仿射矩阵计算单元244、误差计算单元245以及得分计算单元246。

将对象参数从识别单元223或得分计算单元246提供给区域指定单元241。区域指定单元241基于对象参数指定指定区域，并将指定区域提供给特征点提取单元242。

将帧编号从识别单元223提供给特征点提取单元242，特征点提取单元基于帧编号从图像数据存储单元226中读出输入图像作为目标输入图像。

特征点提取单元242例如以与图3所示的特征点提取单元122相同的方式从目标输入图像中提取特征点。基于从区域指定单元241提供的指定区域，特征点提取单元242消除提取的特征点中布置在指定区域之外的特征点，并临时保持表示指定区域内的特征点位置的特征点信息。此外，特征点提取单元242将目标输入图像的指定区域内的特征点的特征点信息(下文中称为“目标帧特征点信息”)、目标输入图像退后一帧的输入图像(下文中称为“前一输入图像”)的指定区域内的特征点的特征点信息(下文中称为“前一帧特征点信息”)、以及目标输入图像提供给光流计算单元243。此外，特征点提取单元242将目标帧特征点信息和前一帧特征点信息提供给误差计算单元245。

基于目标帧特征点信息、前一帧特征点信息以及目标输入图像，光流计算单元243计算光流作为每个特征点的运动信息，并将光流提供给仿射矩阵计算单元244。

在从光流计算单元243提供的各个特征点的光流中，仿射矩阵计算单元244根据3个特征点的光流计算用于进行仿射变换的仿射矩阵。仿射矩阵计算单元244将仿射矩阵提供给误差计算单元245。

误差计算单元245将用从特征点提取单元242提供的前一帧特征点信息表示的特征点的位置乘以从仿射矩阵计算单元244提供的仿射矩阵。随后，误差计算单元245计算作为相乘结果获得的每个特征点的位置与用从特征点提取单元242提供的目标帧特征点信息表示的每个特征点的位置之间的误差，并将每个特征点和仿射矩阵处的误差提供给得分计算单元246。

在从误差计算单元245提供的误差中，得分计算单元246判断是否存在比预定阈值T小的误差。响应于判断结果，得分计算单元246确定与误差相对应的仿射矩阵的得分。现在，假设确定了得分，使得具有比阈值T小的误差的特征点的数目越多，得分越大。

在目标输入图像中的仿射矩阵中，得分计算单元246选择具有最大得分的仿射矩阵作为指定区域的代表仿射矩阵。得分计算单元246将代表仿射矩阵的参数提供给区域指定单元241作为对象参数。此外，将注册ID从识别单元223提供给得分计算单元246，得分计算单元246在预定定时将代表仿射矩阵的参数与注册ID一起提供给指定区域跟踪单元232作为对象参数。

接下来，参考图35所示的流程图对指定区域跟踪单元231进行的第一指定区域跟踪处理进行说明。

在步骤S551中，区域指定单元241基于作为识别单元223进行的一般对象识别处理的结果获得的对象参数来指定指定区域。也就是说，基于对象参数的位置信息(坐标数据)指定要进行跟踪的指定区域，并将指定区域提供给特征点提取单元242。在步骤S552中，基于包括从识别单元223提供的识别出的目标对象的帧的帧编号，特征点提取单元242读出存储在图像数据存储单元226中的输入图像中具有该帧编号的输入图像作为目标输入图像。在步骤S553中，特征点提取单元242提取目标输入图像的特征点。该特征点可以被取为与上述图4所示的步骤S16中的情况下相同的特征点。

在步骤S554中，特征点提取单元242从在步骤S552中提取的特征点中消除布置在从区域指定单元241提供的指定区域外部的特征点，并临时保持表示指定区域内的特征点的位置的特征点信息。此外，特征点提取单元242将目标帧特征点信息、前一帧特征点信息以及目标图像提供给光流计算单元243，并将目标帧特征点信息和前一帧特征点信息提供给误差计算单元245。

在步骤S555中，光流计算单元243基于从特征点提取单元242提供的目标帧特征点信息、前一帧特征点信息和目标图像，利用例如LK(LucasKanade)方法计算每个特征点的光流。

参考图36说明该计算。应当指出，在图36中，对利用LK方法计算沿垂直于光轴的方向的特征点P的光流的情况进行说明。

在光流计算中，分析用目标帧特征点信息表示位置的特征点、以及用前一帧特征点信息表示位置的特征点的运动，但更具体来说，根据输入图像形成分辨率以逐步方式降低的多个图像，首先，在分辨率降低的图像之间进行比较。因此，分析特征点的运动时的计算处理量可以被抑制到最小。

如图36A和图36B所示，如果假设拍摄单元12在时间点t-1拍摄的前一输入图像251A以及在时间点t拍摄的目标输入图像251B的像素数是320×240个像素，如图36A所示，光流计算单元243基于前一输入图像251A生成两种图像：通过将前一输入图像251A的分辨率降低到1/4而获得的260×120像素的图像252A，以及通过将分辨率进一步降低到1/4而获得的800×60像素的图像253A。此外，相似地，光流计算单元243基于目标输入图像251B生成两种图像：通过将目标输入图像251B的分辨率降低到1/4而获得的260×120像素的图像252B，以及将分辨率进一步降低到1/4而获得的800×60像素的图像253B。

应当指出，图像252A(252B)和图像253A(253B)是包括在与具有原始的320×240像素的前一输入图像251A(目标输入图像251B)相同的屏幕区域中的图像，但是通过减小像素数降低了分辨率。此外，将目标输入图像251B、图像252B以及图像253B保持在光流计算单元243中，并用来进行下一个目标输入图像的特征点的光流计算。也就是说，前一输入图像251A、图像252A以及图像253A是在上一次计算时保持的图像。

首先，光流计算单元243比较具有最低分辨率的图像253A和图像253B，并分析特征点P的粗略运动。图像253A和图像253B具有小的像素数和小的搜索范围，从而可以以小负荷执行计算光流的计算处理。光流计算单元243比较图像253A和图像253B，从而简单地获得从时间点t-1的特征点P(t-1)指向时间点t的特征点P(t)的向量作为特征点(P)的光流。

接下来，光流计算单元243将集中在检测出特征点P的光流的范围上的图像252A和图像252B与图像253A和图像253B进行比较，并更详细地分析特征点P的运动。图像252A和252B的像素数大于图像253A和253B的像素数，但是可以通过经由对图像253A和253B的分析缩窄搜索范围来减小计算处理的负荷。

接下来，光流计算单元243将集中在检测出特征点P的光流的范围上的拍摄单元12拍摄的具有320×240像素的前一输入图像251A和目标输入图像251B与图像252A和252B进行比较，并更详细地分析特征点P的运动。通过对图像252A和252B的分析，搜索范围被进一步缩窄，从而可以以小负荷和高精度使用包括最大像素数的前一输入图像251A和目标输入图像251B计算特征点P(t)的光流。

如图36所示，根据LK方法，可以在针对按时间顺序的每个帧分析特征点的运动时抑制处理量，还可以在时间延迟被抑制到最小的状态下分析按时间顺序的图像的运动。例如，可以根据在网站(http://robots.stanford.edu/cs223b04/algo_tracking.pdf)中列出的文章“Pyramidal Implementation of the Lucas Kanade Feature TrackerDescription of the algorithm；Jean-Yves Bouguet，Intel Corporation，Microprocessor Research Labs”中说明的技术，执行利用LK方法的这种光流图像处理。因此，将LK方法应用到相对光流计算强的特征点，并使用具有以逐步方式变化的分辨率的图像来分析特征点的运动，从而可以以高精度在短时间内计算特征点的光流。

此外，可以用LK方法之外的另一种方法来进行光流计算，例如已知的块匹配法、梯度法等。

将这样计算的每个特征点的光流提供给仿射矩阵计算单元244。接下来，在步骤S556中，仿射矩阵计算单元244从与从光流计算单元243提供的光流相对应的每个特征点中选择3个特征点。

在步骤S557中，仿射矩阵计算单元244根据在步骤S556中选择的3个特征点的光流，计算用于对该3个特征点进行仿射变换的仿射矩阵。现在，仿射变换是允许相似度变换的变换，其中将标度变换加到平行位移和旋转变换(欧几里德变换)以具有剪切应变(shear strain)，并且仿射变换是这样的变换：几何特性被保持，使得原始形状沿直线排列的点在变换之后还沿直线排列，平行线在变换之后仍是平行线等。

对用于进行仿射变换的仿射矩阵进行说明。下面的表达式(11)给出从前一图像的特征点的光流[x y]^T到目标输入图像的特征点的光流[u v]^T的仿射变换。

(\begin{matrix} u \\ v \end{matrix}) = (\begin{matrix} a_{1} & a_{2} \\ a_{3} & a_{4} \end{matrix}) (\begin{matrix} x \\ y \end{matrix}) + (\begin{matrix} b_{1} \\ b_{2} \end{matrix}) = (\begin{matrix} a_{1} & a_{2} & b_{1} \\ a_{3} & a_{4} & b_{2} \end{matrix}) (\begin{matrix} x \\ y \\ 1 \end{matrix}) . . . (11)

在该表达式(11)中，a_i(i＝1到4)表示用于确定剪切应变的参数，[b₁ b₂]^T表示平行位移参数。要计算的仿射矩阵参数(仿射变换参数)是a₁到a₄以及b₁和b₂共6个参数，所以如果存在3个特征点组，则可以确定仿射矩阵。换句话说，为了计算用于进行仿射变换的仿射矩阵(仿射变换参数)，需要3个或更多个特征点组。因此，在步骤S556中，选择3个特征点，并在步骤S557中，根据这3个特征点的光流计算仿射矩阵。仿射矩阵计算单元244将作为计算结果获得的仿射矩阵提供给误差计算单元245。

在步骤S558中，误差计算单元245将用从特征点提取单元242提供的前一帧特征点信息表示的每个特征点的位置乘以从仿射矩阵计算单元244提供的仿射矩阵。在步骤S559中，误差计算单元245计算作为相乘结果获得的每个特征点的位置和用从特征点提取单元242提供的目标帧特征点信息表示的每个特征点的位置之间的误差，并将每个特征点的误差和仿射矩阵提供给得分计算单元246。

在步骤S560中，在从误差计算单元245提供的每个特征点的误差中，得分计算单元246判断是否存在比预定阈值T小的误差。在步骤S560中判断出存在比阈值T小的误差的情况下，在步骤S561中，得分计算单元246将与误差同时提供的仿射矩阵的得分增加误差比阈值T小的特征点的数目。应当指出，要增加的值可以是预定值，或者可以是根据误差的值。

另一方面，在步骤S560中判断出不存在比阈值T小的误差，即全部特征点的误差等于或大于阈值T的情况下，处理跳过步骤S561。也就是说，得分计算单元246不增加得分。

在步骤S562中，得分计算单元246判断关于目标输入图像的仿射矩阵计算是否重复了预定次数。在步骤S562中判断出仿射矩阵计算还未重复预定次数的情况下，处理返回到步骤S556，仿射矩阵计算单元244重新选择3个特征点，并重复执行上述处理。

另一方面，在步骤S562中判断出关于目标输入图像的仿射矩阵计算已经重复了预定次数的情况下，在步骤S563中，得分计算单元246判断在关于目标输入图像的仿射矩阵得分中最大得分是否为0。

在步骤S563中判断出在关于目标输入图像的仿射矩阵得分中最大得分是0的情况下，即在不存在具有比阈值T小的误差的特征点的情况下，处理进行到步骤S564。在步骤S564中，得分计算单元246确定跟踪失败，输出“不可跟踪”，该处理结束。

此外，在步骤S563中判断出在关于目标输入图像的仿射矩阵得分中最大得分不是0的情况下，在步骤S565中，得分计算单元246选择关于目标输入图像的仿射矩阵中具有最大得分的仿射矩阵作为指定区域的代表仿射矩阵。

参考图37和图38说明如此选择的代表仿射矩阵。在图37和图38所示的例子中，当用户(例如图1所示的A先生)在手中保持的作为注册图像的照片261的印刷品以位于手腕上的点262为中心旋转时，将作为被摄体拍摄保持照片261的印刷品的手得到的输入图像260取为目标图像。

应当指出，在图37中，圆形标记、三角形标记以及x标记表示要从输入图像260提取的特征点，将输入图像260的照片261的图像区域指定为指定区域263。

此外，在图37中用圆形标记表示的特征点是位于照片261上输入图像260的指定区域263内的特征点，而用三角形标记表示的特征点是位于指定区域263内的照片261和手之间边界上的特征点。用x标记表示的特征点是位于输入图像260的指定区域263外部的特征点。因此，在特征点提取单元242进行的步骤S554中的处理中，消除从输入图像260中提取的特征点中用x标记表示的特征点。

在指定区域263内用圆形标记和三角形标记表示的特征点中，指定区域跟踪单元231根据3个特征点的光流计算仿射矩阵。例如，如图38所示，在照片261的印刷品在以点262为中心的图中沿右上方向运动，并且拍摄了输入图像260的情况下，输入图像260的3个特征点n1～n3的各个光流是从前一图像的3个特征点m1～m3的位置到特征点n1～n3的向量v1～v3，根据向量v1～v3计算仿射矩阵。

在使用该仿射矩阵计算的特征点位置的误差小于阈值T的情况下，将得分增加特征点的数目，并且将具有最大得分的仿射矩阵选择为代表仿射矩阵，所以将在指定区域263内具有最小误差的仿射矩阵选择为代表仿射矩阵。因此，不是与用三角标记表示的位于处于指定区域263内局部的手的边界上的特征点相对应的仿射矩阵，而是与位于照片261上用圆形标记表示的整体位于指定区域263内的特征点相对应的仿射矩阵选择为代表仿射矩阵。也就是说，可以将噪声类似运动的影响很小的仿射矩阵选择为代表仿射矩阵。

在步骤S566中，得分计算单元246判断是否作为目标输入图像处理了对应于输入图像的预定数量的帧，即是否选择了对应于代表仿射矩阵的预定数量的帧。如稍后参考图41说明的，该预定数量的帧是在拍摄用于一般对象识别处理的输入图像之后、直到基于通过该一般对象识别处理输入的对象参数的指定区域的第一指定区域跟踪处理结束时所拍摄的输入图像的多个帧。

在步骤S566中判断出没有作为目标输入图像处理了对应于输入图像的预定数量的帧的情况下，得分计算单元246将代表仿射矩阵的参数提供给区域指定单元241作为对象参数，在步骤S567中，区域指定单元241基于该对象参数将指定区域的状态改变为另一个状态。应当指出，将指定区域的状态改变为另一个状态(指定区域的转换)意味着指定区域的运动和其姿势的改变。区域指定单元241将转换之后的指定区域提供给特征点提取单元242。

在步骤S568中，特征点提取单元242将紧接之前读出的作为目标输入图像的输入图像的帧编号的下一个帧编号的输入图像作为目标图像读出。随后，处理返回到步骤S553，重复执行上述处理。

另一方面，在步骤S566中判断出作为目标输入图像处理了对应于输入图像的预定数量的帧的情况下，在步骤S569中，得分计算单元246将代表仿射矩阵的参数作为对象参数与从识别单元223提供的注册ID一起输出到指定区域跟踪单元232作为指定区域的跟踪结果。

如上所述，可以以高速执行第一指定区域跟踪处理，从而能够进行实时跟踪。

此外，图31所示的指定区域跟踪单元232具有例如图39所示的结构，用于执行第二指定区域跟踪处理。

图39所示的指定区域跟踪单元232包括区域指定单元311、特征点提取单元312、光流计算单元313、仿射矩阵计算单元314、误差计算单元315以及得分计算单元316。

将对象参数从指定区域跟踪单元231的得分计算单元246或得分计算单元316提供给区域指定单元311。与图34所示的区域指定单元241相似，区域指定单元311基于对象参数指定指定区域，并将指定区域提供给特征点提取单元312。

将输入图像从拍摄单元12提供到特征点提取单元312。特征点提取单元312将提供的输入图像视为目标输入图像，并以与特征点提取单元122(图3)和特征点提取单元242(图17)相同的方式从目标图像中提取特征点。以与特征点提取单元242相同的方式，基于从区域指定单元311提供的指定区域，特征点提取单元312消除提取的特征点中位于指定区域外部的特征点，并临时保持特征点信息。此外，特征点提取单元312将目标帧特征点信息、前一帧特征点信息以及目标输入图像提供给光流计算单元313。此外，特征点提取单元312将目标帧特征点信息和前一帧特征点信息提供给误差计算单元315。

光流计算单元313、仿射矩阵计算单元314以及误差计算单元315的功能与光流计算单元243、仿射矩阵计算单元244以及误差计算单元245的功能相同，所以省略其说明，以便避免冗余的说明。

以与图34所示的得分计算单元246相同的方式，得分计算单元316判断在从误差计算单元315提供的误差中是否存在比预定阈值T小的误差。以与得分计算单元246相同的方式，得分计算单元316响应于判断结果确定与该误差相对应的仿射矩阵的得分。

以与得分计算单元246相同的方式，在目标输入图像的仿射矩阵中，得分计算单元316选择具有最大得分的仿射矩阵作为指定区域的代表仿射矩阵。得分计算单元316将代表仿射矩阵的参数提供给区域指定单元311作为对象参数。

此外，将注册ID从得分计算单元246提供到得分计算单元316。得分计算单元316将注册ID、目标输入图像的帧编号以及对象参数提供给几何变换单元225，还将注册ID和对象参数提供给图像合成单元32。

因此，指定区域跟踪单元232的配置基本上与指定区域跟踪单元231的配置相同。

接下来，参考图40所示的流程图对图39所示的指定区域跟踪单元232进行的第二指定区域跟踪处理的细节进行说明。

在步骤S601中，区域指定单元311判断是否从指定区域跟踪单元231输入了对象参数。在步骤S601中判断出从指定区域跟踪单元231输入了对象参数的情况下，在步骤S602中，区域指定单元311基于从指定区域跟踪单元231提供的对象参数指定指定区域，并将指定区域提供给特征点提取单元312。

另一方面，在步骤S601中判断出没有从指定区域跟踪单元231输入对象参数的情况下，在步骤S603中，区域指定单元311基于在稍后说明的步骤S618中从得分计算单元316提供的对象参数，将指定区域的状态改变为另一个状态，并将指定区域提供给特征点提取单元312。

在步骤S602或S603中的处理之后，处理进行到步骤S604，特征点提取单元312获取从拍摄单元12提供的输入图像作为目标输入图像。步骤S605～S617中的处理与图35所示的步骤S553～S565中的处理相同，所以省略其说明，以避免冗余说明。

在步骤S617中选择了代表仿射矩阵之后，在步骤S618中，得分计算单元316将代表仿射矩阵的参数作为对象参数与从指定区域跟踪单元231的得分计算单元246提供的注册ID以及目标输入图像的帧编号一起输出到几何变换单元225，作为指定区域的跟踪结果。此外，得分计算单元316将对象参数和注册ID输出到图像合成单元32，并将对象参数输出到区域指定单元311。

因此，指定区域跟踪单元232的第二指定区域跟踪处理与指定区域跟踪单元231的第一指定区域跟踪处理基本相同，从而使得可以实时进行高速处理和跟踪，但是在指定区域跟踪单元231的第一指定区域跟踪处理中，基于从识别单元223提供的信息设置进行跟踪的初始值，而在指定区域跟踪单元232的第二指定区域跟踪处理中，基于从指定区域跟踪单元231提供的信息设定进行跟踪的初始值。此外，在指定区域跟踪单元231的第一指定区域跟踪处理中，要处理的图像是存储在图像数据存储单元226中的输入图像，但是在指定区域跟踪单元232的第二指定区域跟踪处理中，要处理的图像是从图像获取单元221实时提供的输入图像。

接下来，参考图41说明图31所示的图像处理设备211的处理定时。

应当指出，在图41中，水平方向代表时间点。此外，在图41中，正方形代表在与水平方向上的位置相对应的时间点要处理的帧，在正方形中或正方形上描述的数字代表帧的帧号。

如图41中的A所示，在拍摄单元12进行的拍摄处理中，对被摄体进行拍摄，并且获取以帧为单位的拍摄图像作为输入图像。在图41所示的例子中，第一次拍摄注册图像的输入图像的帧号是“2”。

此外，在图41所示的例子中，如图41中的B所示，从图23到图25所示的一般对象识别处理开始直到一般对象识别处理结束，拍摄和存储了相当于输入图像的5个帧。因此，如图41中的B所示，在一般对象识别处理中，在该处理开始时，将每5帧从拍摄单元12输入的输入图像取为目标输入图像。具体来说，在图41所示的例子中，按顺序将帧号是“2”、“7”、“12”、“17”等的输入图像取为目标输入图像。

如图41中的C所示，当通过一般对象识别处理从识别单元223输入对象参数时，开始图35所示的第一指定区域跟踪处理。在该第一指定区域跟踪处理中，按照从用来获取在处理开始时输入的对象参数的输入图像开始的顺序，即按照从识别单元223提供的帧编号的输入图像开始的顺序，将输入图像取为目标输入图像，直到将最后存储的输入图像取为目标输入图像为止。换句话说，从拍摄从识别单元223提供的帧编号的输入图像，直到第一指定区域跟踪处理结束，依次将拍摄的输入图像取为目标输入图像。

应当指出，在图41所示的例子中，从拍摄从识别单元223提供的帧编号的输入图像开始，直到第一指定区域跟踪处理结束，拍摄并存储了相对于输入图像的7个帧。因此，在第一指定区域跟踪处理中，将相当于输入图像的7个帧取为目标输入图像。

如上所述，在第一指定区域跟踪处理中，关于从在一般对象识别处理中拍摄输入图像直到第一指定区域跟踪处理结束时拍摄的输入图像，对指定区域进行跟踪。因此，在第一指定区域跟踪处理中输出的对象参数变成关于紧接在第二指定区域跟踪处理开始之前拍摄的输入图像的指定区域的跟踪结果。

如图41中的D所示，当通过第一指定区域跟踪处理从指定区域跟踪单元231输入对象参数时，或当输入对象参数之后输入图像被输入时，开始图40所示的第二指定区域跟踪处理。该第二指定区域跟踪处理是通过将在处理开始时拍摄的输入图像取为目标图像来执行的。

如上所述，在第一指定区域跟踪处理中输出的对象参数变成关于紧接在第二指定区域跟踪处理开始之前拍摄的输入图像的指定区域的跟踪结果，所以在第二指定区域跟踪处理中，对基于该对象参数的指定区域进行跟踪，从而可以对在处理开始时拍摄的输入图像进行实时跟踪。因此，利用图31所示的图像处理设备211，在执行高精度但花费长时间的一般对象识别处理的同时，可以基于一般对象识别处理的结果进行实时跟踪，从而可以以高精度进行实时跟踪。

如图41所示，在本实施例的情况下，执行基于第2帧到第8帧的第一指定区域跟踪处理，在该处理之后，图像处理设备211前进到第二指定区域跟踪处理，不照样继续第二指定区域跟踪，但是每5帧执行一般对象识别处理和第一指定区域跟踪处理，在每一种情况下，重新开始第二指定区域跟踪处理。因此，与不重新开始第二指定区域跟踪处理的情况相比，可以执行更准确的跟踪。

应当指出，在上面的说明中，图像校正单元27校正注册亮度值，但是可以改为校正对象亮度值。此外，在上面的说明中，图像比较单元28采用对象区域图像来建立亮度图，但是可以进行下列设置：预先将注册图像亮度图以与注册图像相关联的方式注册在注册图像字典注册单元24中，图像比较单元28基于亮度图和对象参数在对象区域图像内提取亮度近似区域。

此外，在上述图像处理设备11(211)中，设置了图像显示单元33，在图像显示单元33上显示将布置了图标的合成图像，但是只要用作用户接口的标记被印刷在目标对象上，则不需要设置图像显示单元33来反馈拍摄单元12拍摄的拍摄图像。在这种情况下，图像处理设备11(211)预先存储标记的位置，并发出与存在于重叠区域上的标记相对应的命令。

应当指出，在本说明书中，描述存储在程序记录介质中的程序的各个步骤不仅包括根据所描述的顺序按时间顺序进行的处理，还包括不必按时间顺序执行、而可以并行或单独执行的处理。

应当指出，本发明的实施例不限于上述实施例，可以进行各种变形而不脱离本发明的实质。本领域技术人员应当理解，根据设计需要和其它因素可以进行各种变形、组合、子组合和变化，而它们仍在所附权利要求或其等同物的范围内。

Claims

1.一种图像处理设备，所述图像处理设备包括：

获取装置，用于获取拍摄图像；

识别装置，用于从所述拍摄图像中识别与预先注册的注册图像相对应的对象；

检测装置，用于基于与从所述拍摄图像中识别出的对象相对应的注册图像，检测另一个对象与对应于所述注册图像的对象相重叠的区域；

第一指定区域跟踪装置，用于执行第一指定区域跟踪处理，所述第一指定区域跟踪处理用于跟踪基于所述识别装置的识别结果指定的所述拍摄图像内的第一指定区域；以及

第二指定区域跟踪装置，用于执行第二指定区域跟踪处理，所述第二指定区域跟踪处理用于跟踪基于作为所述第一指定区域跟踪处理的结果获得的对象参数指定的所述拍摄图像内的第二指定区域，

其中，所述检测装置基于所述拍摄图像内基于作为所述第二指定区域跟踪处理的结果获得的对象参数的区域的图像以及与从所述拍摄图像中识别出的对象相对应的注册图像，检测所述重叠区域。

2.根据权利要求1所述的图像处理设备，还包括：

发出装置，用于发出与所述重叠区域相对应的命令。

3.根据权利要求2所述的图像处理设备，还包括：

显示控制装置，用于显示所述拍摄图像；

其中所述显示控制装置将与所述命令相对应的图标显示在所述拍摄图像内与所述注册图像相对应的对象上；以及

所述发出装置发出与显示在所述重叠区域上的图标相对应的命令。

4.根据权利要求3所述的图像处理设备，其中，所述显示控制装置将与所述命令相对应的所述图标显示在与所述注册图像相对应的对象的、所述对象被第一次识别时拍摄图像重叠的区域之外的区域上。

5.根据权利要求3所述的图像处理设备，其中，所述检测装置还从所述拍摄图像内的与所述注册图像相对应的对象区域中，检测作为接近所述另一个对象的亮度的亮度区域的亮度近似区域；以及

所述显示控制装置将与所述命令相对应的所述图标显示在与所述注册图像相对应的对象的、所述亮度近似区域之外的区域上。

6.根据权利要求2所述的图像处理设备，其中，与所述注册图像相对应的所述对象包括与所述命令相对应的标记；以及

所述发出装置发出与存在于所述重叠区域上的标记相对应的命令。

7.根据权利要求1所述的图像处理设备，还包括：

校正装置，用于校正所述拍摄图像内与所述注册图像相对应的所述对象的亮度和所述注册图像的亮度中的至少一个，使得所述拍摄图像内与所述注册图像相对应的所述对象的亮度与所述注册图像的亮度相同；

其中，所述检测装置基于拍摄图像内与注册图像相对应的对象的亮度和注册图像的亮度之间的差检测所述重叠区域，所述拍摄图像内的对象的亮度和注册图像的亮度中的至少一个已经由所述校正装置校正。

8.一种用于图像处理设备的图像处理方法，所述图像处理方法包括步骤：

获取拍摄图像；

从所述拍摄图像中识别与预先注册的注册图像相对应的对象；

基于与从所述拍摄图像中识别出的对象相对应的注册图像，检测另一个对象与对应于所述注册图像的对象相重叠的区域；

执行第一指定区域跟踪处理，所述第一指定区域跟踪处理用于跟踪基于所述识别的结果指定的所述拍摄图像内的第一指定区域；以及

执行第二指定区域跟踪处理，所述第二指定区域跟踪处理用于跟踪基于作为所述第一指定区域跟踪处理的结果获得的对象参数指定的所述拍摄图像内的第二指定区域，

其中，基于所述拍摄图像内基于作为所述第二指定区域跟踪处理的结果获得的对象参数的区域的图像以及与从所述拍摄图像中识别出的对象相对应的注册图像，检测所述重叠区域。