CN102591447A

CN102591447A - 图像处理设备,方法和程序

Info

Publication number: CN102591447A
Application number: CN2011103302298A
Authority: CN
Inventors: 周宁; 大久保厚志
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2010-10-29
Filing date: 2011-10-21
Publication date: 2012-07-18
Anticipated expiration: 2031-10-21
Also published as: US8644556B2; JP2012098771A; CN102591447B; US20120106789A1

Abstract

一种图像处理设备，包括配置成接收图像数据的图像输入，配置成基于对物体的第一移动的识别，来从图像数据中提取所述物体作为目标物体的目标提取装置，和配置成基于对目标物体的第二移动的识别来发出命令的手势识别装置。

Description

图像处理设备,方法和程序

相关申请的交叉引用

本发明公开要求根据35U.S.C.§119的优先权，并且包括与2010年10月29日提交日本专利局的日本优先权专利申请JP2010-243395中公开的主题相关的主题，其全部内容通过引用包含于此。

技术领域

本发明涉及图像处理设备，方法和程序，尤其涉及适合于用于识别操作各种设备的手势的图像处理设备、方法和程序。

背景技术

近年来，为了实现更自然的人机界面，进行了手势识别技术的各种研究和开发，提出了各种技术(例如，参见日本专利公开No.2002-83302)。另外，存在诸如美国Motion Analysis的“Eagle & Hawk DigitalSystem”(商标)或美国Vicon Peak的“MX Motion Capture”(商标)之类的人机界面或运动捕捉的实用例子。

在如上所述的各种技术中，跟踪用户佩戴的或者用手拿着的预先登记的目标物体(比如专用工具)，以识别用户做出的手势。

另一方面，还提出一种技术，利用该技术，在不使用特定物体的情况下，跟踪作为目标物体的用户身体的一部分(比如手)，以识别手势。

发明内容

但是，在使用预先登记的目标物体的情况下，虽然增强了识别性能，但用户必须在用户务必佩戴目标物体或者用手拿着目标物体的状态下做出手势。这降低了用户的便利性。

另一方面，在使用用户身体的一部分的情况下，由于身体的所述部分的形状、颜色等因人而异，因此降低了识别性能。

于是，理想的是提供一种提高手势识别的性能和用户的便利性的图像处理设备、方法和程序。

本公开一般包括信息处理设备、图像处理方法和计算机可读介质。在一个实施例中，图像处理设备包括配置成接收图像数据的图像输入，配置成基于对物体的第一移动的识别，从图像数据中提取所述物体作为目标物体的目标提取装置，和配置成基于对目标物体的第二移动的识别，发出命令的手指识别装置。

借助所述图像处理设备、方法和计算机可读介质，能够利用任意目标物体进行手势识别。此外，能够提高手势识别的性能和用户的便利性。

根据结合附图的以下说明和附加权利要求，所公开技术的上述和其它目的、特征和优点将变得明显，附图中，相同的部分或部件用相同的附图标记表示。

附图说明

图1是表示按照所公开技术的一个实施例的信息处理系统的方框图；

图2是图解说明手势识别处理的流程图；

图3是图解说明动作识别处理的细节的流程图；

图4是图解说明目标物体提取处理的细节的流程图；

图5是图解说明识别目标物体的处理的具体例子的示意图；

图6是图解说明动作模式登记处理的流程图；

图7是表示计算机的结构例子的方框图；

图8图解说明显示目标初始位置登记向导信息的显示屏；

图9图解说明显示目标初始化动作登记向导信息的显示屏；和

图10图解说明多个命令和对应的移动。

具体实施方式

下面参考附图，说明所公开技术的实施例。应注意说明是按照下述顺序进行的。

1.所公开技术的实施例

2.变形例

<1.所公开技术的实施例>

信息处理系统的结构例子

图1表示按照所公开技术的一个实施例的信息处理系统。

参见图1，所示的信息处理系统1识别用户作出的手势，并执行与识别的手势对应的处理。信息处理系统1包括图像输入设备11，图像处理设备12和对象设备13。

图像输入设备11由使用摄像器件，比如CCD(电荷耦合器件)图像传感器或CMOS(互补金属氧化物半导体)图像传感器等的摄像机构成。图像输入设备11把通过摄像获得的图像数据(下面称为输入图像数据)提供给图像处理设备12。

图像处理设备12由包括诸如微计算机之类的各种处理器和存储介质的设备构成，包括缓冲器21，目标物体识别部分22，手势识别部分23，登记部分24，向导部分25和存储部分26。

缓冲器21临时保存从图像输入设备11供给的输入图像数据。注意，如果缓冲器21中的输入图像数据的数量超过预定量，那么按照从最陈旧的数据开始的顺序，逐次删除输入图像数据。

目标物体识别部分22执行用于识别用户作出的手势的目标物体的识别。目标物体识别部分22包括动作识别部分31，匹配部分32和目标物体提取部分33。

动作识别部分31从缓冲器21获得输入图像数据，提取输入图像数据中的运动物体，以检测提取的运动物体的动作的特征量，比如位置、移动方向、移动距离、速度或旋转角度等。此外，动作识别部分31生成并保存动作历史，所述动作历史表示在每帧输入图像数据中提取的运动物体的动作的特征量的历史。此外，动作识别部分31根据动作历史，计算提取的运动物体到此时为止的动作的特征量。下面把上述特征量称为累积动作特征量。随后，动作识别部分31把动作历史和提取的运动物体的累积动作特征量提供给匹配部分32。

匹配部分32进行提取的运动物体的累积动作特征量和保存在存储部分26中的初始化动作的动作数据之间的匹配，以根据匹配结果，判定是否进行初始化动作。下面把上面提及的动作数据称为初始化动作数据。如果判定进行初始化动作，那么匹配部分32把被判定为要进行初始化动作的运动物体的动作历史作为目标物体的动作历史，提供给目标物体提取部分33。

这里，初始化动作是使图像处理设备12识别目标物体的动作。反过来说，图像处理设备12识别输入图像数据中进行初始化动作的物体作为目标物体。

此外，如下所述，用户可把任意动作设定为初始化动作。例如，诸如逆时针方向或顺时针方向旋转，向左或向右平移，向上或向下平移之类的简单动作，或者作为多种简单动作的组合的动作可被设定为初始化动作。注意初始化动作由各种特征量，比如移动方向、移动距离、移动速度和旋转角度定义。

此外，动作数据是由表示对象动作的特征量(比如移动方向、移动距离、移动速度或旋转角度等)构成的数据。

目标物体提取部分33从缓冲器21获得输入图像数据，根据输入图像数据和目标物体的动作历史，提取目标物体的特征点和特征量。此外，目标物体提取部分33生成由提取的目标物体的特征点和特征量构成的物体模板。下面把上述物体模板称为目标物体模板。目标物体提取部分33把生成的目标物体模板提供给跟踪部分41，并把生成的模板保存在存储部分26中。此外，目标物体提取部分33把生成的目标物体模板或者保存在存储部分26中的目标物体模板提供给跟踪部分41。此外，目标物体提取部分33向向导部分25发出完成目标物体的识别的通知。

手势识别部分23跟踪输入图像数据中的目标物体，以识别用户为操作对象设备13而作出的手势，并把与识别的操作动作对应的操作信号提供给对象设备13。下面把所述手势称为操作动作。手势识别部分23包括跟踪部分41和匹配部分42。

注意如下所述，类似于初始化动作，用户能够把任意动作设定为操作动作。此外，类似于初始化动作，操作动作可用各种特征量，比如移动方向、移动距离、移动速度、旋转角度等定义。

跟踪部分41从缓冲器21获得输入图像数据，根据从目标物体提取部分33供给的目标物体模板，跟踪输入图像数据中的目标物体的移动。跟踪部分41根据跟踪结果，生成和保存目标物体的动作历史。此外，跟踪部分41根据目标物体的动作历史，计算目标物体的累积动作特征量，并把计算结果提供给匹配部分42。此外，跟踪部分41把目标物体的登记的有无，目标物体的跟踪结果等的通知发给向导部分25。

匹配部分42进行目标物体的累积动作特征量和保存在存储部分26中的操作动作的动作数据之间的匹配，并根据匹配结果，判定是否执行操作动作。下面把上述动作数据称为操作动作数据。如果判定执行操作动作，那么匹配部分42输出与操作对应的操作信号。

登记部分24从缓冲器21获得输入数据数据，并根据输入图像数据，和通过未示出的输入设备输入的用户指令，登记初始化动作和操作动作。更具体地说，登记部分24根据输入图像数据和用户指令，生成初始化动作数据和操作动作数据，并把生成的数据保存在存储部分26中。此外，登记部分24向向导部分25发出在登记初始化动作或操作动作时执行向导的指令。

向导部分25向对象设备13发出指令以执行用于使用图像处理设备12的各种向导，从而使对象设备13执行所述向导。

存储部分26由非易失性存储介质，比如EEPROM或硬盘驱动器构成。存储部分26保存目标物体模板，初始化动作数据和操作动作数据。要注意的是在存储部分26中，预先保存初始化动作数据和操作动作数据的初始值。特别地，预先登记默认动作(手势)，作为初始化动作和操作对象设备13的操作动作。

对象设备13并不局限于特定设备，并且由适用于利用手势识别的操作的设备(比如个人计算机，电视接收机，各种录像机，视频播放器等)构成。对象设备13执行与从匹配部分42供给的操作信号对应的处理。

由上述可知，根据本发明的一个优选实施方式的图像处理设备可以包括：图像输入部分11，其被配置成接收图像数据；目标提取部分33，其被配置成基于对物体的第一移动的识别，来从图像数据中提取所述物体作为目标物体；以及手势识别部分23，其被配置成基于对目标物体的第二移动的识别来发出命令。

注意，在下面的说明中，假定对象设备13包括诸如LCD(液晶显示器)设备之类的显示设备。

手势识别处理

现在参考图2的流程图，说明图像处理系统1执行的手势识别处理。注意例如当图像处理系统1的电源被接通时，开始所述处理，但是当信息处理系统1的电源被关闭时，结束所述处理。

注意，随同手势识别处理的开始，开始图像输入设备11的摄像，通过摄像获得的输入图像数据被相继提供给缓冲器21，并临时保存在缓冲器21中。此外，如果缓冲器21中的输入图像数据的存储量超过预定量，那么按照从最陈旧数据开始的顺序依次删除输入图像数据。

在步骤S1，对象设备13在向导部分25的控制下，执行登记目标物体的向导。例如，对象设备13从图像输入设备11获得输入图像数据，并根据输入图像数据显示图像。此外，对象设备13在显示的图像上显示催促目标物体的登记的消息、指示目标物体的初始位置的粗略估计的框架以及对用于识别目标物体的初始化动作进行向导的箭头标记等。从而，显示屏能够提供该初始登记向导信息，如图8和图9中所示。在这方面，图8示出显示目标初始位置400作为初始登记向导信息的显示屏。图9示出显示提供目标初始化动作的显示箭头500的显示屏。随后，按照手势，用户在例如，把待设定为目标物体的物体拿在手中或者安装在手上的状态下，把所述物体设定到通过向导设置的初始位置，随后移动手，从而进行物体的初始化动作。

注意，设定初始位置是为了使得能够更快速地识别目标物体，不一定需要提供所述初始位置。

此外，不需要总是进行目标物体的登记向导，可以省略目标物体的登记向导。

在步骤S2，动作识别部分31从缓冲器21获得由最新和次新的输入图像数据构成的输入图像数据。

在步骤S3，动作识别部分31执行动作识别处理。这里参考图3的流程图，说明动作识别处理的细节。

在步骤S31，动作识别部分31计算各帧之间的差。特别地，动作识别部分31计算从缓冲器21获得的最新一帧输入图像数据和次新一帧输入图像数据之间，在相同位置的像素的像素值之间的差值，从而生成两者之间的差分图像数据。

在步骤S32，动作识别部分31对差分图像数据进行各种滤波处理，以消除差分图像数据的背景噪声。

在步骤S33，动作识别部分31提取主要动作。具体地，动作识别部分31根据除去噪声的差分图像数据，提取输入图像数据中的主要移动物体，并检测提取的移动物体的动作的特征量。注意，在存在多个主要移动物体的情况下，动作识别部分31检测每个移动物体的动作的特征量。

注意可以采用任意技术实现主要动作的提取处理。例如，可以采用在Yokoyama，M.和T.Poggio，“A Contour-Based Moving Object Detectionand Tracking”(Proceedings of Second Joint IEEE InternationalWorkshop on Visual Surveillance and Performance Evaluation ofTracking and Surveillance(in conjunction with ICCV 2005)，pp.271-276，October 2005)中公开的技术。

此外，在图像输入设备11的摄像位置固定，并且背景的变化很小的情况下，可以应用背景差分法等。

在步骤S34，动作识别部分31更新动作历史。例如，动作识别部分31选择由步骤S33的处理提取的移动物体(下面把这样的移动物体称为有关移动物体)中的一个，根据保存的动作历史，从在先前的操作周期中的动作识别处理中提取的移动物体中，检测到所述某个移动物体的距离在预定范围之内并被置在最接近于所述有关移动物体的位置处的移动物体。随后，动作识别部分31把由步骤S33的处理检测的有关移动物体的动作的特征量加入检测的移动物体的动作历史中，从而更新动作历史。随后，动作识别部分31对由当前操作周期中的步骤S33的处理提取的所有移动物体进行所述处理。

此外，在由前一周期中的动作识别处理提取的移动物体不包括到所述某个移动物体的距离在预定范围内的移动物体的情况下，动作识别部分31把该有关移动物体作为新的移动物体添加到动作历史中。

注意在此时，可从动作历史中删除在当前时间之前的、时间长度为预定时长以上的数据。

在步骤S35，动作识别部分31进行动作识别。具体地，动作识别部分31根据用步骤S33的处理提取的移动物体的动作历史，计算从在当前时间之前的预定时长(即，预定帧数)的时刻到当前时刻的累积动作特征量。动作识别部分31把动作历史和各个移动物体的累积动作特征量提供给匹配部分32。

注意在此时，可关于每个移动物体，计算从首次检测到移动物体的时刻到当前时刻的累积动作特征量，而不设定时间的限制。

之后，结束动作识别处理，处理进入图2的步骤S4。

在步骤S4，匹配部分32判定是否进行初始化动作。具体地，匹配部分32从存储部分26读取初始化动作数据，并进行读取数据和用动作识别部分31检测的每个移动物体的累积动作特征量之间的匹配。结果，如果未检测到具有与初始化动作数据的差在预定范围内的累积动作特征量的移动物体，那么匹配部分32判定不进行初始化动作，然后处理返回步骤S2。

注意对于此时进行的匹配，可以采用任意技术，比如HMM(隐式马尔可夫模型)方法或神经网络方法等。

之后，与从图像输入设备11到缓冲器21的输入图像数据的供给同步地重复执行步骤S2到步骤S4的处理，直到在步骤S4判定进行初始化动作为止。

另一方面，如果在步骤S4，检测到具有与初始化动作数据的差在预定范围内的累积动作特征量的移动物体，那么匹配部分32判定进行初始化动作，从而处理进入步骤S5。

在步骤S5，目标物体提取部分33执行目标物体提取处理。这里参考图4的流程图，说明目标物体提取处理的细节。

在步骤S51，目标物体提取部分33计算具有预定帧数的输入图像数据中的目标物体的区域。具体地，匹配部分32把分别具有与初始化动作数据的差在预定范围内的累积动作特征量的移动物体之中，其差最小的移动物体的动作历史作为目标物体的动作历史提供给目标物体提取部分33。目标物体提取部分33从缓冲器21获取从最新的输入图像数据到在当前时刻之前的预定帧数的图像数据作为输入图像数据。随后，目标物体提取部分33根据目标物体的动作历史，计算所获得的输入图像数据中的每一帧中的目标物体的区域。

在步骤S52，目标物体提取部分33计算目标物体的形状。具体地，目标物体提取部分33进行由步骤S51的处理计算的输入图像数据中的每一帧中的目标物体的区域的匹配，以计算目标物体的形状。

在步骤S53，目标物体提取部分33提取每一帧中的目标物体的特征点。具体地，目标物体提取部分33把由步骤S52的处理计算的目标物体的形状应用于由步骤S51的处理计算的输入图像数据中的每一帧中的目标物体的区域。随后，目标物体提取部分33提取输入图像数据的每一帧的目标物体的区域中的特征点。

要注意，此时可根据一种特征量提取特征点，或者可根据多种特征量提取特征点。另外，作为提取特征点的技术，可以采用任意技术，比如局部区域直方图或尺度不变特征变换(SIFT)。

在步骤S54，目标物体提取部分33进行在每一帧中提取的目标物体的特征点的匹配。注意，用于匹配的区域距离函数并不局限于特定的函数，而是可随特征量的种类而应用适当的函数。

在步骤S55，目标物体提取部分33生成目标物体模板。例如，目标物体提取部分33根据步骤S54的匹配处理的结果，确定每一帧中被确定为彼此对应的特征点的特征量的平均值。随后，目标物体提取部分33生成包括目标物体的各个特征点以及计算出的特征量平均值的目标物体模板。

从而，例如，如果如图5中所示，用户101沿着箭头标记103的方向，旋转用手拿着的杯子102，并且沿着箭头标记103的方向的旋转动作是初始操作，那么杯子102被识别成目标物体。此外，生成指示大小基本与杯子102的大小相同的矩形区域104中的特征点和特征量的目标物体模板。

之后，结束目标物体提取处理，处理进入图2的步骤S6。

在步骤S6，目标物体提取部分33判定是否登记了用步骤S5的处理提取的目标物体。具体地，如果在存储部分26中未保存目标物体模板，那么目标物体提取部分33判定提取的目标物体未被登记，然后处理进入步骤S7。

另一方面，如果一个或多个目标物体模板被保存在存储部分26中，那么目标物体提取部分33比较用步骤S55的处理生成的目标物体模板和保存在存储部分26中的所述一个或多个目标物体模板。随后，如果在存储部分26中未保存与生成的目标物体模板的差在预定范围内的目标物体模板，那么目标物体提取部分33判定提取的目标物体未被登记，从而使处理进入步骤S7。

在步骤S7，目标物体提取部分33登记该目标物体。具体地，目标物体提取部分33把用步骤S5的处理生成的目标物体模板保存在存储部分26中。

另一方面，如果在步骤S6，在存储部分26中保存有与用步骤S55的处理生成的目标物体模板的差在预定范围内的目标物体模板，那么目标物体提取部分33判定提取的目标物体已被登记。从而，目标物体提取部分33使处理跳过步骤S7的处理，进入步骤S8。注意在此时，目标物体提取部分33可用新生成的目标物体模板，更新保存在存储部分26中的目标物体模板。

在步骤S8，对象设备13在向导部分25的控制下，发出目标物体的识别的完成通知。更具体地说，目标物体提取部分33把目标物体的识别的完成通知给向导部分25。向导部分25向对象设备13发出指令，以进行目标物体的识别的完成通知。

例如，对象设备在基于输入图像数据的图像上，显示表示识别的目标物体的区域的框架，比如图5的区域104的框架，从而通知用户目标物体的识别已完成，并把识别的目标物体通知用户。

这样，用户能够简单地设定任意物体作为目标物体。另外，可以把用户自身身体的一部分，比如手、手臂、头或脚，或者用户的整个身体设定为目标物体。

要注意，为了提高识别性能，最好把表现出尽可能小的外观(比如形状、颜色或亮度)变化的物体设定为目标物体。此外，在身体的一部分被设定为目标物体的情况下，当进行手势识别时，最好这样移动目标物体：使相同目标物体的形状表现出尽可能小的变化。

在步骤S9，图像处理设备12开始目标物体的跟踪。具体地，目标物体提取部分33首先把识别的目标物体的物体模板(即，目标物体模板)提供给跟踪部分41。要注意在此时，在提取的目标物体已被登记的情况下，可把保存在存储部分26中的目标物体模板或用步骤S55的处理新生成的目标物体模板提供给跟踪部分41。

跟踪部分41与从图像输入设备11到缓冲器21的输入图像数据的供给同步地进行下述处理。具体地，跟踪部分41从缓冲器21获得新的输入图像数据，并根据目标物体模板，搜索最新的输入图像数据中的目标物体。随后，跟踪部分41根据搜索结果，更新目标物体的动作历史。

此外，跟踪部分41计算目标物体从在当前时间点之前的预定时长(即，在当前时间点前的预定帧数)的时间点到当前时间点的累积动作特征量。跟踪部分41把目标物体的累积动作特征量提供给匹配部分42。

在步骤S10，跟踪部分41判定目标物体的跟踪是否失败。在能够从输入图像数据中检测出目标物体，或者其间不能检测出目标物体的时长在预定时间之内(即，在预定帧数之内)的情况下，跟踪部分41判定它未在目标物体的跟踪方面失败，从而使处理进入步骤S11。

在步骤S11，匹配部分42判定是否进行操作动作。具体地，匹配部分42利用和匹配部分32使用的技术类似的技术，进行保存在存储部分26中的操作动作数据和目标物体的累积动作特征量之间的匹配。如果不能检测到与目标物体的累积动作特征量的差分在预定范围内的操作动作数据，那么匹配部分42判定不执行操作动作，然后使处理返回步骤S10。

之后，重复进行步骤S10和S11的处理，直到在步骤S10判定目标物体的跟踪失败，或者在步骤S11判定执行操作动作为止。

另一方面，如果在步骤S11判定检测到与目标物体的累积动作特征量的差分在预定范围内的操作动作数据，那么匹配部分42判定执行操作动作，并使处理进入步骤S12。

在步骤S12，匹配部分42输出与操作动作对应的操作信号。具体地，匹配部分42把对应于与目标物体的累积动作特征量的差分最小的操作动作数据的操作信号提供给对象设备13。然后，对象设备13按照获得的操作信号，执行与用户进行的操作动作对应的处理。

之后，处理返回步骤S10，以使得执行从步骤S10开始的各个步骤的处理。

另一方面，如果其间未检测到目标物体的时长超过预定时间，那么在步骤S10，跟踪部分41判定目标物体的跟踪失败，从而使处理返回步骤S1。之后，执行从步骤S1开始的各个步骤的处理，从而能够重新设定或改变目标物体。

这样，能够简单地把任意物体设定成目标物体，并根据手势识别进行对象设备13的操作。从而，不必预先登记目标物体。此外，能够把例如用户易于使用的熟悉的或者身边的物体设定为目标物体，这提高了用户的便利性。此外，由于不必准备用作目标物体的专用工具，因此便利了在普通家庭中的应用。

此外，由于能够将用户身体的一部分或整体设定为目标物体，因此进一步提高了用户的便利性。

此外，由于能够简单地重新设定或改变目标物体，因此即使诸如亮度之类的环境状况发生变化，如果目标物体被重新设定，那么也能够抑制目标物体的跟踪精度的降低，从而提高手势识别的性能。

动作模式的登记处理

下面参考图6的流程图，说明信息处理系统1执行的动作模式登记处理。要注意当用户在手势识别处理的执行期间进行预定操作时，开始所述动作模式登记处理。

首先在步骤S101，登记部分24登记初始化动作。具体地，登记部分24向向导部分25发出执行初始化动作的登记向导的指令。向导部分25向对象设备13发出指令，以使对象设备13执行初始化动作的登记向导。用户会按照所述向导，进行初始化动作的登记，登记部分24把与登记的初始化动作对应的动作数据(即，初始化动作数据)保存在存储部分26中。

在步骤S102，登记部分24登记操作动作。具体地，登记部分24向向导部分25发出执行操作动作的登记向导的指令。向导部分25向对象设备13发出指令，以使对象设备13执行操作动作的登记向导。用户会按照向导进行操作动作的登记，登记部分24把与登记的操作动作对应的动作数据(即，操作动作数据)保存在存储部分26中。

之后，结束动作模式登记处理。

注意，另外可按照相反的顺序进行步骤S101和S102的处理。或者，可按照任意顺序登记初始化动作和操作动作。

此外，初始化动作和操作动作的登记方法并不局限于特定的方法，而是可以采用任意方法。

例如，如图10中所示，可在对象设备13的显示设备上显示用箭头标记等指示预先登记的多种动作模式200的表格，以使得用户可选择适用于初始化动作和各个操作动作的动作模式。从而，用户能够从预先设计的动作中选择优选动作以作为初始化动作和各个操作动作。在图10中，用户选择了动作600对应于命令700。在这方面，用户可选择向上箭头601对应于播放命令701，向下箭头602对应于停止命令702，向右箭头603对应于快进命令703，和向左箭头604对应于倒回命令704。

或者，例如，可在对象设备13的显示设备上显示用于描画的屏幕图像，以便用户使用未示出的输入设备(比如鼠标)描画将应用于初始化动作或者各个操作动作的动作模式或动作的轨迹。在这种情况下，例如，生成与描画的动作模式对应的动作数据，并将动作数据保存在存储部分26中。这种情况下，用户能够为初始化动作和各个操作动作定制适用于这些动作的特有动作。从而，用户可输入图10中的动作600来对应命令700。

此外，例如，用户可在图像输入设备11前实际进行将应用于初始化动作或各个操作动作的动作。在这种情况下，例如，根据通过摄像获得的输入图像数据提取用户的动作，然后产生与提取的动作对应的动作数据，并保存在存储部分26中。

按照这种方式，可把任意动作模式登记成初始化动作和操作动作，从而进一步提高用户的便利性。

<2.变形例>

注意用于执行上面说明的向导方法仅仅是例子，可用某种其它方法实现向导。例如，如果对象设备13不包括显示设备，那么可利用语音或光实现向导。另外在对象设备13包括显示设备的情况下，可结合图像、语音、光等实现向导。

此外，向导部分25可包括显示设备、声音输出设备或发光设备等，以使得向导部分25本身实现向导。

此外，在图1中，尽管对象设备13，图像输入设备11和图像处理设备12是例如，作为彼此独立的设备形成的，然而对象设备13可把图像输入设备11和/或信息处理系统1内置于其中。

此外，当不同于用户身体的物体被设定为目标物体时，用户可用手拿着目标物体，或者可随身携带目标物体。

此外，在上面的说明中，例如，尽管在识别出操作动作时，输出对应的操作信号，但当不能识别操作动作时，也可输出表示不存在有关操作的信号。

此外，可以不必让用户能够登记初始化动作和操作动作，而是使用预先登记的默认动作。或者使得用户仅能够登记初始化动作和操作动作这两者的其中之一。

此外，在目标物体模板被保存在存储部分26中的情况下，可以与利用初始化动作的目标物体的识别处理并行地进行基于目标物体模板的目标物体的识别处理。随后，例如如果在进行初始化动作之前，目标物体识别部分22从输入图像数据内，检测到与保存在存储部分26中的目标物体模板的差分在预定范围内的物体，那么该物体可被设定为目标物体。这使得能够在不进行初始化动作的情况下，重新使用已登记的目标物体。

计算机的结构例子

虽然上述一系列处理可用硬件执行，不过，所述一系列处理也可用软件执行。当用软件执行所述一系列处理时，构成所述软件的程序被安装到计算机中。这里，所述计算机可以是合并到专用硬件中的计算机，或者可以是通过安装各种程序，能够执行各种功能的通用个人计算机。

图7表示按照程序，执行上述一系列处理的计算机的硬件结构的例子。

参见图7，所示的计算机包括利用总线304相互连接的中央处理器(CPU)301，只读存储器(ROM)302和随机存取存储器(RAM)303。

此外，输入/输出接口305连接到总线304。输入部分306，输出部分307，存储部分308，通信部分309和驱动器310连接到输入/输出接口305。

输入部分306包括键盘、鼠标、麦克风等等。输出部分307包括显示器和扬声器等。存储部分308包括：硬盘或非易失性存储器等。通信部分309包括网络接口等。驱动器310驱动可拆卸介质311，比如磁盘、光盘、磁光盘或半导体存储器。

在按照上述方式构成的计算机中，CPU 301把例如保存在存储部分308中的程序经输入/输出接口305和总线304载入RAM 303中，然后执行所述程序，以执行上面说明的一系列处理。

计算机或CPU 301执行的程序可被记录到可拆卸介质311(例如封装介质)中，并以例如可拆卸介质311的形式提供。此外，可通过有线或无线传输介质，比如局域网、因特网或数字卫星广播提供所述程序。

在计算机中，通过把可拆卸介质311装入驱动器310中，可把程序经输入/输出接口305安装到存储部分308中。或者，可通过有线或无线传输介质，用通信部分309接收程序，并安装到存储部分308中。另外，程序可被预先安装在ROM 302或存储部分308中。

注意，计算机执行的程序可以是其各个处理是按照在本说明书中描述的顺序按时间序列执行的程序，或者并行地执行的程序，或者在必要的时候(比如当程序被调时)执行的程序。

此外，在本说明书中，术语“系统”用于表示由多个设备和部件等构成的整个设备。

尽管利用具体术语，说明了所公开技术的优选实施例，不过这样的说明只是用于举例说明的目的，很明显，在不脱离随附权利要求书的精神或范围的情况下，可以做出各种改变和变形。

Claims

1.一种图像处理设备，包括：

图像输入，其被配置成接收图像数据；

目标提取装置，其被配置成基于对物体的第一移动的识别，来从图像数据中提取所述物体作为目标物体；和

手势识别装置，其被配置成基于对目标物体的第二移动的识别来发出命令。

2.根据权利要求1所述的设备，还包括：

显示控制装置，其被配置成在所述目标提取装置提取目标物体之后，控制显示装置显示通知信息。

3.根据权利要求2所述的设备，其中所述显示控制装置控制显示装置显示通知信息，所述通知信息包括由所述目标提取装置确定的目标物体的形状的图像。

4.根据权利要求3所述的设备，其中所述目标提取装置创建目标物体的模板，所述模板包括目标物体的特征点的特征量的平均值。

5.根据权利要求4所述的设备，其中所述目标提取装置根据目标物体的模板确定目标物体的形状。

6.根据权利要求4所述的设备，其中在所述目标提取装置提取目标物体之前，所述显示控制装置控制显示装置显示初始登记向导信息。

7.根据权利要求6所述的设备，其中所述显示控制装置控制显示装置显示目标物体的初始位置，作为初始登记向导信息。

8.根据权利要求6所述的设备，其中所述显示控制装置控制显示装置显示表示所述第一移动的箭头作为初始登记向导信息。

9.根据权利要求1所述的设备，其中所述手势识别装置被配置成发出多个命令，每个命令对应于目标物体的不同移动，每个命令在从图像数据中识别出目标物体的对应移动之后由所述手势识别装置发出。

10.根据权利要求9所述的设备，其中所述显示控制装置控制显示装置显示分别表示所述多个命令的对应移动的箭头。

11.根据权利要求10所述的设备，其中所述手势识别装置从用户接收多个输入移动，并把所述多个输入移动设定为所述多个命令的对应移动。

12.根据权利要求1所述的设备，其中所述手势识别装置从用户接收输入移动，并把所述输入移动设定为所述第一移动。

13.根据权利要求1所述的设备，其中所述手势识别装置从用户接收输入移动，并把所述输入移动设定为所述第二移动。

14.根据权利要求1所述的设备，其中所述目标提取装置选择沿着逆时针方向移动的物体作为目标物体。

15.根据权利要求1所述的设备，其中所述目标提取装置选择用户身体的一部分作为目标物体。

16.根据权利要求1所述的设备，其中所述目标提取装置计算多个图像帧之间的差以提取目标物体。

17.一种图像处理方法，包括：

接收图像数据；

基于对物体的第一移动的识别，从图像数据中提取所述物体作为目标物体；和

基于对目标物体的第二移动的识别来发出命令。

18.一种用计算机程序编码的非暂态计算机可读介质，当被加载到处理器上时，所述计算机程序使处理器执行图像处理方法，所述图像处理方法包括：

接收图像数据；

基于对目标物体的第二移动的识别来发出命令。