CN103207985A

CN103207985A - 图像处理装置及其方法和程序

Info

Publication number: CN103207985A
Application number: CN2013100038150A
Authority: CN
Inventors: 前田幸德; 横野顺; 南野活树
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2012-01-13
Filing date: 2013-01-06
Publication date: 2013-07-17
Also published as: JP2013164834A; US9165181B2; US20130182898A1; US10565437B2; US9940507B2; US20160110592A1; US20180218202A1

Abstract

一种图像处理装置，包括：差异图像生成单元，其通过获得剪切图像的帧之间的差异生成差异图像，其中所述剪切图像是通过剪切出所拍摄的图像上的预定区域而获得的；特征量提取单元，其从差异图像中提取特征量；以及识别单元，其基于从按时间顺序排列的多个差异图像中获得的特征量来识别在所拍摄的图像上的对象的具体运动。

Description

图像处理装置及其方法和程序

技术领域

本技术涉及图像处理装置及其方法和程序，特别地涉及其中能够高精度地识别姿势的图像处理装置及其方法和程序。

背景技术

在相关技术中，在用户通过移动手等做出具体的姿势时识别该姿势的姿势识别是已知的。

例如，在姿势识别中，通过按时间顺序排列用户手的位置的信息来获得手的轨迹，并且通过将该轨迹与预先记录的手的轨迹进行比较来确定是否已作出了姿势。

此外，已提出了如下技术：将用户的手的运动的方向设置为观测信号，并基于观测信号的某些行（row）来识别姿势（例如，参考日本未审专利申请公开No.2007-87089）。

发明内容

然而，在上述技术中，难以高精度地识别用户作出的姿势。

出于该原因，作为识别目标的姿势必须是当用户在宽的范围内在某种程度上较大地移动手时用户的手的轨迹能够被可靠地识别的姿势。这样的大姿势对于用户来说是繁累的，并且使得使用姿势识别的应用程序等不便于使用。

理想的是以高精度识别姿势。

根据本技术的实施方式，提供了一种图像处理装置，所述图像处理装置包括：差异图像生成单元，其通过获得剪切图像的帧之间的差异来生成差异图像，其中所述剪切图像是通过剪切出所拍摄的图像上的预定区域而获得的；特征量提取单元，其从差异图像中提取特征量；以及识别单元，其基于从按时间顺序排列的多个差异图像中获得的特征量来识别对象在所拍摄的图像上的具体运动。

识别单元可以将用户的手作出的姿势识别为对象的具体运动。

图像处理装置还可以设置有：手检测单元，其从所拍摄的图像中检测用户的手；以及剪切区域确定单元，其基于所检测到的用户的手在所拍摄的图像上的位置来确定预定区域。

在相对于连续的多个帧的所拍摄的图像，所检测到的用户的手位于所拍摄的图像上的一定范围内时，剪切区域确定单元可以基于用户的手的位置来确定预定区域。

图像处理装置可以设置有剪切区域确定单元，所述剪切区域确定单元通过获得在所拍摄的图像上的每个区域中的帧之间的差异来确定预定区域。

预定区域可以是在所拍摄的图像上预先确定的区域。

图像处理装置还可以包括区域设置单元，所述区域设置单元在所拍摄的图像上设置其中布置有多个预定区域的识别区域，其中，可以使差异图像生成单元生成布置在识别区域中的每个预定区域中的差异图像，可以使特征量提取单元从每个预定区域中的差异图像中提取特征量，并且识别单元可以基于从在每个预定区域中的按时间顺序排列的多个差异图像中获得的特征量来识别用户的姿势。

图像处理装置还可以包括剪切区域确定单元，所述剪切区域确定单元确定各个预定区域的尺寸，且设置在所述识别区域中。

图像处理装置还可以包括检测单元，所述检测单元从所拍摄的图像中检测用户身体的部位，并且可以使区域设置单元基于所检测到的用户身体的部位在所拍摄的图像上的位置来设置识别区域。

可以使剪切区域确定单元基于检测到的用户身体的部位的尺寸来确定各个预定区域的尺寸。

可以使检测单元从所拍摄的图像中检测用户的脸。

可以使检测单元从所拍摄的图像中检测用户的手。

图像处理装置还包括运动确定单元，所述运动确定单元基于识别区域中的运动矢量的量值来确定在识别区域中的运动，并且其中可以使识别单元根据运动确定单元作出的确定结果来识别用户的姿势。

图像处理装置还可以设置有显示控制单元，所述显示控制单元使显示单元显示所拍摄的图像上的用户以及表示预定区域的位置的图像。

图像处理装置还可以设置有动作处理单元，当用户的姿势被识别时，所述动作处理单元执行对应于所识别的姿势的处理。

显示控制单元可以使显示单元显示所述表示预定区域的位置的图像，并且动作处理单元可以执行由所识别的姿势以及多个预定区域中的其中用户的姿势被识别的预定区域所确定的处理。

显示控制单元可以使显示单元显示如下事实：正在执行姿势识别或用户的姿势已被识别。

特征量提取单元可以将差异图像分成多个块，并提取块中的像素的平均亮度作为块的特征量。

根据本技术的另一个实施方式，提供一种图像处理方法或程序，包括：通过获得剪切图像的帧之间的差异来生成差异图像，其中所述剪切图像是通过剪切出所拍摄的图像上的预定区域而获得的；从差异图像中提取特征量；以及基于从按时间顺序排列的多个差异图像中获得的特征量来识别对象在所拍摄的图像上的具体运动。

根据本技术的实施方式，通过获得剪切图像的帧之间的差异来生成差异图像，其中所述剪切图像是通过剪切出所拍摄的图像上的预定区域而获得的；从差异图像中提取特征量；以及基于从按时间顺序排列的多个差异图像中获得的特征量来识别对象在所拍摄的图像上的具体运动。

根据本技术的实施方式，能够以较高的精度识别姿势。

附图说明

图1是示意性地描述本技术的图。

图2是示出了图像处理装置的配置示例的图。

图3是描述姿势识别处理的流程图。

图4是示出了剪切区域的位置的显示示例的图。

图5是示出了差异图像的块分割的示例的图。

图6是示出了剪切区域的位置的显示示例的图。

图7是示出了另一个图像处理装置的配置示例的图。

图8是描述姿势识别处理的流程图。

图9是示出了按钮图标的显示示例的图。

图10是描述用于确定剪切区域的方法的示例的图。

图11是示出了姿势识别系统的配置示例的图。

图12是示出了姿势识别系统的另一种配置示例的图。

图13是示出了图像处理装置的又一种配置示例的图。

图14是描述姿势识别处理的流程图。

图15是示出了剪切区域的显示示例的图。

图16是示出了识别区域的显示示例的图。

图17是描述姿势识别单元的处理的图。

图18是描述姿势识别单元的处理的图。

图19是描述姿势识别单元的处理的图。

图20是描述姿势识别的处理结果的显示示例的图。

图21是描述姿势识别的处理结果的显示示例的图。

图22是描述姿势识别的处理结果的显示示例的图。

图23是示出了剪切区域的显示示例的图。

图24是示出了剪切区域的显示示例的图。

图25是示出了按钮图标的显示示例的图。

图26是示出了图像处理装置的又一种配置示例的图。

图27是描述姿势识别处理的流程图。

图28是示出了用于设置识别区域的方法的示例的图。

图29是示出了用于确定剪切区域的方法的示例的图。

图30是示出了图像处理装置的又一种配置示例的图。

图31是描述姿势识别处理的流程图。

图32是示出了用于设置识别区域的方法的示例的图。

图33是示出了用于确定剪切区域的方法的示例的图。

图34是示出了图像处理装置的又一种配置示例的图。

图35是示出了图像处理装置的又一种配置示例的图。

图36是描述姿势识别处理的流程图。

图37是描述运动确定处理的流程图。

图38是描述识别区域中的运动矢量的图。

图39是描述识别区域中的运动矢量的图。

图40是描述本技术中的系统的应用示例的图。

图41是示出了计算机的配置示例的图。

具体实施方式

根据本发明实施方式，提供一种图像处理装置，包括：差异图像生成单元，所述差异图像生成单元通过获得剪切图像的帧之间的差异来生成差异图像，其中所述剪切图像是通过剪切出所拍摄的图像上的预定区域而获得的；特征量提取单元，所述特征量提取单元从所述差异图像中提取特征量；以及识别单元，所述识别单元基于从按时间顺序排列的多个差异图像中获得的特征量来识别在所拍摄的图像上的对象的具体运动。

根据本发明另一实施方式，提供一种图像处理方法，包括：通过获得剪切图像的帧之间的差异来生成差异图像，其中所述剪切图像是通过剪切出所拍摄的图像上的预定区域而获得的；从所述差异图像中提取特征量；以及基于从按时间顺序排列的多个差异图像中获得的特征量来识别在所拍摄的图像上的对象的具体运动。

在下文中，将参照附图来描述应用本技术的实施方式。

第一实施方式

识别姿势的概述

首先，将描述本技术的概述。本技术是要基于连续拍摄的图像来识别对象的具体运动。更具体地，本技术例如是要基于所拍摄的图像来识别预定姿势。

例如，如图1所示，执行姿势识别的系统设置有拍摄单元11和显示单元12等，拍摄单元11对作出姿势的用户U11进行拍摄，显示单元12显示所拍摄的用户U11的图像。

当用户U11想要执行预定处理等时，用户朝向拍摄单元11作出指示所述处理等的姿势。在此之后，剪切出由拍摄单元11拍摄的用户U11的图像的预定区域（在下文中，也被称为剪切区域）中的图像，从而获得所获得的剪切图像的帧之间的差异。

此处，如图左侧所示在图像上剪切区域被设为例如包括用户U11的手掌的区域RE11等。关于在由拍摄单元11拍摄的每个帧中的图像，当图像上的区域RE11被剪切出时且被设为剪切图像，并且获得相邻帧之间的剪切图像的差异时，可以获得例如在图下侧示出的差异图像DP11-1至DP11-4。

这些差异图像DP11-1至DP11-4是当用户U11作出从使手掌面向显示单元12的方向的状态放下手掌的姿势时所获得的图像，并且在差异图像上每个位置中的颜色的浓度表示差异的大小。也就是说，其表示：颜色的浓度越低，相邻图像之间的差异越大，图像上的对象的运动就越大。

此外，在该示例中，差异图像DP11-1是在最早时间获得的差异图像、即是从最早的帧获得的差异图像，并且差异图像DP11-1至DP11-4按照较早的时间的顺序设置。此外，在下文中，当没有必要彼此区分差异图像DP11-1至DP11-4时，图像被简称为差异图像DP11。

在图1中的示例中，由于用户U11作出放下手掌的姿势，伴随着图中用户U11的指尖位置向下移动的运动，差异图像DP11中的差异较大的区域也在图中向下移动。

当以这种方式获得差异图像DP11时，从差异图像DP11中提取特征量，并基于所获得的每个时间、即差异图像DP11的每个帧的特征量来执行姿势识别。此外，当具体的姿势被识别时，执行根据识别结果的处理。

如上所述，可以通过从差异图像DP11中提取特征量并使用特征量而非直接使用通过对用户进行拍摄所获得的图像来鲁棒地（高精度地）识别用户的姿势。

以这种方式，可以识别甚至具有小的运动的姿势、如将手放下；可以使用户作出的姿势为小的、自然的运动；以及可以减轻用户的负担。当相对于用户姿势的负担被减轻时，用户能够简单地以小的姿势如手指的运动来操作装置。

本技术可以应用于各种装置，例如大屏幕标牌（signage）、个人计算机、电视接收机等。

例如，当本技术应用于标牌时，如果用户作出姿势，可以使标牌根据姿势来显示商店导购（store guidance）等，或显示关于从条目中选择的项的详细信息。

此外，当本技术应用于个人计算机时，可以使个人计算机在用户作出姿势时执行各种处理，例如，通过音乐播放器再现一段音乐的处理等，或在图片查看器上再现图像的处理等。在这种情况下，可以例如通过设置在个人计算机中的网络摄像头等来捕获用户（用户作出的姿势）的图像。

另外，当本技术应用于电视接收机时，如果用户作出姿势，可以进行节目的频道选择，或者可以选择连接到电视接收机的连接设备如记录器，等等。

图像处理装置的配置示例

接下来，将描述应用本技术的详细实施方式。

图2是示出了应用本技术的图像处理装置的实施方式的配置示例的图。此外，在图2中，与图1中的情况对应的部分被给予相同的附图标记，并且其描述将被适当地省略。

图2中的图像处理装置41包括：拍摄单元11、手形状词典记录单元51、手形状识别单元52、姿势识别单元55、动作处理单元56、显示控制单元57和显示单元12。

拍摄单元11由照相机等配置而成，其对作为对象的用户进行拍摄，并将作为结果获得的拍摄图像提供给手形状识别单元52和显示控制单元57。

手形状词典记录单元51记录用于识别具体形状的手的、通过诸如AdaBoost之类的统计学习获得且预先设定的手形状词典，并且根据需要将手形状词典提供给手形状识别单元52。例如，在学习手形状词典时，使用包括作为识别目标的手的图像的多个用于学习的图像，并且由于该学习，获得了作为手形状词典的识别器（discriminator）等。

手形状识别单元52基于由手形状词典记录单元51提供的手形状词典从拍摄单元11提供的拍摄图像来识别手的具体形状，并将识别结果和拍摄图像提供给图像处理单元53。

图像处理单元53基于所拍摄的图像和由手形状识别单元52提供的识别结果来提取用于识别姿势的特征量，将特征量提供给姿势识别单元55，并根据需要将剪切区域的信息等提供给显示控制单元57。

此外，图像处理单元53包括剪切区域确定单元71、差异计算单元72和特征量提取单元73。

剪切区域确定单元71基于手形状的识别结果来确定所拍摄的图像上的剪切区域，从所拍摄的图像中剪切出在剪切区域中的图像，并将其设置为剪切图像。差异计算单元72获得在相邻帧中的剪切图像的差异，并生成差异图像。特征量提取单元73从差异图像中提取用于姿势识别的特征量。

姿势词典记录单元54记录用于识别姿势的姿势词典，并根据需要将记录的姿势词典提供给姿势识别单元55。例如，构造HMM（隐马尔可夫模型）的参数例如状态转移概率、输出概率密度函数等被记录为姿势词典。

姿势识别单元55基于由姿势词典记录单元54提供的姿势词典以及由图像处理单元53提供的特征量来识别姿势，并将识别结果提供给动作处理单元56。基于姿势识别单元55的识别结果，动作处理单元56使图像处理装置41的每个单元执行对应于姿势的处理。

显示控制单元57基于由拍摄单元11提供的拍摄图像和由图像处理单元53提供的关于剪切区域的信息等来使显示单元12显示图像。

姿势识别处理的描述

接下来，将参照图3中的流程图来描述通过图像处理装置41进行的姿势识别处理。

在步骤S11中，拍摄单元11开始拍摄要被拍摄的图像。也就是说，拍摄单元11拍摄在拍摄单元11周围的用户作为对象，并将获得的每个帧中的拍摄图像作为结果依次提供给手形状识别单元52和显示控制单元57。

此外，显示控制单元57将由拍摄单元11提供的拍摄图像提供给显示单元12，并使显示单元显示该图像。由于这个原因，因为作为对象被拍摄的用户本身显示在显示单元12中，所以用户能够在观察显示在显示单元12中的自身的同时作出姿势。此外，此处已经描述了其中用户本身显示在显示单元12上的示例，然而，不是必须在显示单元12中显示用户。例如，当用户的手被检测到时，还优选的是，通过显示光标、或在显示单元12中的对应于用户手的位置处显示表示用户手的位置的手图像来使用户了解他的手的位置。此外，当特别地基于用户手的位置等确定剪切区域时，用户本身的图像和用户手的位置的图像均不可在显示单元12中显示。

在步骤S12中，手形状识别单元52开始手形状的识别。

具体地，手形状识别单元52基于记录在手形状词典记录单元51中的手形状词典以及由拍摄单元11提供的拍摄图像来从每个帧的拍摄图像中检测手的具体形状，并将检测结果和拍摄图像提供给图像处理单元53。

例如，当识别器被记录为手形状词典时，手形状识别单元52通过从所拍摄的图像上的预定区域中提取特征量以及以特征量来替代识别器来从所拍摄的图像中检测具有具体形状的手。通过执行这样的手形状识别，可以检测手的形状、尺寸或位置。此外，将作为识别目标的手形状设置为在预定姿势的开始时刻的手形状，或一般的手形状诸如纸张状或石头状。

此外，此处已经例示了手形状的识别，然而，如果能够检测用户手的位置，则并不限于识别手形状，可以是任何检测方法。

在步骤S13中，图像处理单元53基于手形状识别的结果来确定是否已经从所拍摄的图像中检测到具有具体形状的手。

在步骤S13中，当确定没有检测到手时，则处理返回步骤S13，并重复上述处理。

与此相反，在步骤S14中，当在步骤S13中确定检测到手时，图像处理单元53基于手形状识别结果来执行手的位置的跟踪。也就是说，相对于新检测到手的帧之后的帧来执行检测的手的位置的跟踪。

在步骤S15中，图像处理单元53确定手是否在一定范围内。例如，在作为参考的预定帧之后的每个帧中检测到的手的位置处于预定尺寸的范围内，在该预定尺寸的范围中在预定帧中的手的位置被设置为中心，手被确定为处于一定范围内。

在步骤S15中，当确定手不在一定的范围内时，处理返回到步骤S14，并重复上述处理。

另一方面，在步骤S15中，当确定手在一定范围内时，在步骤S16中，剪切区域确定单元71基于来自手形状识别单元52的手形状识别结果来确定剪切区域。

例如，剪切区域确定单元71设置具有预定尺寸的矩形区域，在该矩形区域中，在所拍摄的图像上被检测到的手的重心被设置为剪切区域。由于在手形状识别中在一定程度上可以了解手的尺寸，所以剪切区域的尺寸被设置成如下尺寸：其中包括了检测到的手。

此外，因为即使在手的整个区域没有被包括在剪切区域中的情况下也能够识别姿势，所以剪切区域的尺寸可以不是其中必须包括手的整个区域的尺寸。此外，如果基于检测到的手的位置来确定区域，则可以以任何方式来确定剪切区域。

当剪切区域被确定时，剪切区域确定单元71相对于由手形状识别单元52提供的每个帧的拍摄图像来生成在拍摄图像上的剪切区域的图像。因此，将在与每个帧的拍摄图像相同的位置上的区域设置为剪切图像。

此外，更具体地，剪切区域确定单元71根据需要相对于所生成的剪切图像执行放大处理和缩小处理，使得剪切图像的尺寸变为预定的指定尺寸。通过以这种方式使剪切图像的尺寸变为预定尺寸，可以更简单地执行姿势识别的处理。

在下文中，使用以这种方式生成的剪切图像来执行姿势识别。

同时，在执行姿势识别的情况下，当用户在移动手的同时作出姿势时，存在如下担心：由于在所拍摄的图像中手的部分的背景的变化等，可能会降低姿势识别的精确度。

因此，在图像处理装置41中，为了只将在用户没有较大地移动手的状态下作出的姿势设置为姿势识别目标，确定手是否在一定范围内，并且确定剪切区域。

在这种情况下，当手在一定范围内时，通过假设手在一定程度上已停止来开始姿势识别。此外，可以通过当手的运动为阈值或小于阈值时确定剪切区域来开始所述姿势识别，或者可以通过当检测到具有具体形状的手时确定剪切区域来开始所述姿势识别。

当如上所述确定剪切区域时，图像处理单元53将表示所确定的剪切区域的位置的信息提供给显示控制单元57。

在步骤S17中，显示控制单元57基于由图像处理单元53提供的信息来执行反馈：姿势识别被执行。

例如，如图4所示，显示控制单元57通过使显示单元12显示表示剪切区域的帧FB11来执行关于姿势识别被执行的反馈。此外，在图4中，与图1中的情况对应的部分被给予相同的附图标记，并且将省略其描述。

在图4的示例中，表示剪切区域的帧FB11显示在显示单元12中显示的拍摄图像上的用户U11的手的部位处。此外，关于姿势识别被执行的反馈可以以任何方式执行，而不限于帧FB11的显示。

例如，可以在显示单元12中的剪切区域的附近显示人手标记、箭头图标等。此外，可以在手被检测到的时间点，例如通过使围绕检测到的手的帧显示、通过当开始姿势识别时使该帧闪烁等来改变显示格式。另外，关于姿势识别被执行的反馈不限于图像显示，可以通过再现声音来执行。

返回图3中的流程图的描述，当执行开始姿势识别的反馈时，之后，处理从步骤S17行进到步骤S18。

在步骤S18中，图像处理单元53使固定剪切区域的固定时间的计时器复位。

此处，固定时间是指其中剪切区域的位置被固定的时间，并且使用从剪切区域获得的剪切图像来连续地执行识别姿势的处理。也就是说，当没有在固定时间中识别到姿势时，确定新的剪切区域，并且相对于该剪切区域来执行姿势识别。

当计时器被复位时，图像处理单元53连续地执行计时器的计数，直到经过固定时间为止。

在步骤S19中，差异计算单元72获得剪切图像的帧之间的差异，并生成差异图像。例如，差异图像的预定像素的像素值设置为与该像素相同位置上的、两个连续帧的剪切图像上的像素的像素值的绝对差异值。

在步骤S20中，特征量提取单元73从差异图像中提取用于姿势识别的特征量。

例如，特征量提取单元73将差异图像分成具有任意尺寸的块，并计算块中的像素的亮度值的平均值。此外，特征量提取单元73将具有在每个块中获得的亮度值的平均值作为元素的矢量设置为从差异图像中提取的特征量。

在差异图像上，在存在运动对象的部分处在时间方向上发生亮度的变化，并且亮度的变化不发生在不存在运动的部分处。出于这个原因，可以通过将差异图像上的每个区域的平均亮度设置为特征量并且将特征量按时间顺序排列，来检测移动对象的形状或在剪切图像中的移动对象的运动的流，并根据特征量来识别姿势。此处，移动对象的形状例如为手掌或手指的形状，而移动对象的运动的流例如为其中由于姿势而将手放下的图像的变化（每个位置中的亮度的变化）。

特征量提取单元73将以这种方式提取的特征量提供给姿势识别单元55。

在步骤S21中，姿势识别单元55基于由图像处理单元53的特征量提取单元73提供的特征量以及记录在姿势词典记录单元54中的姿势词典来执行姿势识别，并将识别结果提供给操作处理单元56。

例如，姿势识别单元55对从由预设的预定数目的帧所形成的区段（section）中的差异图像中获得的特征量进行归一化。具体地，姿势识别单元55对按时间顺序排列的特征量中的从差异图像上的同一位置处的块获得的特征量进行归一化，使得通过将特征量除以从同一位置上的块获得的特征量的最大值从而将特征量变为在0至1范围的值。

另外，姿势识别单元55基于进行了归一化的时序特征量、通过使用HMM等执行时序识别处理来识别用户是否已经作出具体姿势，其中HMM由作为姿势词典的参数构建而成。

此外，可以以任何方式通过将从按时间顺序排列的每个差异图像中提取的特征量与通过预先学习而获得的时序特征量等进行比较，来执行基于时序特征量的姿势识别。

在步骤S22中，操作处理单元56使图像处理装置41的每个单元执行与由姿势识别单元55提供的姿势识别结果相对应的处理。此外，当姿势没有被识别时，不执行所述处理。

例如，使得在应用程序中的与再现音乐有关的操作通过姿势被执行。在这种情况下，当在用户张开手的状态下执行挥动手的姿势时，操作处理单元56移动选择专辑的光标，并使光标从多个专辑中选择将要作为重现目标的专辑，其中由多个音乐形成的专辑作为处理单元。

此外，当用户作出挥动食指的姿势时，操作处理单元56移动选择音乐的光标，其中构成专辑的音乐为处理单元，并使光标从构成专辑的多个音乐中选择音乐作为重现目标。

以这种方式，用户可以根据处理单元（例如专辑或音乐、文件夹或文件等）的尺寸关系通过确定当作出姿势时所使用的手指的数目或确定手指的位置，来执行感觉的操作。

此外，可以通过使用例如姿势来移动在显示单元12中显示的指针等来执行选择图标的操作等。

在这样的情况下，例如，当用户在打开手的状态下作出放下拇指的姿势时，操作处理单元56使对应于鼠标左击的操作被执行。此外，当用户在打开手的状态下作出放下食指的姿势时，操作处理单元56使对应于鼠标右击的操作被执行。在这样的示例中，可以以与现有装置相同的操作感觉使用姿势执行操作。

此外，当用户作出将手形状从纸张状改变到石头状的姿势时，在选择显示单元12上的文件等的情况下，或用户在保持石头状的手形状的同时作出平行地移动手的姿势的情况下，可以使所选文件等进行移动等。

此外，当执行根据姿势识别结果的处理时，显示控制单元57可以使显示单元12显示如下事实：姿势识别已执行，表示所识别的姿势的显示，等等。在这样的情况下，姿势识别结果还被从姿势识别单元55提供给显示控制单元57。

在步骤S23中，图像处理单元53基于来自手形状识别单元52的手形状识别结果来确定是否在剪切区域之外检测到新的手。

在步骤23中，当确定检测到新的手时，处理返回到步骤S13，并重复上述处理。也就是说，使用新检测到的手的姿势被识别，并执行根据所述姿势的处理。

与此相反，当在步骤S23中确定没有检测到新的手时，在步骤S24中，图像处理单元53基于正在计数的计时器来确定是否在计时器复位之后已经经过固定时间。

在步骤S24中，当确定还没有经过固定时间时，处理返回到步骤S19，并重复上述处理。也就是说，直到现在作为处理目标的区段，即、作为姿势识别目标的区段在未来的方向上偏离了一个帧，并且相对于新的处理目标的区段来执行姿势识别。

此外，当关于所确定的剪切区域预先识别了姿势时，执行对应于该姿势的处理，在步骤S22中的处理之后，处理可以返回到步骤S13。

另一方面，当在步骤S24中确定已经经过了固定时间时，处理返回到步骤S13，并重复上述处理。也就是说，当检测到新的手时，基于手的位置来确定剪切区域，并执行姿势识别。

另外，当从用户发出结束姿势识别的指令时，姿势识别处理完成。

如上所述，图像处理装置41将所拍摄的图像上包括至少用户手的一部分的区域设置为剪切区域，并且从通过获得剪切区域中的图像的差异而获得的差异图像中提取特征值。此外，图像处理装置41通过基于按时间顺序排列的特征量的时序识别处理来识别用户的姿势，并执行对应于识别结果的处理。

以这种方式，可以通过从差异图像中提取特征量并识别姿势来高精度地识别用户的姿势。

因此，用户能够通过在作出从手腕到前部的一定程度的小运动的姿势如放下、摆动、抬起手等来相对于每个姿势执行所确定的处理，而无需与需要相比极大地移动手。如果用户的负担得以释放，则能够提高使其执行对应于姿势的处理的应用程序的可用性等。

特别地，在图像处理装置41中，用户可以在任意位置执行姿势操作，这是因为剪切区域是基于当识别手形状时检测到的手的位置来确定的。也就是说，用户能够通过自然运动来执行姿势操作，而无需知道剪切区域的位置，并且可以进一步减少用户的负担。

关于特征量的提取

此外，在上面的描述中，已经描述了如下情况：差异图像被分成一些块，并且块中的像素的亮度值的平均值被设置为每个块中的特征量，然而，也可以以任何方式执行差异图像的分割。

例如，如图5中的箭头Q11所示，差异图像总共可以分成12个块，其在图中在竖直方向上为3，在水平方向上为4。在这种情况下，因为通过分割成块来获得特征量等同于使差异图像平滑化，可以将手的粗略的形状和运动状态（方向）指定为识别目标，并且可以高精度地识别姿势。

此外，例如，如箭头Q12所示，可以将差异图像分割成图中的沿着水平方向长的块。在该示例中，在差异图像上沿水平方向排列的像素阵列被分为块，以属于相同的块。

当执行这样的块分割时，可以获得在图中的竖直运动中指定的特征量，并且当不考虑手形状存在在竖直方向上的运动对象时，识别出已经进行了姿势。

另外，如箭头Q13所述，可以将差异图像分成在图中沿着竖直方向长的块。在该示例中，在差异图像上沿竖直方向排列的像素阵列被分为块，以属于相同的块，并且当不考虑手形状的情况下存在在水平方向上的移动对象时，识别出已进行了姿势。

此外，在上述描述中，已经描述了其中将差异图像上的块的平均亮度设置为特征量的示例，然而，如果假设特征量是从差异图像中获得的，则其可以是光流（optical flow）、块中的像素的特定分量的平均值等中的任一个。

第二实施方式

关于姿势识别的剪切区域

另外，在上面的描述中，已描述了通过执行手形状识别来识别具有特定形状的手，并且基于手的位置来确定剪切区域，然而，可以将剪切区域设置为预定位置。

在这样的情况下，如图6所示，例如，在显示单元12上显示表示剪切区域的位置的帧FB21。此外，在图6中，与图1中的情况对应的部分被给予相同的附图标记，并且其描述将被适当地省略。

在图6中的示例中，在显示单元12上，不仅显示用户U11，还显示表示预定的剪切区域的位置的帧FB21。因此，在该示例中，用户U11可以在检查显示在显示单元12上的其自身和帧FB21的位置的同时在帧FB21中移动手来作出姿势。

此外，在这种情况下，可以将一个姿势或多个姿势分配给显示在显示单元12上的帧FB21。

例如，当假设将一个姿势GES1分配给帧FB21时，在用户在帧FB21中作出姿势GES1的情况下，相对于姿势GES1执行所确定的处理。与此相反，即使用户在帧FB21中正确地作出姿势GES2，也不执行处理。

此外，假设相对于帧FB21已分配了两个姿势GES1和GES2。在这种情况下，当用户在帧FB21中作出姿势GES1时，则执行对应于GES1的处理，而当用户在帧FB21中作出姿势GES2时，则执行对应于GES2的处理。

另外，可以显示表示剪切区域在显示单元12上的位置的多个帧。在这种情况下，可以将不同的姿势分配给多个帧中的每个，并且可以将一个姿势分配给不同的帧中的一些帧。当相同的姿势被分配给相应的多个帧时，如果这些帧中的任一个中的姿势被识别，则执行对应于该姿势的处理。

此外，可以将一个姿势分配给表示在显示单元12上显示的剪切区域的位置的每个帧中的一个帧，并且也可以将多个姿势分配给它。

此外，在下文中，将描述如下情况：在显示单元12上显示表示剪切区域的位置的一个帧，并且将一个姿势分配给该帧，以使描述变得容易。

图像处理装置的配置示例

以这种方式，当预先设定剪切区域的位置时，图像处理装置例如被配置成如图7所示。此外，在图7中，与图2中的情况对应的部分将被给予相同的附图标记，并且将省略其描述。

图7中的图像处理装置101由拍摄单元11、图像处理单元111、姿势词典记录单元54、姿势识别单元55、动作处理单元56、显示控制单元57和显示单元12配置而成。

图像处理单元111基于由拍摄单元11提供的拍摄图像来提取用于姿势识别的特征量，将特征量提供给姿势识别单元55，并根据需要将关于剪切区域的信息等提供给显示控制单元57。

图像处理单元111包括剪切图像生成单元121、差异计算单元72和特征量提取单元73。剪切图像生成单元121将所拍摄的图像上的预定区域设置为剪切区域，并且通过剪切出所拍摄的图像的剪切区域中的图像来设置剪切图像。

姿势识别处理的描述

接下来，将参照图8中的流程图来描述通过图像处理装置101进行的姿势识别处理。

在步骤S51中，拍摄单元11开始拍摄被拍摄图像。

也就是说，拍摄单元11拍摄在拍摄单元11周围的作为对象的用户，并将作为结果获得的每个帧的拍摄图像依次提供给图像处理单元111和显示控制单元57。

此外，显示控制单元57将由拍摄单元11提供的被拍摄图像提供给显示单元12，并显示该被拍摄图像。图像处理单元111将表示预定剪切区域的位置的信息提供给显示控制单元57。

在步骤S52中，显示控制单元57基于由图像处理单元111提供的信息来在显示单元12上显示表示剪切区域的位置的帧。用户通过在帧中移动手并同时查看在显示单元12上显示的帧或用户的手来作出期望的姿势。

在步骤S53中，剪切图像生成单元121相对于由拍摄单元11提供的每个帧的被拍摄图像剪切出在被拍摄图像上的预定剪切区域中的图像，并生成剪切图像。

此外，更具体地，剪切图像生成单元121根据需要相对于所生成的剪切图像执行放大处理或缩小处理，使得剪切图像的尺寸变为预定的特定尺寸。

在步骤S54中，差异计算单元72获得剪切图像的帧之间的差异，并生成差异图像。

此外，在步骤S55中，特征量提取单元73基于差异图像提取用于姿势识别的特征量，并将特征量提供给姿势识别单元55。例如，在步骤S55中，执行与图3中的步骤S20相同的处理，并提取特征量。

在步骤S56中，姿势识别单元55基于由特征量提取单元73提供的特征量和记录在姿势词典记录单元54中的姿势词典来执行姿势识别，并将识别结果提供给操作处理单元56。在步骤S56中，执行与图3中的步骤S21相同的处理。

在步骤S57中，操作处理单元56使图像处理装置101的每个单元执行与由姿势识别单元55提供的姿势识别结果相对应的处理，此后处理返回到步骤S53，并重复上述处理。

此外，当具体姿势被识别并且执行了对应于该姿势的处理时，可以执行姿势被识别的反馈。例如，也可以通过使表示显示控制单元57显示在显示单元12上的剪切区域的位置的帧进行闪烁或者显示预定图像来执行该反馈。

此外，当用户指示完成姿势识别时，姿势识别处理完成。

如上所述，图像处理装置101通过获得所拍摄的图像上的预定剪切区域中的图像的差异来生成差异图像，并从差异图像中提取特征量。此外，图像处理装置101通过基于按时间顺序排列的特征量的时序识别处理来识别用户的姿势，并执行对应于识别结果的处理。

以这种方式，可以通过从差异图像中提取特征量来识别姿势从而高精度地识别用户的姿势。

此外，在上述描述中，如在图9中的箭头Q41所示，已经描述了在显示单元12上显示作为对象拍摄的用户U11以及表示剪切区域的位置的帧FB21，然而，如果是其中剪切区域的位置能够被了解的显示，其可以是任何显示。在图9中，与图6中的情况对应的部分将被给予相同的附图标记，并且其描述将被适当地省略。

例如，作为使用户能够了解剪切区域的位置的显示，可以考虑在箭头Q42中表示的显示。

在箭头Q42中示出的示例中，在显示单元12上显示被拍摄的用户U11以及用于执行每个处理的按钮图标AC11-1至AC11-4。可以在按钮图标AC11-1至AC11-4中显示当操作时用作要执行的处理的提醒器的图像、描述过程的字符等。

此外，在下文中，当没有必要彼此区分按钮图标AC11-1至AC11-4时，它们也被简称为按钮图标AC11。

在该示例中，在所拍摄的图像上的与每个按钮图标AC11的区域对应的位置被设置为预定剪切区域。因此，当用户U11将手移动到按钮图标AC11中的期望区域并作出姿势时，用户能够执行相对于按钮图标AC11所确定的处理。

此时，被分配给按钮图标AC11的姿势被设置为例如按压按钮图标AC11（例如放下手）的姿势，用户U11能够执行更有感觉的姿势操作。

此外，当剪切区域的位置被预先确定时，即使用户U11在不同于按钮图标AC11中的位置的位置处作出姿势，该姿势也不会被识别。

此外，分配给每个按钮图标AC11的姿势彼此相同，然而，由姿势执行的处理可以在每个按钮图标AC11中不同。相应地，在这种情况下，执行由按钮图标AC11（剪切区域）中的位置和所识别的姿势所确定的处理。关于剪切区域的确定

此外，即使在不执行手形状识别的情况下，也可以基于所拍摄的图像来确定剪切区域。

在这样的情况下，例如，如图10中的箭头Q71所示，获得在作为对象的用户U21被拍摄时所获得的拍摄图像PC11的每个区域中的帧之间的差异，并且确定剪切区域。

在该示例中，剪切图像生成单元121关于作为连续两个帧的拍摄图像PC11上的剪切区域的候选的区域，获得在区域中的帧之间的像素的亮度值的绝对差异值的总和。此时，剪切图像生成单元121关于每个区域获得绝对差异值的总和，同时切换作为剪切区域的候选的区域。

在箭头Q71中示出的示例中，将所拍摄的图像PC11的图中从左上方的区域DF11-1到右下方的区域DF11-N的每个区域设置为剪切区域的候选，并且计算在这些区域中的绝对差异值的总和。此处，确定作为剪切区域的候选的区域，使得彼此靠近的区域（例如区域DF11-1和DF11-2等）的一部分交叠。

此外，剪切图像生成单元121在每个区域中将绝对差异值的总和为最大的区域设置为最终剪切区域。在该示例中，在用户U21附近的区域DF11-k成为剪切区域。

当用户U21移动手以作出姿势时，所拍摄的图像PC11的在手的区域中的帧之间的差异变大。因此，在该示例中，所拍摄的图像PC11上的差异较大的区域成为用户U21的手的区域，并且该区域成为剪切区域。

然而，在这样的情况下，当所拍摄的图像PC11上存在与用户U21不同的移动对象时，存在该移动对象变成剪切区域的可能性。

因此，例如，如箭头Q72所示，可以将在用户U21附近的区域SR11中的、所拍摄的图像PC11的帧之间的差异为最大的区域设置为剪切区域。

在这种情况下，首先，剪切图像生成单元121基于所拍摄的图像PC11来检测用户U21的区域。可以通过检测例如人或脸来执行对用户U21的检测。接下来，剪切图像生成单元121基于用户U21的脸的检测位置来确定包括用户U21的区域的具有预定尺寸的区域SR11。

此外，剪切图像生成单元121将在区域SR11的图中的从左上方的区域DF21-1到区域SR11的右下方的区域的每个区域设置为剪切区域的候选，并且计算这些区域的绝对差异值的总和。此处，确定作为剪切区域的候选的区域，使得彼此靠近的区域（例如区域DF21-1和区域DF21-2等）的一部分交叠。

另外，剪切图像生成单元121将每个区域中的其中绝对差异值的总和成为最大值的区域设置为最终剪切区域。在该示例中，在用户U21附近的区域DF21-k成为剪切区域。以这种方式，可以通过将在用户U21附近的区域作为剪切区域的候选来高精度地指定用户的手的区域。

此外，在图10所示的示例中，已经描述了将剪切区域的候选区域中的、差异最大的区域设置为剪切区域，然而，可以将若干区域按照差异较大的顺序设置为剪切区域。此外，可以将根据所拍摄的图像PC11上的用户U21的脸的位置所确定的一个或更多个区域设置为剪切区域。

如上所述，当剪切图像生成单元121基于所拍摄的图像来确定剪切区域时，也可以使显示单元12显示表示由显示控制单元57确定的剪切区域的位置的帧等。

第三实施方式

姿势识别系统的配置示例

另外，在上面的描述中，已经描述了其中在图像处理装置41或图像处理装置101中执行从拍摄图像的拍摄到姿势识别的整个过程的示例，然而，这些过程的一部分也可以在通过通信网络等连接的其他装置中执行。

在这样的情况下，例如，如图11所示，构造了通过拍摄所拍摄的图像来执行姿势识别的姿势识别系统。此外，在图11中，与图2中的情况对应的部分被给予相同的附图标记，并且其描述将被适当地省略。

图11中的姿势识别系统由图像处理装置161和服务器162配置而成。图像处理装置161和服务器162通过通信网络163彼此连接，该通信网络163由互联网形成。

图像处理装置161由拍摄单元11、手形状词典记录单元51、手形状识别单元52、控制单元171、通信单元172、动作处理单元56、显示控制单元57和显示单元12配置而成。

此外，服务器162由通信单元181、控制单元182、图像处理单元53、姿势词典记录单元54和姿势识别单元55配置而成，并且图像处理单元53包括剪切区域确定单元71、差异计算单元72和特征量提取单元73。

在这样的姿势识别系统中，用户朝向图像处理装置161的拍摄单元11执行期望的姿势。

当用户作为对象被拍摄时，拍摄单元11将作为结果获得的拍摄图像提供给手形状识别单元52和控制单元171。控制单元171将来自拍摄单元11的拍摄图像通过显示控制单元57提供给显示单元12，并使显示单元12显示该图像。

此外，手形状识别单元52基于记录在手形状词典记录单元51中的手形状词典和来自拍摄单元11的拍摄图像来从拍摄图像中识别具有具体形状的手，并将识别结果和拍摄图像通过控制单元171提供给通信单元172。

接下来，通信单元172通过通信网络163将所提供的识别结果和所拍摄的图像发送到服务器162。识别结果和所拍摄的图像被依次发送给服务器162。与此相反，服务器162的通信单元181接收从通信单元172发送的识别结果和拍摄图像，并通过控制单元182将它们提供给图像处理单元53。

图像处理单元53通过基于所提供的手形状的识别结果和所拍摄的图像确定剪切区域来生成差异图像，从所获得的差异图像中提取特征量，并将特征量提供给姿势识别单元55。

此时，根据需要，将表示剪切区域的位置的信息从服务器162发送给图像处理装置161。此外，当通过控制单元171从通信单元172提供表示在剪切区域中的位置的信息时，显示控制单元57基于该信息使显示单元12显示表示剪切区域的位置的帧。

此外，服务器162的姿势识别单元55基于来自图像处理单元53的特征量和姿势词典记录单元54的姿势词典来执行姿势识别，并通过控制单元182将识别结果提供给通信单元181。通信单元181通过通信网络163将所提供的姿势识别结果发送给图像处理装置161。

接下来，图像处理装置161的通信单元172接收从服务器162发送的姿势识别结果，并通过控制单元171将其提供给操作处理单元56。操作处理单元56使图像处理装置161的每个单元执行对应于所提供的姿势识别结果的处理。

以这种方式，还可以使与图像处理装置161（服务器162）不同的装置执行剪切区域的确定、特征量的提取、姿势识别等等。在这种情况下，当图像处理装置161的处理能力较低时，特别地，可以通过使具有较高处理能力的服务器162共享一些过程来进一步快速地获得姿势识别的结果。

第四实施方式

姿势识别系统的配置示例

另外，姿势识别系统也可以被配置为如图12所示。此外，在图12中，与图11中的情况对应的部分被给予相同的附图标记，并且其描述将被适当地省略。

图12中的姿势识别系统由图像处理装置201和服务器202配置而成。图像处理装置201和服务器202通过通信网络163彼此连接。

图像处理装置201由拍摄单元11、手形状词典记录单元51、手形状识别单元52、图像处理单元53、控制单元171、通信单元172、操作处理单元56、显示控制单元57和显示单元12配置而成。此外，图像处理单元53包括剪切区域确定单元71、差异计算单元72和特征量提取单元73。

服务器202由通信单元181、姿势词典记录单元54和姿势识别单元55配置而成。

在这样的姿势识别系统中，用户朝向图像处理装置201的拍摄单元11执行期望的姿势。

当用户作为对象被拍摄时，拍摄单元11将作为结果获得的拍摄图像提供给手形状识别单元52和控制单元171。控制单元171通过显示控制单元57将来自拍摄单元11的拍摄图像提供给显示单元12，并且使显示单元显示该图像。

另外，手形状识别单元52基于记录在手形状词典记录单元51中的手形状词典和来自拍摄单元11的拍摄图像来从所拍摄的图像中识别具体形状的手，并将识别结果和拍摄图像提供给图像处理单元53。

图像处理单元53通过基于由手形状识别单元52提供的手形状的识别结果和拍摄图像确定剪切区域来生成差异图像，从所获得的差异图像中提取特征量，并将特征量提供给控制单元171。此外，控制单元171将特征量从图像处理单元53提供给通信单元172。

此时，根据需要，通过控制单元171将表示剪切区域的位置的信息从图像处理单元53提供到显示控制单元57。当从控制单元171提供表示剪切区域的位置的信息时，显示控制单元57基于该信息使显示单元12显示表示剪切区域的位置的帧。

此外，通信单元172通过通信网络163将由控制单元171提供的特征量依次发送给服务器202。

接下来，服务器202的通信单元181接收从通信单元172发送的特征量，并将特征量提供给姿势识别单元55。

此外，姿势识别单元55基于由通信单元181提供的特征量以及姿势词典记录单元54的姿势词典来执行姿势识别，并将识别结果提供给通信单元181。通信单元181通过通信网络163将所提供的姿势识别结果发送给图像处理装置201。

接下来，图像处理装置201的通信单元172接收从服务器202发送的姿势识别结果，并且通过控制单元171将该结果提供给操作处理单元56。操作处理单元56使图像处理装置201的每个单元执行对应于所提供的姿势识别结果的处理。

以这种方式，还可以使不同于图像处理装置201的装置（服务器202）执行姿势识别的处理。

此外，在图11和图12中的示例中，图像处理装置161或图像处理装置201可以从设置在外部的拍摄装置获得拍摄图像，或者显示单元12可以连接到图像处理装置161或图像处理装置201。另外，由图7中的图像处理装置101执行的处理的一部分可以通过外部装置来执行，如图11或图12中的示例所示。

同时，到目前为止，已经描述了在所拍摄的图像上确定的剪切区域的数目为1，然而，在所拍摄的图像上确定的剪切区域的数目可以是多个。

第五实施方式

图像处理装置的配置示例

在这样的情况下，图像处理装置被配置成例如如图13所示。此外，在图13中，与图7中的情况对应的部分被给予相同的附图标记，并且其描述将被适当地省略。

图13中的图像处理装置301由拍摄单元11、图像处理单元311、姿势词典记录单元54、姿势识别单元312、操作处理单元56、显示控制单元57和显示单元12配置而成。

图像处理单元311基于由拍摄单元11提供的拍摄图像来提取用于识别姿势的特征量，将特征量提供给姿势识别单元312，并根据需要将关于剪切区域的信息等提供给显示控制单元57。

图像处理单元311包括：识别区域设置单元321、剪切图像生成单元322、差异计算单元72和特征量提取单元73。识别区域设置单元321将识别区域设置为其中多个剪切区域布置在所拍摄的图像上的区域。剪切图像生成单元322确定布置在所拍摄的图像上的识别区域中的多个剪切区域的各个尺寸，并在识别区域中布置剪切区域。此外，剪切区域生成单元322剪切出布置在所拍摄的图像上的剪切区域中的图像，并将其设置为剪切图像。

姿势识别单元312基于由姿势词典记录单元54提供的姿势词典以及由图像处理单元311提供的在每个剪切区域中的特征量来执行姿势识别，并将识别结果提供给操作处理单元56。

姿势识别处理的描述

接下来，将参照图14中的流程图来描述通过图像处理装置301进行的姿势识别处理。

在步骤S111中，拍摄单元11开始对要被拍摄的图像进行拍摄。

也就是说，拍摄单元11拍摄在拍摄单元11的周围的作为对象的用户，并将作为其结果获得的每个帧中的拍摄图像依次地提供给图像处理单元311和显示控制单元57。

此外，显示控制单元57将由拍摄单元11提供的拍摄图像提供给显示单元12，并使显示单元显示该图像。

在步骤S112中，识别区域设置单元321在由拍摄单元11提供的拍摄图像上设置识别区域。此处，假设识别区域设置单元321将所拍摄的图像的几乎整个区域设置为识别区域，具体地，将所拍摄的图像上的除了周边部分的区域设置为识别区域。

在步骤S113中，剪切图像生成单元322确定布置在由识别区域设置单元321设置的识别区域中的多个剪切区域的每个尺寸，并在识别区域中布置剪切区域。此处，剪切图像生成单元322将多个剪切区域中的每个的尺寸设置为相同尺寸。以这种方式，由于在识别区域中布置了作为姿势识别的处理目标的剪切区域，识别区域可以被视为其中能够识别姿势的区域。此外，图像处理单元311将表示所设置的识别区域的位置的信息和表示所确定的剪切区域的各个位置的信息提供给显示控制单元57。

在步骤S114中，显示控制单元57基于由图像处理单元311提供的信息，使显示单元12显示表示识别区域的位置的帧或表示剪切区域的位置的帧。

例如，如图15所示，显示控制单元57使显示单元12显示帧RF1-1至RF1-N（在下文中，也被称为识别帧），所述帧RF1-1至RF1-N表示布置在识别区域RA1中的多个剪切区域。此外，在图15中，与图1中的情况对应的部分被给予相同的附图标记，并且其描述将被省略。此外，在下文中，在识别帧RF1-1至RF1-N中表示的剪切区域也被称为剪切区域RF1-1至RF1-N。

在图15中的示例中，表示N个剪切区域的识别帧RF1-1至RF1-N显示在显示单元12中所显示的拍摄图像上的包括用户U31的整个识别区域RA1中。在该示例中，剪切区域的各个尺寸是预先确定的指定尺寸，并且是可以遍布整个识别区域RA1的没有交叠且没有留出空间的尺寸。

此外，如图16所示，还优选的是，只显示表示在显示单元12中显示的拍摄图像上的包括用户U31的识别区域RA1的帧。

以这种方式，用户在查看显示在显示单元12中的帧或他们的手的同时作出期望的姿势。

在步骤S115中，剪切图像生成单元322相对于在由拍摄单元11提供的每个帧中的拍摄图像，剪切出布置在所拍摄的图像上的识别区域中的剪切区域中的图像，并生成多个剪切图像。

在步骤S116中，差异计算单元72获得在每个剪切区域中的剪切图像的帧之间的差异，并生成差异图像。

此外，在步骤S117中，特征量提取单元73基于在每个剪切区域中的差异图像来提取用于姿势识别的特征量，并将特征量提供给姿势识别单元312。例如，在步骤S117中，执行与图3中的步骤S20相同的处理，并且提取每个剪切区域中的特征量。

在步骤S118中，姿势识别单元312基于由特征量提取单元73提供的特征量和记录在姿势词典记录单元54中的姿势词典来执行姿势识别，并将识别结果提供给操作处理单元56。

在步骤S118中，如图17所示，姿势识别单元312基于相对于各个剪切区域RF1-1至RF1-N而提取的特征量、通过使用一个识别器来逐个执行与图3中的步骤S21中相同的识别处理、来执行姿势识别。

此外，如图18所示，姿势识别单元312可以基于相对于各个剪切区域RF1-1至RF1-N而提取的特征量、通过使用N个识别器串行地执行识别处理、来执行姿势识别。

另外，在相对于剪切区域RF1-1至RF1-N中的一个执行了识别处理之后，姿势识别单元312可以通过将作为识别处理的目标的剪切区域的数目增加至四、九……来执行姿势识别。

具体地，如图19所示，首先，在相对于由一个剪切区域形成的区域RF2-1执行识别处理之后，姿势识别单元312相对于由四个剪切区域形成的区域RF2-2执行识别处理。接下来，姿势识别单元312相对于由9个剪切区域形成的区域RF2-3执行识别处理。以这种方式，可以通过依次扩大作为识别目标的区域来执行姿势识别。

此外，当同时剪切区域RF1-1至RF1-N中的预定数目的剪切区域的所提取的特征量大于预定值时，可以通过相对于所述剪切区域执行识别处理来执行姿势识别。

另外，当其中所提取的特征量大于预定值的剪切区域的数目在特定时间段内超过预定数目时，可以通过执行相对于所述剪切区域的识别处理来执行姿势识别。

此外，在姿势识别中，上述识别处理可以组合执行。

在步骤S119中，操作处理单元56使图像处理装置301的每个单元执行与由姿势识别单元312提供的姿势识别结果相对应的处理。

此外，当指定的姿势被识别并且对应于该姿势执行了处理时，可以执行关于姿势被识别的反馈。例如，通过显示控制单元57使表示显示在显示单元12中的剪切区域的识别帧进行闪烁或使预定的图像被显示来执行这样的反馈。

具体地，如图20所示，通过进行改变来显示表示区域RF3的帧的色彩，区域RF3显示在显示单元12上，且是在布置于识别区域RA1中的剪切区域中的执行姿势识别的区域。此外，如图21所示，还优选的是，只显示表示区域RF4的帧，在该区域RF4中，在不使显示单元12显示剪切区域的状态下执行姿势识别。此外，如图22所示，还优选的是，通过将图标与表示其中没有执行姿势识别的区域的部分进行交叠来显示预定图标IC5。

此外，作为关于姿势被识别的反馈，还优选的是，输出预定的声音，而不是输出显示在显示单元12上的帧或图像。

步骤S119之后，过程返回到步骤S115，并重复上述处理。此外，当用户指示完成姿势识别时，姿势识别处理完成。

如上所述，图像处理装置301在所拍摄的图像上的识别区域中布置多个剪切区域，并且从通过获取其每个剪切区域中的图像之间的差异而获得的差异图像中提取特征量。此外，图像处理装置301基于按时间顺序排列的特征量、通过按时间顺序执行识别过程来识别用户的姿势，并执行对应于识别结果的处理。

以这种方式，可以相对于多个剪切区域从差异图像中提取特征量并执行姿势识别来在较宽的范围内识别用户的姿势。

相应地，用户能够在任意位置执行姿势操作，而无需考虑在其中姿势例如从右到左（或从左到右）轻弹手的运动（在下文中称为轻弹运动）被识别的区域。也就是说，用户能够使用自然运动来执行姿势操作，而无需考虑剪切区域的位置，并且能够提高其中执行对应于姿势的处理的应用程序等的方便性。

此外，由于在整个识别区域中执行姿势识别，存在如下可能性：即使在局部作出不同运动，也将相同的运动作为整体进行识别，相应地，即使在用户的姿势存在个体差异的情况下，也可以较鲁棒地识别姿势。

此外，如上面参照图15所描述的，假设剪切区域遍布在识别区域中，且没有交叠，并且没有留下空间，然而，如图23所示，识别区域可以被布置成使得剪切区域RF6与其中的识别区域RA1交叠，并使得如图24所示，识别区域RF7以预定间隔布置在识别区域RA1中。

此外，到目前为止，假设将其中布置有多个剪切区域的识别区域设置在预定的位置，然而，如图25所示，优选的是，在与图9中的箭头Q42的示例中描述的显示单元12上显示的按钮图标的区域相对应的拍摄图像上的位置处设置识别区域。

在图25中，在显示单元12上显示被拍摄的用户U31和用于执行各处理的按钮图标AC21-1和AC21-2。类似于图9，还优选的是，使当操作时提醒所执行的处理的图像或描述处理的字符显示在这些按钮图标AC21-1和AC21-2中。

在该示例中，将在所拍摄的图像上的对应于按钮图标AC21-1和AC21-2中的每个的区域的位置设置为其中布置有四个剪切区域的识别区域RA2-1和RA2-2。在这种情况下，当执行将手移动到所期望的按钮图标AC21-1或AC21-2中的区域的姿势时，用户U31能够执行相对于按钮图标AC21-1和AC21-2所确定的处理。

此外，可以将识别区域设置在由执行姿势识别的系统的提供者预先指定的位置，或者可以设置在预先指定或使用该系统的用户在使用时指定的位置。

到目前为止，假设识别区域设置在预先确定的位置，然而，识别区域可以基于在所拍摄的图像上的作为用户的身体的部位的位置来设置。

第六实施方式

图像处理装置的配置示例

在这样的情况下，图像处理装置例如被配置为如图26所示。此外，在图26中，与图13中的情况对应的部分被给予相同的附图标记，并且其描述将被适当地省略。

图26中的图像处理装置401由拍摄单元11、面部词典记录单元411、面部检测单元412、图像处理单元413、姿势词典记录单元54、姿势识别单元312、操作处理单元56、显示控制单元57和显示单元12配置而成。

面部词典记录单元411记录检测面部时使用的面部词典，该面部词典是通过统计学习如AdaBoost获得的，并且根据需要将面部词典提供给面部检测单元412。例如，当学习面部词典时，使用用于学习的、包括作为检测目标的面部的图像的多个图像，并且由于该学习而获得作为面部词典的识别器等。

面部检测单元412基于由面部词典记录单元411提供的面部词典从由拍摄单元11提供的拍摄图像中检测面部，并将检测结果和拍摄图像提供给图像处理单元413。

图像处理单元413基于面部检测结果和由面部检测单元412提供的拍摄图像来提取用于姿势识别的特征量，将特征量提供给姿势识别单元312，并根据需要将关于剪切区域等的信息提供给显示控制单元57。

图像处理单元413包括识别区域设置单元421、剪切图像生成单元422、差异计算单元72和特征量提取单元73。识别区域设置单元421基于面部检测结果来设置识别区域。剪切图像生成单元422基于面部检测结果来确定各个剪切区域的尺寸，并在识别区域中布置剪切区域。此外，剪切图像生成单元422剪切出布置在所拍摄的图像上的剪切区域中的图像，并将该图像设置为剪切图像。

姿势识别处理的描述

接下来，将参照图27中的流程图来描述通过图像处理装置401进行的姿势识别处理。

此外，图27的流程图中的步骤S211以及S215至S220中的过程与图14中的步骤S111以及S114至S119中的相同，其描述将被省略。

也就是说，在步骤S212中，面部检测单元412检测面部。

具体地，面部检测单元412基于记录在面部词典记录单元411中的面部词典以及由拍摄单元11提供的拍摄图像来从每个帧中的拍摄图像中检测面部，并将检测结果和拍摄图像提供给图像处理单元413。

在步骤S212中，识别区域设置单元421基于由面部检测单元412提供的面部检测结果来设置所拍摄的图像上的识别区域。具体地，识别区域设置单元421基于在所拍摄的图像上检测到的作为用户身体的部位的面部的位置来设置识别区域。

例如，如图28所示，在显示在显示单元12上的拍摄图像中，当检测到用户U31的面部时，基于检测到的面部区域FA1的位置来将被假设为用户的手臂的可移动范围的区域设置为识别区域RA3。

在步骤S213中，剪切图像生成单元422基于由面部检测单元412提供的面部检测结果来确定布置在由识别区域设置单元421设置的识别区域中的多个剪切单元的各个尺寸，并在识别区域中布置剪切区域。具体地，剪切图像生成单元422基于在所拍摄的图像上检测到的面部的尺寸来确定剪切区域的尺寸，并在识别区域中布置剪切区域。

例如，如图29所示，当在显示在显示单元12上的拍摄图像中检测到用户U31的面部时，基于所检测到的面部区域FA1的尺寸来确定剪切区域RF8的尺寸，并在识别区域RA3中布置剪切区域。

在下文中，从布置在识别区域中的剪切区域中剪切出图像，并从通过获取其每个剪切区域中的图像中的差异而获得的差异图像中提取特征量。此外，基于按时间顺序排列的特征量使用按时间顺序的识别处理来识别用户的姿势，并执行对应于其识别结果的处理。

即使在上述处理中，也可以通过关于多个剪切区域从差异图像中提取特征量执行姿势识别来在较宽的范围内识别用户的姿势。

另外，由于基于用户面部的位置来设置识别区域，对于显然不是识别处理的目标的区域，不执行识别处理，相应地，可以减轻姿势识别中的处理负担。

此外，即使在上面的描述中，剪切区域也可以没有交叠、没有留下空间地遍布在识别区域中，可以布置成使得在识别区域中交叠，以及可以以预定间隔布置在识别区域中。

然而，在上面的描述中，假设基于作为用户身体的部位的面部的位置来设置识别区域，然而，可以基于作为用户身体的部位的手的位置来设置识别区域。

第七实施方式

图像处理装置的配置示例

在这样的情况下，图像处理装置例如被配置成如图30所示。此外，在图30中，与图13中的情况对应的部分被给予相同的附图标记，并且其描述将被适当地省略。

图30中的图像处理装置501由拍摄单元11、手词典记录单元511、手检测单元512、图像处理单元513、姿势词典记录单元54、姿势识别单元312、操作处理单元56、显示控制单元57和显示单元12配置而成。

手词典记录单元511记录当检测手时使用的手词典，该手词典是通过统计学习例如AdaBoost而获得的，并根据需要将该手词典提供给手检测单元512。例如，当学习手词典时，使用用于学习的、包括作为检测目标的手的图像的多个图像，并且通过该学习来获得作为手词典的识别器等。

手检测单元512基于由手词典记录单元511提供的手词典从由拍摄单元11提供的拍摄图像中检测手，并将检测结果和拍摄图像提供给图像处理单元513。

图像处理单元513基于所拍摄的图像和由手检测单元512提供的手检测结果来提取用于执行姿势识别的特征量，将特征量提供给姿势识别单元312，并根据需要将关于剪切区域等的信息提供给显示控制单元57。

图像处理单元513包括识别区域设置单元521、剪切图像生成单元522、差异计算单元72和特征量提取单元73。识别区域设置单元521基于手检测结果来设置识别区域。剪切图像生成单元522基于手检测结果来确定剪切区域的各个尺寸，并在识别区域中布置剪切区域。此外，剪切图像生成单元522剪切出布置在所拍摄的图像上的剪切区域中的图像，并将该图像设置为剪切图像。

姿势识别处理的描述

接下来，将参照图31中的流程图来描述通过图像处理装置501进行的姿势识别处理。

此外，由于图31的流程图中的步骤S311、步骤S315至S320中的过程分别与图14中的步骤S111、步骤S114至S119中的过程相同，其描述将被省略。

也就是说，在步骤S312中，手检测单元512检测手。

具体地，手检测单元512基于记录在手词典记录单元511中的手词典和由拍摄单元11提供的拍摄图像来从每个帧中的拍摄图像中检测手，并将检测结果和拍摄图像提供给图像处理单元513。

在步骤S313中，识别区域设置单元521基于由手检测单元512提供的手检测结果来在拍摄图像上设置识别区域。具体地，识别区域设置单元521基于在所拍摄的图像上检测到的作为用户身体的部位的手的位置来设置识别区域。

例如，如图32所示，当在显示在显示单元12上的拍摄图像中检测到用户U31的手时，将检测到的手区域HA1的位置周围的预定范围内的区域设置为识别区域RA4。

在步骤S313中，剪切图像生成单元522基于由手检测单元512提供的手检测结果来确定布置在由识别区域设置单元521设置的识别区域中的多个剪切区域的各个尺寸，并在识别区域中布置剪切区域。具体地，剪切图像生成单元522基于在所拍摄的图像上检测到的手的尺寸来确定剪切区域的尺寸，并在识别区域中布置剪切区域。

例如，如图33所示，当在显示在显示单元12中的拍摄图像中检测到用户U31的手时，基于检测到的手区域HA1的尺寸来确定剪切区域RF9的尺寸，并且在识别区域RA4中布置剪切区域。

在下文中，剪切出布置在识别区域中的识别帧，从通过获取其每个剪切区域中的图像的差异而获得的差异图像中提取特征量。此外，基于按时间顺序排列的特征量通过按时间顺序的识别处理来识别用户的姿势，并执行对应于识别结果的处理。

即使在上述处理中，可以通过相对于多个剪切区域从差异图像中提取特征量来执行姿势识别从而在较宽的范围内识别用户的姿势。

此外，由于基于用户的手的位置来设置识别区域，所以对于明显不是识别处理的目标的区域，不执行识别处理，相应地，可以减轻在姿势识别中的处理负担。

此外，即使在上面的描述中，剪切区域也可以没有交叠、且没有留下空间地遍布在识别区域中，可以布置成在识别区域中交叠，以及可以以预定间隔布置在识别区域中。

此外，在上面的描述中，已经描述了如下配置：其中包括检测用户的面部的面部检测单元412和检测用户的手的手检测单元512中的任何一个，作为用于检测所拍摄的图像上的用户身体的部位的单元，然而，也可以是如下配置：面部检测单元412和手检测单元512均被包括。

第八实施方式

图像处理装置的配置示例

在这样的情况下，图像处理装置例如被配置成如图34所示。此外，在图34中，与图13中的情况对应的部分被给予的相同的附图标记，并且其描述将被适当地省略。

图34中的图像处理装置601由拍摄单元11、面部词典记录单元411、面部检测单元412、手词典记录单元511、手检测单元512、图像处理单元613、姿势词典记录单元54、姿势识别单元312、操作处理单元56、显示控制单元57和显示单元12配置而成。

此外，由于面部词典记录单元411和面部检测单元412与图26中的图像处理装置401中设置的那些具有相同的配置，并且手词典记录单元511和手检测单元512具有与图30中的图像处理装置501中设置的那些相同的配置，所有其描述将被省略。此外，在图34中，面部检测单元412从由拍摄单元11提供的拍摄图像中检测面部，并将检测结果和拍摄图像提供给手检测单元512。此外，手检测单元512从由面部检测单元412提供的拍摄图像中检测手，并将检测结果、面部检测结果和拍摄图像提供给图像处理单元611。

图像处理单元613包括识别区域设置单元621、剪切图像生成单元622、差异计算单元72和特征量提取单元73。识别区域设置单元621基于面部或手的检测结果来设置识别区域。剪切图像生成单元622基于面部或手的检测结果来确定各个剪切区域的尺寸，并在识别区域中布置剪切区域。此外，剪切图像生成单元622剪切出布置在拍摄图像上的剪切区域中的图像，并将该图像设置为剪切图像。

此外，由于通过将上述图27和图31中的流程图中的处理进行组合来执行通过图像处理装置601进行的姿势识别处理，所以其详细描述将被省略。

作为一个示例，执行通过图像处理装置601进行的姿势识别处理，使得：例如在图27中的流程图中，图31中的流程图的步骤S312（手检测）在步骤S212（面部检测）之后执行，在步骤S213中设置基于面部或手的位置的识别区域，并且在步骤S214中基于面部或手的尺寸来进行剪切区域的尺寸的确定。

此外，即使在通过图像处理装置601进行的姿势识别处理中，也可以获得与参照图27或图31中的流程图而描述的姿势识别处理中相同的操作和效果。

同时，在上述处理中，当拍摄到作出与作为识别目标的姿势相似的运动的对象时，存在如下担心：该对象的运动可能会被误识别为作为识别目标的姿势。

例如，当关于由用户U31执行的在图15中示出的轻弹运动执行姿势识别时，在上述处理中，存在如下担心：由于在识别区域中的整体运动，用户U31的左右摆动其身体的上部分的运动可能会被误识别为轻弹运动。

因此，在执行姿势识别处理的图像处理装置中，还优选的是设置防止姿势被误识别的配置。

第九实施方式

图像处理装置的配置示例

在这样的情况下，图像处理装置例如被配置成如图35所示。此外，在图35中，与图13中的情况对应的部分被给予相同的附图标记，并且其描述将被适当地省略。

图35中的图像处理装置701由拍摄单元11、图像处理单元713、姿势词典记录单元54、姿势识别单元712、操作处理单元56、显示控制单元57和显示单元12配置而成。

图像处理单元711基于由拍摄单元11提供的拍摄图像来提取用于执行姿势识别的特征量，将特征量提供给姿势识别单元712，并根据需要将关于剪切区域的信息等提供给显示控制单元57。

图像处理单元711包括识别区域设置单元321、剪切图像生成单元322、差异计算单元72、特征量提取单元73和运动确定单元721。运动确定单元721基于识别区域中的多个显著点中的运动矢量的大小来确定识别区域中的运动，并将确定结果提供给姿势识别单元712。

姿势识别单元712根据由运动确定单元721提供的确定结果，基于由姿势词典记录单元54提供的姿势词典和由图像处理单元711提供的每个剪切区域中的特征量执行姿势识别，并将识别结果提供给操作处理单元56。

姿势识别处理的描述

接下来，将参照图36中的流程图来描述通过图像处理装置701进行的姿势识别处理。

此外，在图36的流程图中的步骤S411、步骤S417至步骤S420中的过程与图14的流程图中的步骤S111至步骤S117以及步骤S119中的过程相同，相应地，其描述将被省略。

也就是说，在步骤S418中，运动确定单元721执行运动确定处理。运动确定处理的描述

此处，将参照图37中的流程图来描述通过运动确定单元721进行的运动确定处理。

在步骤S451中，运动确定单元721使用由拍摄单元11提供的拍摄图像的光流来计算识别区域中的多个显著点中的运动矢量。假设显著点均匀地设置在整个识别区域中。此外，可以使用另外的方法来计算每个显著点中的运动矢量，而不限于其中使用光流的方法。

在步骤S452中，运动确定单元721沿关注方向上通过大小对在每个显著点中计算的运动矢量进行排序。此处，关注方向是在作为识别目标的姿势中运动变得特别大的方向，在这种情况下，将该方向设置为水平方向。在下文中，在拍摄的图像中，水平方向被设置为x轴方向，竖直方向被设置为y轴方向。此外，在水平方向和竖直方向上，可以随意设置正方向和负方向。

在步骤S453中，运动确定单元721使用其最大值来对按x轴方向上的量值（具体地，运动矢量的x分量）排序的运动矢量来进行归一化。

在步骤S454中，运动确定单元721将按x轴方向上的量值排序的运动矢量中的、运动矢量的负值转换为正值，并且使用大小的最大值来进行归一化。

在步骤S455中，运动确定单元721关于按x轴方向上的量值排序的运动矢量执行预定阈值处理，使用大小的最大值来进行归一化，并转换成正值。

例如，在每个显著点中，计算如图38所示的运动矢量。在图38中，横轴表示显著点，竖轴表示使用光流计算的运动矢量在x轴方向上的大小。

图39示出了如下结果：其中该运动矢量按量值进行排序，并使用其大小的最大值来进行归一化，且其负值被转换为正值。在图39中，在水平轴的最左侧表示的运动矢量是在x轴方向上具有最大大小的运动矢量，而在从大小近似为0且在中心附近的运动矢量起的右侧所表示的运动矢量是值被转换为正值的运动矢量。此外，在图39中，示出了根据作为识别目标图像数据的姿势所确定的阈值曲线Cth。

也就是说，在步骤S456中，确定例如在图39中示出的运动矢量是否超过阈值曲线Cth。

例如，假设根据左右方向上的轻弹动作确定阈值曲线Cth。当用户执行左右方向上的轻弹动作时，由于运动矢量仅在识别区域中的x轴方向上的区域部分中变大，如果按x轴方向上的量值对运动矢量进行排序、归一化，并且将其负值转换成正值，可以获得如图39所示的结果。在这种情况下，由于在x轴方向上的运动矢量的量值超过了阈值曲线Cth，因此存在如下可能性：用户在识别区域中的运动是左右方向上的轻弹动作。

另一方面，当用户作出左右晃动其上部身体的运动时，由于几乎在整个识别区域中运动矢量在x轴方向上变得较大，当按量值对运动矢量排序、归一化，并且将其负值转换成正值时，可以整体上获得值较高的运动矢量。在这种情况下，运动矢量在x轴方向上的量值超过在水平轴中心附近的阈值曲线Cth，不可能用户在识别区域中的运动是左右方向上的轻弹动作。

以这种方式，在步骤S456中，通过确定运动矢量是否超过阈值曲线Cth来确定用户的运动是否是作为识别目标的姿势。运动确定单元721将确定结果提供给姿势识别单元712，并且过程返回到图36中的步骤S418。

此外，当作为识别区域的姿势是上下方向上的轻弹运动时，例如，在图37中的运动确定处理中，关于每个显著点中的运动矢量在y轴方向的量值执行上述处理。

返回到图36中的流程图，在步骤418之后的步骤S419中，姿势识别单元712根据由运动确定单元721提供的确定结果执行姿势识别，并将识别结果提供给操作处理单元56。也就是说，当从运动确定单元721提供了用户的运动是作为识别目标的姿势的确定结果时，姿势识别单元712执行姿势识别。此外，当从运动确定单元721中提供了用户的运动不是作为识别目标的姿势的确定结果时，姿势识别单元712不执行姿势识别。

如上所述，图像处理装置701基于所拍摄的图像上的识别区域中的运动矢量的大小来确定用户的运动。此外，图像处理装置701根据确定结果识别用户的姿势，并执行对应于识别结果的处理。

以这种方式，即使拍摄到作出类似于作为识别目标的姿势的运动的对象，也可以通过确定用户的运动来防止对象的运动被误识别为作为识别目标的姿势。

此外，执行上述运动确定处理的运动确定单元721也可以设置在图像处理装置401、501和601中。

同时，在上面的描述中，在设置的识别区域中，假设布置具有相同尺寸的剪切区域，然而，可以布置具有多个尺寸的剪切区域。

此外，在前一帧中执行姿势识别的区域中，在作为处理目标的当前帧中，可以通过将剪切区域布置成如图23所示在识别区域中交叠来增加剪切区域的密度。以这种方式，可以进一步提高姿势识别的精度，这是因为很有可能即使用户在竖直方向或水平方向上偏离一定程度的位置作出姿势也能够在剪切区域中的任一个中执行姿势识别。

此外，当通过减小剪切区域的尺寸来将手指的运动识别为手的运动时，也可能将比使用手进行的左右轻弹动作小的动作，例如使用手指的左右轻弹动作识别为姿势。

另外，在识别区域中的多个部分的每个中，可以同时执行相同的姿势识别。以这种方式，例如，使用左右两只手的姿势被识别，并且可以执行诸如所谓的多触摸的操作输入。

此外，根据上述的第五实施方式至第九实施方式的过程的一部分可以使用通过通信网络连接的其他装置等来执行，这在第三实施方式和第四实施方式的配置中进行了描述。

系统的应用示例

同时，上述姿势识别处理可以应用于各种系统。

上述姿势识别处理可以应用于如下系统：该系统在例如显示单元12上显示与记录在记录介质（未示出）中的图像数据相对应的缩略图PIC11-1至PIC11-6，如图40中的箭头Q61所表示的。在图40中的箭头Q61中，通过执行从右到左的轻弹动作，用户U31能够将在显示单元12上显示缩略图PIC11-1至PIC11-6的屏幕滚动到左侧。

此外，如图40中的箭头Q62所示的，可以将上述姿势识别处理应用于例如其中在显示单元12上显示滑动式开关SW12的系统。在图40的箭头Q62中，通过执行从右到左的轻弹动作，用户U31能够将显示的开关SW12在显示单元12上从OFF切换到ON。

此外，尽管未示出，上述姿势识别处理可以应用于例如电视接收机。在该示例中，通过执行从右到左的轻弹动作，用户能够选择节目的频道或连接到电视接收器的连接设备诸如记录器的频道。

上述姿势识别处理可以应用于包括用户接口的系统，在该系统中，在与显示单元分离的位置处使用姿势来控制在显示单元上的显示，但不限于上述示例。

另外，当然，被识别的姿势不局限于左右轻弹动作，可以是上下执行的轻弹动作，或其他动作。

同时，上述系列处理可以通过硬件执行，或者可以通过软件执行。当所述系列处理由软件执行时，在计算机中安装构造成软件的程序。此处，在计算机中，包括了结合在专用硬件中的计算机或例如能够通过安装各种程序执行各种功能的通用个人计算机等。

图41是示出其中使用程序执行上述系列处理的计算机的硬件的配置示例的框图。

在该计算机中，CPU（中央处理单元）901、ROM（只读存储器）902、RAM（随机存取存储器）903通过总线904彼此连接。

在总线904中，还连接输入-输出接口905。输入-输出接口905连接至输入单元906、输出单元907、记录单元908、通信单元909和驱动器910。

输入单元906由键盘、鼠标、麦克风等配置而成。输出单元907由显示器、扬声器等配置而成。记录单元908由硬盘、非易失性存储器等配置而成。通信单元909由网络接口等配置而成。驱动器910驱动磁盘、光盘、磁光盘或诸如半导体存储器的可移除介质911。

在如上所述配置而成的计算机中，例如，当CPU901通过输入-输出接口905和总线904等将记录在记录单元908中的程序装载到RAM903中来执行该程序时，执行上述系列处理。

由计算机（CPU901）执行的程序可以通过被记录在可移除介质911（例如，封装介质等）中来提供。此外，可以通过有线或无线传输介质例如局域网、因特网、数字卫星广播等来提供程序。

在计算机中，程序可以通过在驱动器910上安装可移除介质911经由输入-输出接口905来安装到记录单元908。此外，该程序可以通过经由有线或无线传输介质在通信单元909中进行接收从而安装到记录单元908中。此外，程序可以安装到ROM902中，或预先安装在记录单元908中。

此外，由计算机执行的程序可以是其中根据在说明书中描述的顺序以时间顺序执行处理的程序，并且可以是其中并行地执行处理或在必要定时注入在被调用时执行处理的程序。

此外，本技术的实施方式并不限于上述实施方式，并且可以在不脱离本技术的范围的情况下进行各种改变。

例如，本技术是能够采用云计算配置，在该云计算配置中，通过网络在多个装置中进行共享来联合处理一个功能。

另外，上述流程图中所描述的每个步骤可以在一个装置中执行，并且也可以通过共享在多个装置中执行。

另外，当多个过程被包括在一个步骤中时，包括在一个步骤中的多个过程可以在一个装置中执行，以及也可以通过共享在多个装置中执行。

另外，本技术也可以采用以下配置。

[1]一种图像处理装置，包括：差异图像生成单元，所述差异图像生成单元通过获得剪切图像的帧之间的差异来生成差异图像，其中所述剪切图像是通过剪切出所拍摄的图像上的预定区域而获得的；特征量提取单元，所述特征量提取单元从所述差异图像中提取特征量；以及识别单元，所述识别单元识别在所拍摄的图像上的对象的具体运动。

[2]在[1]中公开的图像处理装置，其中，所述识别单元将用户的手作出的姿势识别为所述对象的具体运动。

[3]在[2]中公开的图像处理装置，还包括：手检测单元，所述手检测单元从所拍摄的图像中检测所述用户的手；以及剪切区域确定单元，所述剪切区域确定单元基于所检测到的用户的手在所拍摄的图像上的位置来确定所述预定区域。

[4]在[3]中公开的图像处理装置，其中，当关于连续的多个帧的所拍摄的图像，所检测到的用户的手位于所拍摄的图像上的一定范围内时，所述剪切区域确定单元基于所述用户的手的位置来确定所述预定区域。

[5]在[2]中公开的图像处理装置，还包括剪切区域确定单元，所述剪切区域确定单元通过获得在所拍摄的图像上的每个区域中的帧之间的差异来确定所述预定区域。

[6]在[2]中公开的图像处理装置，其中，所述预定区域是在所拍摄的图像上预先确定的区域。

[7]在[2]中公开的图像处理装置，还包括：区域设置单元，所述区域设置单元在所拍摄的图像上设置其中布置有多个预定区域的识别区域，其中，所述差异图像生成单元生成布置在所述识别区域中的每个所述预定区域中的差异图像，其中，所述特征量提取单元从每个所述预定区域中的差异图像中提取特征量，以及其中，所述识别单元基于从在每个所述预定区域中的按时间顺序排列的多个差异图像中获得的特征量来识别所述用户的姿势。

[8]在[7]中公开的图像处理装置，还包括：剪切区域确定单元，所述剪切区域确定单元确定各个预定区域的尺寸，并设置在所述识别区域中。

[9]在[8]中公开的图像处理装置，还包括：检测单元，所述检测单元从所拍摄的图像中检测所述用户的身体的部位，其中，所述区域设置单元基于所检测到的所述用户的身体的部位在所拍摄的图像上的位置来设置所述识别区域。

[10]在[9]中公开的图像处理装置，其中，所述剪切区域确定单元基于所检测到的所述用户的身体的部位的尺寸来确定各个预定区域的尺寸。可使所述检测单元从所拍摄的图像检测用户的手。

[11]在[9]中公开的图像处理装置，其中，所述检测单元从所拍摄的图像中检测所述用户的脸。

[12]在[9]中公开的图像处理装置，其中，所述检测单元从所拍摄的图像中检测所述用户的手。

[13]在[7]至[12]中任一个中公开的图像处理装置，还包括：运动确定单元，所述运动确定单元基于在所述识别区域中的运动矢量的量值来确定在所述识别区域中的运动，其中，所述识别单元根据所述运动确定单元作出的确定结果来识别所述用户的姿势。

[14]在[2]至[13]中任一个中公开的图像处理装置，还包括：显示控制单元，所述显示控制单元使显示单元显示所拍摄的图像上的用户以及表示所述预定区域的位置的图像。

[15]在[14]中公开的图像处理装置，还包括：动作处理单元，当所述用户的姿势被识别时，所述动作处理单元执行对应于所识别的姿势的处理。

[16]在[15]中公开的图像处理装置，其中，所述显示控制单元使多个显示单元显示所述表示所述预定区域的位置的图像，以及其中，所述动作处理单元执行由所识别的姿势以及多个所述预定区域中的其中所述用户的姿势被识别的预定区域所确定的处理。

[17]在[14]至[16]中任一个中公开的图像处理装置，其中，所述显示控制单元使所述显示单元显示如下事实：正在执行姿势识别或所述用户的姿势已被识别。

[18]在[2]至[17]中任一个中公开的图像处理装置，其中，所述特征量提取单元将所述差异图像分成多个块，并提取所述块中的像素的平均亮度作为所述块的特征量。

本公开内容包含与如下专利申请中的公开内容相关的主题：于2012年1月13日提交日本专利局的日本优先权专利申请JP2012-004837以及于2012年12月4日提交日本专利局的日本优先权专利申请JP2012-265234，所述专利申请的全部内容通过引用并入本文。

本领域的普通技术人员应当理解的是，可以根据设计需求和其他因素出现各种修改、组合、子组合和替代，只要它们落在所附权利要求或其等同物的范围内即可。

Claims

1.一种图像处理装置，包括：

差异图像生成单元，所述差异图像生成单元通过获得剪切图像的帧之间的差异来生成差异图像，其中所述剪切图像是通过剪切出所拍摄的图像上的预定区域而获得的；

特征量提取单元，所述特征量提取单元从所述差异图像中提取特征量；以及

识别单元，所述识别单元基于从按时间顺序排列的多个差异图像中获得的特征量来识别在所拍摄的图像上的对象的具体运动。

2.根据权利要求1所述的图像处理装置，

其中，所述识别单元将用户的手作出的姿势识别为所述对象的具体运动。

3.根据权利要求2所述的图像处理装置，还包括：

手检测单元，所述手检测单元从所拍摄的图像中检测所述用户的手；以及

剪切区域确定单元，所述剪切区域确定单元基于所检测到的用户的手在所拍摄的图像上的位置来确定所述预定区域。

4.根据权利要求3所述的图像处理装置，

其中，当关于连续的多个帧的所拍摄的图像，所检测到的用户的手位于所拍摄的图像上的一定范围内时，所述剪切区域确定单元基于所述用户的手的位置来确定所述预定区域。

5.根据权利要求2所述的图像处理装置，还包括：

剪切区域确定单元，所述剪切区域确定单元通过获得在所拍摄的图像上的每个区域中的帧之间的差异来确定所述预定区域。

6.根据权利要求2所述的图像处理装置，

其中，所述预定区域是在所拍摄的图像上预先确定的区域。

7.根据权利要求2所述的图像处理装置，还包括：

区域设置单元，所述区域设置单元在所拍摄的图像上设置其中布置有多个预定区域的识别区域，

其中，所述差异图像生成单元生成布置在所述识别区域中的每个所述预定区域中的差异图像，

其中，所述特征量提取单元从每个所述预定区域中的差异图像中提取特征量，以及

其中，所述识别单元基于从在每个所述预定区域中的按时间顺序排列的多个差异图像中获得的特征量来识别所述用户的姿势。

8.根据权利要求7所述的图像处理装置，还包括：

剪切区域确定单元，所述剪切区域确定单元确定各个预定区域的尺寸，并设置在所述识别区域中。

9.根据权利要求8所述的图像处理装置，还包括：

检测单元，所述检测单元从所拍摄的图像中检测所述用户的身体的部位，

其中，所述区域设置单元基于所检测到的所述用户的身体的部位在所拍摄的图像上的位置来设置所述识别区域。

10.根据权利要求9所述的图像处理装置，

其中，所述剪切区域确定单元基于所检测到的所述用户的身体的部位的尺寸来确定各个预定区域的尺寸。

11.根据权利要求9所述的图像处理装置，

其中，所述检测单元从所拍摄的图像中检测所述用户的脸。

12.根据权利要求9所述的图像处理装置，

其中，所述检测单元从所拍摄的图像中检测所述用户的手。

13.根据权利要求7所述的图像处理装置，还包括：

运动确定单元，所述运动确定单元基于在所述识别区域中的运动矢量的量值来确定在所述识别区域中的运动，

其中，所述识别单元根据所述运动确定单元作出的确定结果来识别所述用户的姿势。

14.根据权利要求2所述的图像处理装置，还包括：

显示控制单元，所述显示控制单元使显示单元显示所拍摄的图像上的用户以及表示所述预定区域的位置的图像。

15.根据权利要求14所述的图像处理装置，还包括：

动作处理单元，当所述用户的姿势被识别时，所述动作处理单元执行对应于所识别的姿势的处理。

16.根据权利要求15所述的图像处理装置，

其中，所述显示控制单元使多个显示单元显示所述表示所述预定区域的位置的图像，以及

其中，所述动作处理单元执行由所识别的姿势以及多个所述预定区域中的其中所述用户的姿势被识别的预定区域所确定的处理。

17.根据权利要求16所述的图像处理装置，

其中，所述显示控制单元使所述显示单元显示如下事实：正在执行姿势识别或所述用户的姿势已被识别。

18.根据权利要求2所述的图像处理装置，

其中，所述特征量提取单元将所述差异图像分成多个块，并提取所述块中的像素的平均亮度作为所述块的特征量。

19.一种图像处理方法，包括：

通过获得剪切图像的帧之间的差异来生成差异图像，其中所述剪切图像是通过剪切出所拍摄的图像上的预定区域而获得的；

从所述差异图像中提取特征量；以及

基于从按时间顺序排列的多个差异图像中获得的特征量来识别在所拍摄的图像上的对象的具体运动。

20.一种程序，所述程序使计算机执行如下处理：

通过获得剪切图像的帧之间的差异来生成差异图像，其中所述剪切图像是通过剪切出在所拍摄的图像上的预定区域而获得的；

从所述差异图像中提取特征量；以及