CN103124945B

CN103124945B - 图像识别装置和操作判断方法以及程序

Info

Publication number: CN103124945B
Application number: CN201180042578.8A
Authority: CN
Inventors: 泉贤二
Original assignee: DAO GENXIAN
Current assignee: DAO GENXIAN
Priority date: 2010-09-06
Filing date: 2011-04-11
Publication date: 2016-04-13
Anticipated expiration: 2031-04-11
Also published as: JP4900741B2; KR101541803B1; CN103124945A; KR20170040389A; KR20140140109A; EP2615523A4; EP2615523A1; KR20130049199A; JP2011175617A; CA2810307A1; WO2012032687A1

Abstract

本发明的目的在于提供能够进行准确操作的判断。操作者（102）根据由上述摄像机（201）拍摄的操作者的图像、位置来确定的虚拟操作面与操作者（102）的相对关系，如果从操作面的摄像机（201）观察操作者（102）的一部分位于靠近近前侧，则判断开始操作，并根据各部分的形状、动作，判断该形状、动作是预先设置的哪个操作。

Description

图像识别装置和操作判断方法以及程序

技术领域

本发明涉及图像识别装置和操作判断方法，更具体地说，本发明涉及根据通过摄像机等拍摄的图像，对测定对象的动作进行判断的的图像识别装置和操作判断方法。

背景技术

近年，作为计算机、电子设备与人之间的界面，即人机界面，人们提出了各种设备及方法，特别是在游戏机、操作引导设备等中提出了一种技术，该技术使用照相机对操作者整体或一部分进行拍摄，根据其图像判断操作者的意向，从而进行运作。如，在专利文献1中提出了一种技术，其包括：主计算机，其对通过CCD照相机拍摄的图像中的物体的形状，动作进行识别；显示器，其显示通过主计算机识别到的物体的形状、动作，当用户朝向CCD照相机并通过手势等给出指示时，则所给出的手势被显示在显示器的显示画面上，可以通过手势使用箭头光标的图标来选择显示在显示画面上的虚拟开关等，不需要鼠标等输入装置即可以非常简便地进行设备的操作。

最近，还提出了一种输入系统，其从拍摄到的手指的动作、形状的图像中作为某种姿势进行识别，从而进行操作输入。例如，在能够用姿势进行画面操作的演示、或用于不需要触摸面板的非接触共用信息服务站（kiosk）终端的输入装置中，当面对大画面的操作者朝向通常设置于画面底部的位置的照相机进行各种的操作时，则其内容被反映到大画面上。通过在本技术领域中公知的方法从这样拍摄到的图像中提取操作者的形状、动作，例如，与预定的并存储于数据库中的图案进行比较，由此判断操作者的形状、动作的意义，即判断为意图何种操作的动作而用于设备的控制。

另一方面，如图13所示，作为操作者图像的读取技术，使用三维或立体对应的照相机对操作者进行拍摄，能够再现立体图像，用于安全检查等用途。通过再现立体图像能够立体地掌握操作者的动作，例如操作者的动作特别是手的动作在前后也能够进行识别，因此，与采用二维图像的场合相比较，姿势的变化形式增加。另外，即使在提取多个操作者的图像的情况下，如果为多个人由于为立体图像，故得知前后关系，能够仅提取最前面操作者的动作而用于操作的输入。

此外，近年来对于可进行三维（3D）或立体显示的显示器，提出了各种各样的类型，不仅限于以往的电影院的领域，从活动会场的显示屏到家庭用电视机，其应用领域广泛。对于3D显示技术同样提出了各种各样的类型，当然针对彩色显示也提出了不损害色调的方式和不需要专用眼镜的类型（例如，参照专利文献2）。

已有技术文献

专利文献

专利文献1：特开2004—78977号公报

专利文献2：特开2005—266116号公报

发明内容

发明要解决的课题

但是，以往的姿势操作没有确立称为事实标准（defactostandard）的某种标准的姿势，除了使用食指进行XY坐标的指示操作以外，无法直观地识别用户以何种动作能够进行何种操作。存在如下设备：通过在数秒钟的等待时间的期间将“点击”、“双击”、“拖拽”等……、点击操作固定于坐标的方式进行指示，但是由于所设定的等待时间过长等而妨碍轻松操作的情况也不少。因而存在无法实现易知且轻松地进行点击、确定（双击等）等操作的方法的问题。

另外，以往的姿势检测装置不同于称为触摸面板这种操作者能够直接接触的输入装置，难以提取操作员的明确的意向。即，存在以下问题：即使操作者进行某种动作，也不容易判断该动作是指输入的动作还仅是习惯性动作。其结果，存在以下问题：如果不以不自然的显眼的姿态进行简单的姿势则无法识别，并且需要预先规定姿势或者无法使用复杂的姿势。

本发明是鉴于上述问题而完成的，其目的在于提供一种，通过在使操作者识别与某种的输入相关的操作的状态之后，相对装置而动作的方式，能够进行准确操作的判断的图像识别装置和操作判断方法。其结果是，在不需要熟悉操作，或不需要记住特殊姿势的情况下，通过使身体整体或一部分进行动作的方式，从而能够判断为准确地表示操作员的意向的操作。

用于解决课题的技术方案

为了实现这样的目的，权利要求1所述的发明涉及一种图像识别装置，其特征在于该图像识别装置包括三维摄像单元，其读取操作者的图像来生成立体图像数据；操作面形成单元，其通过基于由三维摄像单元读取到的操作者的图像和位置的形状和位置，形成虚拟操作面；操作判断单元，其通过三维摄像单元来读取相对于已形成的虚拟操作面的操作者的至少一部分的图像的动作，根据操作者的一部分与虚拟操作面的位置关系，判断该动作是否为操作；以及信号输出单元，当被判断为该动作是操作时，该信号输出单元输出规定的信号。

权利要求2所述的发明其特征在于，在权利要求1所述的图像识别装置上，在三维摄像单元读取多个操作候补者的情况下，将进行预定的指定动作的操作候补者判断为所述操作者。

权利要求3所述的发明其特征在于，在权利要求1或2所述的图像识别装置上，还包括操作者显示单元，该操作者显示单元表示三维摄像单元读取的多个操作候补者的图像所示的被判断为操作者的操作候补者的当前操作者与其它操作候补者的位置关系。

权利要求4所述的发明其特征在于，在权利要求1～3中任一项所述的图像识别装置上，还包括位置确定面，该位置确定面设置于虚拟操作面的操作者侧的规定位置，用于确定该虚拟操作面上的操作位置；操作判断单元在操作者的一部分从位置确定面移动到虚拟操作面的一系列的动作中横切虚拟操作面时，与位置确定面上的操作者的一部分横切的位置相对应的虚拟操作面上的位置作为该操作者的一部分横切的位置，判断操作者的操作。

权利要求5所述的发明其特征在于，在权利要求1～4中任一项所述的图像识别装置上，虚拟操作面的形状和位置是，从已读取的操作者的图像中提取手臂和脸的位置，根据该已提取的手臂和脸的位置进行确定。

权利要求6所述的发明其特征在于，在权利要求1～5中任一项所述的图像识别装置上，虚拟操作面的位置位于操作者和三维摄像单元之间。

权利要求7所述的发明其特征在于，在权利要求1～6中任一项所述的图像识别装置上，操作面形成单元通过基于由三维摄像单元读取的操作者的图像、以及操作者的预定的指定动作而确定的形状和位置，来形成虚拟操作面。

权利要求8所述的发明其特征在于，在权利要求1～7中任一项所述的图像识别装置上，操作面形成单元通过基于由三维摄像单元读取的操作者的图像、以及操作者的预定的指定动作而确定的角度，来形成虚拟操作面。

权利要求9所述的发明其特征在于，在权利要求1～7中任一项所述的图像识别装置上，操作面形成单元通过基于由三维摄像单元读取的操作者的图像和位置而确定的角度，来形成虚拟操作面。

权利要求10所述的发明其特征在于，在权利要求1～9中任一项所述的图像识别装置上，还包括显示表示已形成的虚拟操作面的立体图像的操作面立体显示单元。

权利要求11所述的发明其特征在于，在权利要求10所述的图像识别装置中，立体图像由左右眼视差形成。

权利要求12所述的发明其特征在于，在权利要求10或11所述的图像识别装置上，在根据操作者的一部分和虚拟操作面的位置关系计算相关距离，在与该距离相对应的位置上立体显示表示操作者的一部分相对所述虚拟操作面的位置关系的规定标示。

权利要求13所述的发明涉及一种图像识别装置，图像识别装置包括三维摄像单元，其读取操作者的图像来生成立体图像数据；操作面形成单元，其通过基于由三维摄像单元读取到的操作者的预定的指定动作的形状和位置，形成虚拟操作面；操作判断单元，其通过三维摄像单元来读取相对于已形成的虚拟操作面的操作者的至少一部分图像的动作，根据操作者的一部分与虚拟操作面的位置关系，判断该动作是否为操作；以及信号输出单元，当被判断为该动作是操作时，该信号输出单元输出规定的信号。

权利要求14所述的发明涉及一种操作判断方法，其特征在于该方法包括三维摄像步骤，其读取操作者的图像来生成立体图像数据；操作面形成步骤，其通过基于由三维摄像步骤读取到的操作者的图像和位置的形状和位置，形成虚拟操作面；操作判断步骤，其通过三维摄像单元来读取相对于已形成的虚拟操作面的操作者的至少一部分图像的动作，根据操作者的一部分与虚拟操作面的位置关系，判断该动作是否为操作；以及信号输出步骤，当被判断为该动作是操作时输出规定的信号。

权利要求15所述的发明其特征在于，在权利要求14所述的操作判断方法中，操作判断步骤在操作者的一部分设置于虚拟操作面的操作者侧的规定位置，从用于确定该虚拟操作面上的操作位置的位置确定面，移动到虚拟操作面的一系列的动作中，横切虚拟操作面时，与位置确定面上的操作者的一部分横切的位置相对应的虚拟操作面上的位置作为横切的位置，判断操作者的操作。

权利要求16所述的发明其特征在于，在权利要求14或15所述的操作判断方法中，还包括显示表示形成的虚拟操作面的立体图像的操作面立体显示步骤。

权利要求17所述的发明涉及一种程序，该程序为在图像识别装置中执行识别操作者的图像来判断操作内容的操作判断方法的程序，其特征在于，该操作判断方法包括：三维摄像步骤，其读取操作者的图像来生成立体图像数据；操作面形成步骤，其通过基于由三维摄像步骤读取到的操作者的图像和位置的形状和位置，形成虚拟操作面；操作判断步骤，其通过三维摄像单元来读取相对于已形成的虚拟操作面的操作者的至少一部分图像的动作，根据操作者的一部分与虚拟操作面的位置关系，判断该动作是否为操作；以及信号输出步骤，当被判断为该动作是操作时输出规定的信号。

权利要求18所述的发明其特征在于，在权利要求17所述的程序中，操作判断步骤在操作者的一部分设置于虚拟操作面的操作者侧的规定位置，从用于确定该虚拟操作面上的操作位置的位置确定面，移动到虚拟操作面的一系列的动作中，横切虚拟操作面时，与位置确定面上的操作者的一部分横切的位置相对应的虚拟操作面上的位置作为横切的位置，判断操作者的操作。

权利要求19所述的发明其特征在于，在权利要求17或18所述的程序中，还包括显示表示形成的虚拟操作面的立体图像的操作面立体显示步骤。

发明的效果

如上所述，根据本发明的图像识别装置，其具备：三维摄像单元，该单元读取操作者的图像来形成立体图像数据；操作面形成单元，该单元通过基于由三维摄像单元而读取的操作者的图像和位置的形状和位置，形成虚拟操作面；操作判断单元，该单元通过三维摄像单元来读取操作者的至少一部分的图像相对于所形成的虚拟操作面的动作，根据操作者的一部分和虚拟操作面的位置关系，判断动作是否为操作；以及信号输出单元，该单元当判断动作为操作时，输出规定的信号，由此，操作者不需要熟悉操作，也不需要掌握特殊姿势，通过使身体整体或者一部分进行动作，就能够准确地将动作判断为表示操作者意志的操作。

附图说明

图1为表示本实施方式的操作输入系统的一个例子的图；

图2为示意性地表示本实施方式的操作输入系统与计算机之间的关系的方框图；

图3为表示本实施方式的在计算机的CPU内进行处理的程序的功能模块的一个例子的方框图；

图4为本实施方式的处理的流程图；

图5为用于说明本发明的一个实施方式的立体显示的虚拟操作面的图；

图6为表示本发明的一个实施方式的虚拟的操作面的样子的图；

图7为表示本发明的一个实施方式的使用例子的电视显示装置中的虚拟操作面的样子的图；

图8为表示本发明的一个实施方式的使用例子的电视显示装置中的虚拟操作面的位置的图；

图9为表示本发明的一个实施方式的根据操作面形成基准而形成的虚拟操作面的样子的图；

图10为以往的采用3D照相机获取多个操作者的图像的情况的图像的一个例子的图；

图11为表示本发明的一个实施方式的操作输入辅助的操作区域设定的一个例子的图；

图12为表示本发明的一个实施方式的基于画面或照相机的位置调整操作区域的一个例子的图；

图13为本发明的一个实施方式的基于画面或照相机的位置调整操作区域的另一例子的图；

图14为通过本发明的一个实施方式的基于画面或照相机的位置调整操作区域的另一例子的图；

图15为用于说明本发明的一个实施方式的基于画面或照相机的位置来调整操作区域的方法的图；

图16为表示本发明的一个实施方式的基于画面或照相机的位置调整操作区域的一个例子的图；

图17为表示以往的采用3D照相机获取操作者的图像的方法的图；

图18为用于说明采用本发明的一个实施方式的立体显示图标的操作输入的图；

图19为表示本发明的一个实施方式的操作输入辅助的具体显示的一个例子的图；

图20为表示本发明的一个实施方式的虚拟操作面和操作区域的样子的图；

图21为表示本发明的一个实施方式的操作者的动作与显示在画面中的图标之间的关系的图；

图22为表示本发明的一个实施方式的操作输入画面的具体显示的一个例子的图；

图23为表示本发明的一个实施方式的操作输入画面中可采用的各种图标的例子的图；

图24为表示本发明的一个实施方式的操作者的动作和显示于画面中的图标的关系的图；

图25为表示通过本实施方式输入使显示于画面中的图形移动的指示的一个例子的显示画面的图；

图26为表示本发明的一个实施方式的操作者的动作和显示于画面中的菜单之间的关系的图；

图27为表示本发明的另一实施方式的操作者的动作和显示于画面中的菜单之间的关系的图；

图28为表示本发明的又一实施方式的操作者的动作和显示于画面中的菜单之间的关系的图；

图29为表示本发明的一个实施方式的虚拟操作面和操作面形成基准的样子的图；

图30为表示本发明的一个实施方式的根据投影仪的画面或照相机的位置调整操作区域的一个例子的图；

图31为表示本发明的一个实施方式的操作者的动作和显示于画面中的菜单之间的关系的图；

图32为表示本发明的一个实施方式的为了判断根据操作者的姿势而设定操作面的位置的区域而拍摄的图像的图；

图33为用于说明本发明的一个实施方式的已指定的操作面的位置的提取的图；

图34为表示本发明的一个实施方式的为了进行已指定的操作面的位置的提取，由照相机而获得的距离数据图像的图；

图35为表示本发明的一个实施方式的根据操作者的姿势而设定操作面的位置的处理的流程图；

图36为表示本发明的一个实施方式的已指定的操作面的位置的提取的处理的流程图；

图37A为表示本发明的一个实施方式的操作者的操作面设定手势的变化的图；

图37B为表示本发明的一个实施方式的操作者的操作面设定手势的变化的图；

图37C为表示本发明的一个实施方式的操作者的操作面设定手势的变化的图；

图37D为表示本发明的一个实施方式的操作者的操作面设定手势的变化的图；

图37E为表示本发明的一个实施方式的操作者的操作面设定手势的变化的图；

图37F为表示本发明的一个实施方式的操作者的操作面设定手势的变化的图；

图38为表示本发明的一个实施方式的网格捕捉处理所采用的对象画面的例子的图；

图39为表示本发明的一个实施方式的网格捕捉处理所采用的网格的设定例子的图；

图40为本发明的一个实施方式的用于说明网格捕捉处理的图；

图41为为了指定本实施方式的当前的操作者而在三维显示器的底部，显示图标的例子的图；

图42为表示图42A和图42B的关系的图；

图42A为为了指定本实施方式的当前的操作者而在三维显示器的底部，显示图标的另一例子的图；

图42B为为了指定本实施方式的当前的操作者而在三维显示器的底部，显示图标的另一例子的图；

图43A为表示本实施方式的操作者的各种的变化的例子的图；

图43B为表示本实施方式的操作者的各种的变化的例子的图；

图43C为表示本实施方式的操作者的各种的变化的例子的图。

用于实施发明的形式

下面,参照附图详细地对本发明的实施方式进行说明。

（第1实施方式）

图1为表示本实施方式的操作输入系统的一个例子的图。本实施方式的立体显示三维显示器111设置于操作者102的前面，操作者102能够意识到手指等的形状构成操作判断的对象，从而对立体显示于与三维显示器111之间的一定位置的假定的操作面进行操作。在三维显示器111中显示构成本系统的目标的各种应用程序用的各种的图像，但是除此以外，可如后述的那样辅助操作输入，即，例如，成为对象的操作者102的部位等显示于画面的角落，使操作者102识别到在当前时刻作为操作而能够被判断的动作。

在此，在本实施方式中，操作者视听的监视器采用三维显示器，但是，由于在本实施方式中，还能够采用在本技术领域中公知的任意的三维显示器，因此对于三维显示器本身，在下面做出简单的说明。三维显示器是一种能够向视听者显示具有进深感、凸出感的立体的图像的显示器，存在各种类型，基本为通过对两只眼睛显示不同的图像，使操作者能够立体观看。通常，为了使操作者感觉到某个物体好像立体地、并与自身处于相同的空间似的，需要利用人类的辐辏功能，并在左右眼显示具有视差（parallax）的图像（称为双眼视差binocularparallax）的同时，配合操作者的头部动作使看图像的视觉功能发生变化（称为运动视差motionparallax），由此，与本实施方式的三维摄像机的人体尺寸测量的补偿、监测等要素的匹配性良好。例如，补偿操作者的三维的眼的位置，实时地进行补偿，能够进一步提高临场感。

三维显示器大体上分为，让观察者配戴具有特殊的光学特性的眼镜，对双眼显示具有视差的图像的类型，以及不采用眼镜的类型的2种，特别地将不采用眼镜的类型称为裸眼立体显示器。

在配戴眼镜的类型中，即使成本低但存在色感的缺损，和疲劳感的问题的“红蓝红青3D式（アナグリフ：anaglyph）”一直很有名，但是，近年来，采用在几乎不丢失原材料的色调的情况下能够全色地阅览的“偏振眼镜式”、“液晶快门”的类型的产品也在规模生产，伴随其摄影技术和表现技术的提高，凸出感·临场感也显著地提高，正迎来真正的实用化阶段。

作为配戴眼镜的类型的三维显示器的方式，如上所述，一般为红蓝红青3D式眼镜式、偏振眼镜式和液晶快门眼镜式。

红蓝红青3D式眼镜分别通过红色和蓝色的光重合地映现左右的图像，分别通过带有红色和蓝色的滤色片的眼镜将其分离。是一种在技术上最简单而又低成本的类型，以前限于单色图像，但是现在可以在保留彩色信息的状态进行图像制作。由于在鉴赏时，必须通过红色和蓝色的滤色片，故无论怎样色平衡均受到破坏。

偏振眼镜式对左右的图像，施加相垂直的直线偏光，重合投影，将其通过偏光滤色片进行分离，从而向双眼提供不同的图像。通常，为了保存偏光状态采用银屏等。还有替代直线偏光而采用圆偏光的类型。采用圆偏光的三维显示器，即使观察者将脸倾斜，左右图像的串扰（crosstalk）也被维持在较小的程度，但是，由于圆偏光的遮光特性本质上具有波长依赖性，因而有时会看到深紫或黄色等颜色。

液晶快门眼镜，利用使左右图像相互遮蔽的液晶快门驱动的眼镜将不同的图像传递到左右眼，由此能够进行立体观看。由于按照光源（source）的帧频的倍率交替地投影左右具有视差的图像，因而颜色的再现性良好，但是眼镜的成本上升，并且还必须有用于将信号无线发送给眼镜的设备。帧频依赖于快门的反应频率。

通过摄像机201对操作者102的动作进行拍摄，对已拍摄到的图像通过计算机110进行处理，根据操作者102的位置、身高和手臂的长度等，或根据身高、肩宽等身体尺寸信息，来设定最佳虚拟操作面和包括该虚拟操作面的操作区域的位置和大小，判断从虚拟操作面向三维显示器111侧伸出的部分的姿势是指哪种操作。即，计算机110根据从摄像机201得到的数据制作操作者102的立体图像，并且根据制作的立体图像计算出最适合于操作者的虚拟操作面的位置，并且根据后述的摄像机201、三维显示器111的位置、配置方式来对虚拟操作面的位置和大小等进行调整，以虚拟操作面为基准来确定操作者102的手指等是否向摄像机201侧伸出，将该部分作为操作的对象来判断操作内容。

另一方面，三维显示器111按照从操作者102观看，看上去虚拟操作面存在于已设定或调整的位置的方式显示虚拟操作面。由此，操作者102以虚拟操作面恰好存在于那里的方式作为立体图像识别，对识别到的立体图像使用手或手指执行操作。参照图5和图6，对这一点进行说明。

图5为用于说明本实施方式的立体显示的虚拟操作面的图。操作者102通过右眼504和左眼503，观看显示于三维显示器111上的图像502和虚拟操作面图像501，但由于虚拟操作面图像501立体显示，如由包含视差的两个图像构成，分别通过右眼504和左眼503进行观看，由此能够形成如图5所示的从三维显示器111到位于操作者的前面那样的被立体显示的虚拟操作面。根据上述摄像机201拍摄的操作者的图像和位置，确定虚拟操作面图像501进行立体显示的位置，在三维显示器111上，以形成辐辏角度θ₁的方式进行调整并显示。在此，图像502在通常二维显示后，显示于显示器111的位置，以形成辐辏角度θ₂的方式进行调整，但是，如果对应于使用状况确定辐辏角度θ₂，则能够提供具有进深的立体图像。另外，如图5所示的虚拟操作面图像501的位置为立体显示虚拟操作面的位置，但是存在作为操作者的操作感与实际被形成图标等的位置具有若干不同位置上进行显示的情况，虚拟操作面的形成位置和虚拟操作面的立体显示位置不必一定一致。

如上虚拟操作面图像501以形成辐辏角度θ₁的方式进行调整并进行立体显示，但是，如图18所示，还能够以形成辐辏角度θ₃的方式调整图标1801进行立体显示，从而对手尖、指尖进行导向。具体来说，可按照图标1801处于手尖等位置的方式进行立体显示，从而能够容易掌握朝向虚拟操作面的z方向的距离感和xy方向上的位置关系。另外，可按照各种方式、形状，对图标进行立体显示。例如，除了将图标显示成与指尖相同位置的方式以外，还可在进深方向上多少留有间隔地分离显示。通过如此形成，与凝视指尖的方法相比较，更容易辨认虚拟面和图标的位置关系，当在虚拟面的靠近自己的浮出距离不足时，还能够进行补偿。其原因在于：在任意的场合，对于眼前的浮出一般难以进行焦点调节，由此，在具有进深的位置显示图标对操作者而言更容易操作。另外，这样的立体显示图标可按照于第2实施方式中具体描述的聚焦图标的任意的形状、方式而显示。例如，作为立体显示图标，还可一边将图标显示于指尖附近，一边改变图标的尺寸，或改变颜色，从而可以由操作者掌握与虚拟操作面的距离感。

图6为表示本实施方式的虚拟操作面的样子的图，显示包括操作用的图标的虚拟操作面图像501，由于在实际的系统中立体显示，因此对于操作者来说将三维显示器临近侧的手伸出则可接触到的位置上观看的方式显示。由此，操作者可对如同在此恰好具有触摸面板或操作面板的虚拟操作面进行操作。在此，一次地立体显示的虚拟操作面图像501还可以对应于操作者102的手臂、身体的动作改变其位置、形状，致使操作更加自然。

（多个操作候补者的处理）

另外，图7和图8为表示作为本实施方式的使用例子的电视显示器的虚拟操作面的样子的图，如图7和图8所示能够对多个视听者分别形成虚拟操作面，分别进行操作，可进行优先接受某个视听者的指示等的各种设定。但是，通常为了避免多个视听者的分别不同的操作的混乱，通过某种方法确定一个视听者，仅仅认定该视听者的操作输入。在此，由于图7或图8所示的多个视听者为具有对装置的操作权限的操作者的候补者，故称为操作候补者，以下对存在多个操作候补者时的操作者的确定，操作者确定后的处理进行说明。因此，在操作候补者中包括如图7或图8所示的那样的视听者，作为本发明的对象的操作者的候补者，包括例如，游戏机的多个玩家，演示的发表者等。另外，在本实施方式的系统中，由于构成操作者的对象的人员限于系统可作为对象而识别的人员，因此操作候补者限于例如位于摄像机201的摄像范围内的人员。

对于将这样的多个视听者中的哪个定为操作者的设定，以及虚拟操作面的设定等，可采用后述的第2实施方式的方式，即，进行第2实施方式的虚拟操作面的设定时，首先从操作候补者中确定谁为操作者，由已确定的操作者设定虚拟操作面，但是，也可通过其它的在本技术领域中公知的任意方法进行。例如，在图7的例子的情况下，可以在开始电视机的视听后，可通过一些姿势确定哪位为操作者（在图7和图8中，操作者为视听者702），或在视听中途通过一定的姿势或摇控的操作设定模式而进行设定。如果操作者被确定，则对应于该操作者702立体显示虚拟操作面图像501。另外，根据立体显示的特性，在一定的立体显示系统中，如图7和图8所示的那样，对于操作者702以外的其它的视听者，虚拟操作面分别如图示的那样进行立体显示，但是，由于如图示的那样，形成虚拟操作面的位置实际上在操作者702的眼前，因此其它的视听者进行操作实质上是很困难的。如此一来，在普通的立体显示系统中，在可多人操作的情况下，必须首先确定一个操作者，形成适合于该操作者的虚拟操作面，大多需要进行立体显示。

在此，当具有这样的多个操作候补者且不清楚目前谁是操作者时，由于存在非操作者想要操作，或反之操作者不小心的动作进行了误操作的情况，因此在本实施方式中，在画面上显示哪个为操作者，可让操作候补者全部人员认识到当前谁是操作者。图41为表示为了特定当前的操作者而在三维显示器111的下部显示图标4202～4204的例子的图。如果参照图41，视听电视机111的3个人为操作候补者，其中正中的一人为操作者702，则在操作画面例子4201中，在画面的下部显示表示三个操作候补者的三个方框4202～4204，显示优先用户的操作者702的正中的方框4203通过着色等方式而强调显示。由于这样的显示能够通过如上述的摄像机201读取操作候补者的位置，因此可从已读取的图像中提取各操作候补者的位置和排列顺序。

图42A和图42B为用于指定当前的操作者而在三维显示器111的下部显示图标4302～4304的另一例子的图。参照图42A和图42B，在本例中，与表示上述方框4202～4204的例子相比较，采用人物图标4302～4304，显示于监视画面111的底部区域4301，距离感也通过其尺寸而表现，由此，可以更加直观地识别谁为操作者。这样的表示操作者的显示的变化形式可以考虑各种类型，但是，也可以采用例如图43A～图43C所示的那样的方法。即，当操作候补者为两名时，还可更加简单地进行如图43B所示的那样的显示。另外，当操作候补者大于两名时，如图43C所示的那样，显示操作候补者的人数的方框（“用户1”～“用户5”）。

另外，为了采用人型的图标表示三人以上，还可如图43A所示的那样，在图标显示区域内考虑表示操作候补者的图标位置和排列顺序而进行显示。此时，在本实施方式中，由于采用三维显示器，因此基于相应的操作候补者的实际的位置使各图标在进深处显示，因此可以更加直观地识别作为当前的优选用户的操作者。当然，参照图41～42而说明的操作者的表示在采用通常的二维显示器的系统，即，不采用三维显示器等而通过后述的第2实施方式里说明的方式设定虚拟操作面的情况下仍有效。

在图1中，为了获得图像，将摄像机201安装于三维显示器111的上部来进行摄影，但并不限定于获得如图11～图15所示的所需图像，还可以采用红外摄像机等在本技术领域中公知的任意摄像单元，设置部位还可以选择监视器的附近的任意位置。在此，在本实施方式中，摄像机201采用三维（或3D）摄像机，由此能够制作包括操作者在内的立体图像。

此外，还可在本实施方式的系统中安装有图中未示出的扬声器等的声音输出装置，还能够通过声音将显示内容、与操作有关的信息传达给操作者。通过设置这种功能，在显示器中不仅以图像的方式显示操作内容，关于指示事项、结果，还同时以声音传播来判明虚拟操作面，因此即使是视觉有障碍的操作者也能够进行操作。

图9和图10为用于具体说明虚拟操作面的作用的图。本实施方式的虚拟操作面701根据操作者102的身高、臂长或身高、肩宽等身体尺寸信息而设定，用户102捕捉虚拟存在的作为立体图像的操作面701，在要进行各种操作的情况下，能够以操作面701为基准将手601向前伸出并表示姿势。另外，在包括虚拟操作面的操作区域内，用户采用任意的姿势之后，能够以向虚拟操作面的前方按压（决定）的行为来决定动作，或者在决定操作之后进行按压这种判断的基准，因此用户易于识别，操作性接近以往的触摸面板操作。另一方面，与以往的触摸面板相比，操作变化形式显著增加（两手操作、动作、多个手指等）。

在本实施方式中，当摄像机201捕捉到操作者102的图像时，实时地形成如图9和图10所示的那样的虚拟操作面701，但是在操作者开始操作之前，由于操作者的站立位置不固定，因此虚拟操作面不确定，也不容易进行操作判断。因此，在本实施方式中，当操作者的身体处于三维摄像机的摄像范围内，静止一定时间的时刻开始虚拟操作面的设定处理。

这样能够实时地形成本实施方式的虚拟操作面，但是在这种情况下，通过某种的方法将操作者的站立位置限制在对于该系统来说最佳的固定的范围内，由此能够使操作判断更加正确。例如，虽然未图示,也可描绘表示在地面上站立位置的脚印，通过监视器、系统的配置使操作者识别固定的限制范围的存在，或竖立挡板使其在固定范围内进行操作。操作者能够自然识别的虚拟操作面的位置、尺寸等对于操作者和显示器的位置关系产生很大影响，优选在系统整体上预先假设显示器、照相机、操作者的位置等。

图2为以示意方式表示本实施方式的图像识别装置的计算机110的结构的方框图。在计算机110中安装有显示器701，连接有对操作者102等进行拍摄的摄像机201，拍摄得到的图像被取入到计算机110。在CPU210中对拍摄得到的图像进行作为本实施方式的特征的图像的提取、位置的计算等，根据计算出的位置来决定身体的一部分是否从操作面朝向摄像机侧伸出。计算机110通常具备CPU210，在RAM212上执行存储在ROM211等中的程序，将基于从图像识别装置输入的图像的处理结果输出到三维显示器111等。在本实施方式中，三维显示器111除了上述虚拟操作面之外输出由操作者要体验的各种应用程序所提供的各种影像，还显示如后述的成为操作输入的辅助的信息。

图3为表示在本实施方式的计算机110的CPU210内处理的程序的功能模块的一个例子的方框图。如图3所示，本系统的处理通过图像读取部301、图像提取部302、图像位置计算部303、操作判断部304和立体图像显示部305进行。另外，在本实施方式中，通过该五个模块来执行从接收来自摄像机201的图像到进行数据输出为止的处理，但并不限于此，也可以采用其它模块、或通过更少的模块来处理。

（本实施方式的处理）

如图10所示，在本实施方式中，根据通过摄像机201拍摄到的操作者102的图像，将虚拟操作面作为立体图像形成，确定同样拍摄得到的操作者102的一部分即手、手指的位置，并且进行虚拟的操作面701与操作者102的手指601之间的位置关系的算出处理。在本实施方式中，作为进行这种处理的前提，当设想本技术领域中公知的初始设定、例如重新设置了本实施方式的图像识别装置的情况时，需要将作为预先准备而利用的摄像机201的利用透镜的失真、三维显示器111与透镜之间的距离等信息输入到装置。并且，预先调整阈值设定等。当系统的初始设定结束时，进行本实施方式的处理，下面参照图4说明该处理。

图4为本实施方式的处理流程图。首先，在图像读取部301中读取通过摄像机201拍摄的数据（S401），根据该数据，通过图像提取部302提取操作者的图像（S402）。

这样准备的结果，根据已提取的操作者102的图像，确定虚拟操作面和操作区域（S403）。在此，参照图11等，操作面的形状呈相对地面垂直竖立的长方形，但是并不限于此，能够根据操作者的操作方式来形成各种的形状（包括尺寸、相对显示器的角度）的操作面。具体来说，如后述的第2实施方式的虚拟操作面的设定时的那样，将操作者的体形、位置通过三维摄像机作为立体图像而拍摄，根据操作者的各部位的位置、尺寸等来确定最适的虚拟操作面的形状、位置。例如，虚拟操作面的形成位置可以是从操作者的眼睛位置，以手臂的长度为基准最适合操作时的行程（stroke）的位置，但是，也可以其它的部位的长度、尺寸为基准来确定距离，作为起点不仅可从眼睛也可从肩开始。另外，如果眼睛的位置的提取比较困难的话，则还可以将头部的位置作为起点。另外，在本实施方式中由于观看立体图像，因此操作者通常配戴偏光眼镜、快门眼镜，也可以通过在眼镜的前面等处设置从三维摄像机的图像容易提取位置的标记，因而能够容易地确定虚拟操作面的形成位置。

在此，操作区域为包括作为本实施方式的特征的虚拟操作面，成为操作者的操作的主体的手或手指等主要进行动作的区域，如在到达后述的虚拟操作面的辅助中说明，从操作者的身体越过虚拟操作面的固定区域被用于本发明的操作识别。例如，如图1所示，对于成人操作者810，可以考虑身高（视线的位置）、臂长而形成操作区域811，在儿童操作者820的情况下，由于身高较矮、手臂也短，因此可以与此相应地设定操作区域821。如果在这样的操作区域中设定虚拟操作面，则可以通过操作者自然地活动手、手指，能够根据手、手指的动作来判断操作者打算进行的操作。

更具体地说，例如，能够将深度设为到操作者向前方伸出手的指尖儿为止，将宽度设为到操作者向水平方向伸出手时的左右手腕的长度为止，将高度设为从操作者的头部位置至腰部位置的范围。另外，在将本实施方式的系统的对象者设为从小学低年级至成人的情况下，身高幅度大致为100～195cm左右，作为其身高差，操作区域或者虚拟操作面的上下位置的校正幅度大约需要100cm。另外，虚拟操作面、操作区域既可以每次执行，也可以在一定条件下执行，或还可以预先或每次地选择它们的设定时刻。

这样，一旦确定虚拟操作面的形状和位置，则通过本技术领域公知的任意方法，在从操作者观看而被确定的位置，以确定的形状（包括尺寸、相对于显示器的角度）形成虚拟操作面的立体图像通过立体图像显示部305形成，显示于三维显示器111上（S410）。因此，操作者可将手指、手准确地接触于立体显示的虚拟操作面，由此可以进行接触显示于虚拟操作面上的图标等的操作。在此，在本实施方式中，对到立体显示虚拟操作面为止的一系列的流程进行了说明，但是当操作者基本上整体地移动等时，在当初设定的虚拟操作面难以操作的情况下，进一步计算出最佳的形状、位置来重新进行立体显示，针对作为虚拟操作面而显示的内容，反复进行同样的处理。例如，在将图标作为虚拟操作面而显示的情况下，由于操作者的图标的指定处理更加容易，因此可对应于手指或手的动作，以最佳的位置、形状显示虚拟操作面。

操作判断部304当利用操作输入系统的立体显示的虚拟操作面与操作者102的相对关系（S404），从操作面的摄像机201来看，操作者102的一部分来到近前时，判断为操作开始（S405），根据各部的形状（打开手掌或者立起两个手指等）、动作，判断其形状、动作为预先设想的哪种操作（S406）。在此，什么样的形状、动作与哪种操作对应，能够由系统独立地决定，也能够引入本技术领域所公知的任意方法来决定,，或者还可以仅是由操作者触摸其位置，例如，选择图标或按压按钮来决定。判断的结果是，作为存在这种操作的输入而通过计算机110来执行（S407），最初没有从虚拟操作面向近前侧伸出手的情况下，判断为没有进行操作而结束（S408）。操作内容的判断并不限定于在此说明的方法，在本实施方式中还能够使用公知的任意方法。另外，还省略了具体的判断方法，但是通常将预先确定的姿势等操作者的身体形状、动作以及该形状、动作所意味的操作内容保存到数据库等，在图像提取之后，对该数据库进行访问，判断操作内容。此时，当然也能够通过在本技术领域中公知的方法来利用图像识别技术、人工智能等，来提高判断精度。

在此，可以理解在操作者为儿童的情况下和成人的情况下,，在哪个位置以哪种程度的大小形成虚拟操作面会发生变化，但除了操作者的身高等体形之差以外，还需要根据摄像机201的位置、三维显示器111的位置、安装角度来调整虚拟操作面。通常，三维摄像机能够相对于CCD、透镜面平行或者呈同心圆状地进行相对于对象物的距离测量。在将监视器设置成操作者的视线高度，摄像机处于接近的位置，并分别与地板垂直设置的情况下，如果操作者也处于直立位置，则生成适合操作区域之后，可以说不需要特别对相互的位置关系等进行调整、校正。但是，在天花板吊挂式监视器的情况下、利用超大型监视器或者投影仪等的情况下，与摄像机设置位置、监视器以及操作者之间的位置关系可假设各种状况。

通常，即使在对虚拟操作面进行立体显示的情况下，操作者在观察操作对象画面的同时进行输入操作，因此一直与将操作者的视线和操作对象画面连结起来的直线垂直地配置虚拟操作面，如果不生成沿着该虚拟操作面的操作区域，则操作者沿Z方向的按压行程的角度产生不一致，即使操作者对作为目标的点进行按压操作，也随着按压而沿着某角度偏斜而无法进行正常的操作。因此，在形成虚拟操作面的情况下，需要根据监视器、摄像机以及操作者的位置、配置方式来调整要形成的角度、大小或者根据情况调整位置。

参照图12，如图11所示，对应于操作者820来确定操作区域821和虚拟操作面601，但是在如图12所示的例子，在摄像机201设置于三维显示器111的上部的情况下，如果虚拟操作面601不与操作者820伸出手臂的方向910垂直，则操作者820得不到对虚拟操作面的良好的操作感，因此最好不要形成与摄像机201的视野方向垂直的平面。

另外，参照图13，由于三维显示器111本身被设置于上方，并且以具有角度的方式安装，因此虚拟操作面701以操作者820抬头对三维显示器111进行操作的方式构成，形成相对于向上方倾斜的方向1010相垂直的面。在该情况下，也与图12所示的例子同样，摄像机201的视野1011以与视线方向1010形成一定的角度而倾斜，因此最好进行校正使得通过摄像机201读取到的信息对应于倾斜的虚拟操作面701。另外，参照图14，摄像机201被设置在与三维显示器111分离的地板附近，操作者820的视线1110与摄像机201的视野形成更大的角度，因此最好进行相应量的校正。

图15为用于说明确定虚拟操作面701和操作区域821的一个例子的图。在本实施方式中，为了确定虚拟操作面的形状和位置，采用三维显示器111和摄像机201的位置、设置方法（以哪种程度的角度进行了设置等）、操作者820的站立位置、身高等的信息。即，作为一个例子，首先，从操作者820的眼睛相对三维显示器111的高度（身高）、站立位置计算出与操作者的视线相垂直的虚拟操作面701。接着，测定将操作者820的头部和身体连接起来的线A-B以及摄像机201的视野的中心线1210的角度，校正虚拟操作面和操作区域的倾斜度。手臂的行程（stroke）既可以从操作者的图像中提取，也可以根据已获得的身高的信息、根据另外每个身高的平均的手臂长度信息而确定。

本实施方式的虚拟操作面和操作区域按照如上述那样，根据摄像机、监视器和操作者的位置、配置方式等，被确定为能够自然操作以更容易的操作判断，对实际操作者的动作进行检测，判断正在进行哪种操作。但是，在此没有说明的具体处理、例如从三维摄像机的图像中如何确定位置、形状或者操作者的一部分是否经过了虚拟操作面的判断处理等本实施方式的安装时所需的处理，使用本技术领域中公知的任意方法都能够完成。

（操作输入的辅助）

如上述说明，借助三维摄像机对虚拟操作面进行立体显示，操作者就能够识别到在空间上恰好存在触摸面板这样的操作面，通过对该操作面进行各种操作，能够利用身体的全部或一部分进行操作输入，但是，还通过将操作者相对于虚拟操作面的图像显示于三维显示器111上等进行辅助操作输入，由此能够更加容易地有效使用本实施方式的系统。

图19为表示构成这样的操作输入的辅助的导向显示于显示器111中的一个例子的图。例如，在通过指针而指示显示于显示器111的中心部的图像的某个部位的情况下，操作者可对构成其自身虚拟性操作面的图像，通过伸出手指从而指示所希望的位置，但是可将如同这样指示的样子显示成如图19所示的指针901，由此操作者可在识别并确认当前进行的操作的同时，执行下一个的操作。根据本例进行说明，例如，指针901当从操作面伸出手指时显示在画面上，缩回而消失，或者浓淡变化来进行显示，操作者能够根据手的动作以及显示在显示器111中的指针的样子，以自然的方式执行本实施方式的输入法。同样地将以图9以及图10示出方式表示的操作者本身的样子的操作画面902以缩小的方式显示在三维显示器111的右上角，从而能够显示出在系统中当前正在进行哪种动作、判断为哪种操作，并且示出将手的动作图形化而得到的折线图903，使操作者本身意识到手的前后动作是怎样等，由此能够期望更正确的操作。另外，虽然未图示，但可以将能够用于系统中的姿势显示在引导中，促使操作者效仿该姿势进行操作输入来进行辅助。

（虚拟操作面的深侧的操作—虚拟操作层）

在本实施方式中，操作者以在空间上虚拟地立体显示的虚拟操作面为基准，以如同在此处存在触摸面板这样的输入设备的方式进行操作，由此确实地判断其操作内容，但是根据向相对于虚拟操作面的深侧方向、即朝向远离操作者方向的虚拟操作面与操作者的手等身体的一部分或者穿戴在身体上的物体的位置关系，来决定这样判断的操作的内容。例如，在远离操作者的方向即z轴方向上设定两层或者三层的操作区域作为虚拟操作层，根据操作者的手进入到哪一层来决定操作的种类，根据该层内的手的动作来决定操作内容。此时，如果在操作者视觉识别的显示画面上显示手的位置、操作的种类等，则操作者能够更容易地进行操作的识别。此外能够通过算出上述形成的虚拟操作面与操作者的一部分之间的距离的方法来获取操作者的一部分与分割各层的面之间的z方向的距离。

更具体地进行说明，图27示出的触发面701是本实施方式的虚拟操作面，当利用上述实施方式中的任一个而手指601从触发面701向z轴方向进入时，判断为进行了操作。另外，通过面4501和4502将触发面701前面的操作区域分割成层A～C这三层，从而分配分别不同的操作的种类。在图27的例子中，对层A分配对象的旋转操作，对层B分配放大缩小的操作，对层C分配对象的移动操作。在各层中，实行通过移动手指601来执行所决定的操作。例如，在层A中，在手指601通过触发面701时表示手指601的图标，例如以旋转图标4503所示的位置为中心而指定的对象与手指601的动作相配合地旋转。在层B中，例如能够在三维显示器111中显示放大缩小图标4504，当将手指601向z方向移动时对象被放大，当向相反方向移动时对象缩小。

同样地，在层C中能够在三维显示器111中显示的指定的对象上的手指601的位置处显示移动图标4505，并与手指601的动作相配合地移动。在此，能够将分割层间的面4501和4502配置成各层形成相同的厚度，还能够将配置成根据分配给层的操作种类不同而层的厚度不同。例如在图27的例子中，在层B中被分配放大缩小的操作，但是必须通过前后的移动来表现放大缩小，因此与层A、层C相比，通常z方向的移动大，因此还能够使层B更厚而易于进行操作。

以上那样的层级通过标准的行程（stroke）确定其间隔，可以通过操作者的自然的感触而使用，但是，也可以通过将在本实施方式中分割各层的面4501和4502等以与虚拟操作面701同样的方式立体显示于适当设定的位置，使操作者正确地识别层级的边界。或者，按照层级的深度，对层级A、B、C中的任一或全部以带有等级方式进行立体显示，由此，也可以由操作者识别层级的存在及其深度，而且还可通过在本技术领域中公知的任意的显示方法更加有效地表现。

图28为表示本实施方式的另一图标的例子的图。在图28所示的例子中，对层A分配确定三维显示器111上的操作位置的操作，对层B分配对所确定的位置上的对象进行“捕捉”的操作，对层C分配将捕捉到的对象抛出或者移动的操作。另外，以上的图标还可通过二维显示而使用，也可为了用于立体显示调整图标而进行立体显示。

如上所述，在对通过虚拟操作面而被判断为操作后的操作内容进行判断时，不仅通过手指、手的动作，还能够根据其z方向的位置、即虚拟操作层来确定操作的种类，因此仅在手指、手的动作中准备多个各种姿势样式，并且与操作者需要掌握这些的情况相比，能够仅通过简单的动作来分别使用复杂的操作。

另外，在上述、特别是图27示出的例子中，配置了在各层间能够连续地进行手、手指等的一系列动作的操作，但在无法连续地进行操作的配置的情况下（图28示出的例子），以下两点成为问题。即，（1）在到达作为目标的虚拟操作层之前通过其它层，而施加了操作者不需要的指示；以及（2）在结束目的操作而将手从操作区域抽出的情况下，通过其它虚拟操作层，而施加了操作者不需要的指示。为了避免上述问题，例如考虑以下方法等。即，将与操作的手相反的手插入到操作区域内的多传感（multisensing）状态（例如，在用右手进行操作的情况下，将左手放入到操作区域内的状态）设定为无操作（或者与其相反，有操作）的状态，根据与操作的手相反的手的抽出和放入来判断是否进行各层的操作（在本例中通过两手操作，但是也可以考虑在XY平面上设置抽出用区域等各种方法）。

如果采用上述的本实施方式，操作者不需要预先记住或者决定姿势，就能够通过其动作来进行系统的操作，除此以外，可以知道操作者的姿势、各部例如手的动作，因此还可以用于使用了全身的游戏中，从而实现复合现实感（MR）。

（第2实施方式）

在上述第1实施方式中通过预先由操作者指定对立体显示的虚拟操作面进行设定，本实施方式与该点不同，但是与第1实施方式的系统结构、以及针对虚拟操作面操作者进行的动作怎样操作而识别等处理是同样的。即，在本实施方式中，如后所述的那样当操作者进行操作时，首先，通过固定的操作指示将虚拟操作面设定在何处，按照该指示形成虚拟操作面。因此，即使没有如第1实施方式的系统那样通过三维显示器立体显示虚拟操作面，操作者也可以预先识别操作面在何处以何种方式存在，因此无需一定对虚拟操作面进行立体显示，也可以采用通常的二维显示器。但是，为了更加准确地识别到虚拟操作面，也可以采用三维显示器进行立体显示。如上所述，在本实施方式中，根据操作者的指示而形成虚拟操作面后的处理基本上与第1实施方式相同，因此在下面对虚拟操作面的设定处理进行说明。

（虚拟操作面的设定）

图32是表示本实施方式的为了判断根据操作者的姿势而设定操作面的位置的区域而拍摄的图像的图。如图32所示的例子，根据由三维摄像机201拍摄到的操作者的图像3210的手3202和3203来确定操作者的形状（包括尺寸、相对显示器的角度），根据从z方向的距离数据图像3211的显示器到手3202和3203的距离，从显示器到身体3204的距离，来确定虚拟操作面3201的位置。具体来说，可如图33所示，根据由三维摄像机201拍摄到的操作者的图像数据来掌握进深。图33为本发明的一个实施方式的用于说明已指定的操作面的位置的提取的图，其在进深方向（z方向）表示操作者的图像。如果参照图33，则可理解到在操作者通过手3202表示的位置形成操作面3201。

在本实施方式中，这样的虚拟操作面的设定处理是通过系统电源接通后或特定的操作如通过用遥控器指示等开始，但并不限定于此，也可以采用本技术领域公知的方法、时刻开始。图35为表示本实施方式的根据操作者的姿势而设定操作面的位置的处理的流程图。在此，当存在如图7所示的上述第1实施方式中说明的多个操作候补者时，可将进行虚拟操作面设定的人确定为操作者，此时设定的虚拟操作面为已确定的操作者用的操作面。其结果是，一旦本实施方式说明的虚拟操作面被设定，则如图41至图42所示的那样通过将操作者的图标、方框显示于画面中，识别已确定的操作者也包括在内的操作候补者哪个为操作者，因而能够防止误操作。

首先，通过电源接通等方式开始系统程序（S3501），执行对系统所采用的装置进行各种设定等的装置管理（S3502）。在此，开始虚拟操作面的帧获得处理（S3503），等待来自操作者的指示输入（S3504），如果输入指示，则获得图像数据（S3505），在执行后述的操作面提取处理（S3506）后，执行装置后处理，从而结束了虚拟操作面的设定（S3509）。

下面参照图34和图36对操作面提取处理进行说明。图34为表示本实施方式的为了进行已指定的操作面的位置的提取，由摄像机而获得的距离数据图像的图，图36为表示进行本实施方式的已指定的操作面的位置的提取的处理的流程图。首先，如果进行数据、即操作者的立体图像数据的输入（S3601），则识别手的形状和头部（S3602，S3603），判断是否形成虚拟操作面（S3604）。具体而言，例如，当手以一定时间保持固定的预定姿势时，则判断为虚拟操作面的设定处理，如图34所示从距离数据图像中提取包括操作者通过手指示的位置和尺寸的形状的虚拟操作面，形成虚拟操作面（S3605），根据操作者的身体测量值，如手臂长度、躯干和头部的位置，设定操作区域（S3606），输出数据从而设定结束（S3609）。在此，本实施方式通过以一定时间使手等的动作静止来判断虚拟操作面的设定指示，但并不限定于此，还可以通过本技术领域公知的任意方法使其判断指示诸如通过各种手势、遥控器操作等进行指示方法。另外，本实施例基本上利用手在造形的形状、位置上形成虚拟操作面，但也可以配合操作者的身体的特征、或显示器的位置、使用状况等进行调整。

当从头部的识别、手的姿势判断为不是虚拟操作面的设定处理时，则判断是否已处于虚拟操作面被设定的状态（S3607），当虚拟操作面已被设定时，则判断为通常的操作，获取操作区域内的手的位置（S3608）。通过以上，进行基于操作者指示的虚拟操作面的设定处理，但是，在本实施方式中，由于操作者本身指示虚拟操作面，因此即使在没有通过其他某方法而对操作者表示虚拟操作面的位置的情况下，仍对其识别。另外，由于对于指示虚拟操作面的形状和位置的姿势，根据本技术领域的公知常识考虑各种类型，因此它们中的任意者可用于本实施方式。这样的变化形式的例子在图37A～图37F中示出。

（虚拟操作面的近前侧的操作辅助）

在本实施方式中，操作者以在空间上虚拟地立体显示的虚拟操作面为基准，以如同在此存在触摸面板那样的输入设备的方式进行操作，由此来准确地判断其操作内容，但是特别是如上述第1实施方式那样没有对虚拟操作面进行立体显示的情况下，在作为操作者的一部分的手或者手指等达到虚拟操作面之前，即在从操作者要执行某种操作而开始活动手或者手指开始，直到按压虚拟操作面为止的期间也进行操作辅助，由此能够更容易、更高精度地进行操作输入。

基本上，这种操作辅助的原理在于，对应于操作者相对于虚拟操作面的部位、例如与手或者手指的位置的动作，在三维显示器111上可视地显示操作者要进行哪种操作，由此能够引导操作者而进行正确的操作输入。

参照图20以及图21说明这一点，在本实施方式中，在预先由操作者在固定的站立位置上进行操作的情况下而预先设定的、适合于在该站立位置对虚拟操作面进行操作的位置、或者与操作者的站立位置相配合的适当位置，对虚拟操作面701进行立体显示。同样地，如图20所示，设定操作者820的适当的操作区域821。如上所述，在三维显示器111中通过各种方式来表示当前正要进行哪种操作，由此使操作者能够识别自己的操作。

参照图21说明这种方式之一，在操作者要对系统进行某种操作的情况下，在本例中将手臂2401相对于三维显示器111前后进行活动，由此手或者手指601的位置发生变化，因此当其样子显示在三维显示器111中时，当伸出的手指601到达固定位置时，此时执行在三维显示器111的画面上指示的项目等，从而系统进行固定处理。在图21的例子中，由于相对于虚拟操作面701的手指601位置(深度)不同而图标的大小发生变化，越接近虚拟操作面则图标越小，能够使操作者识别通过自己的操作聚焦到固定的位置的情况。并且，在图标变得最小的位置，确定操作而执行与此相应的处理。

图22是表示以上操作的结果是图标在三维显示器111的画面2501上如何发生变化的图。参照图22，假设在三维显示器111的画面2501中例如立体显示电视节目表，要进行与某一节目有关的操作。在这种状态下，例如在操作者要选择“设定变更”的菜单按钮的情况下，操作者如上述那样要向三维显示器111伸出手指601而进行选择。在本实施方式中，当手指601相对于虚拟操作面接近到固定距离时，在画面2501中显示图标2503。手指的位置还较远，因此该图标显示图21示出的图标中的位于右侧的比较大的图标。当操作者进一步伸出手臂2401时，该图标在接近作为目标的选择项目“设定变更”的同时变小，在固定大小的图标2502时成为特别的图标，当手指横穿虚拟操作面时判断为选择了指示位置的项目。在此，电视节目表对于操作者来说立体显示于虚拟操作面的位置，但是，图标不必一定显示于相同位置，也可以进行二维显示，可以通过3D显示设置于适合的位置。

这样，在图22的例子中，根据手指601的位置使显示在画面2501中的图标的大小发生变化，由此操作者能够掌握自己的动作在系统中是如何被识别的，简单地识别虚拟操作面的位置，从而能够进行菜单的选择等操作。在此，与操作者的整体图像同样地能够通过使用三维摄像机来提取包括手指601、手臂2401的操作者整体以及各部位的位置、大小。由此，能够掌握画面内的物体的进深等，因此能够根据这些信息来算出与虚拟操作面之间的距离、位置关系。但是，本实施方式中使用的三维摄像机、位置的提取、距离的计算等能够使用在本技术领域中公知的任意方法，因此，在此省略其说明。

在此，显示在画面上的图标呈圆形且大小与操作者的动作一致地发生变化，但是并不限定于此，能够如图23示出的那样使用各种方式的图标并使其发生各种变化。即，参照图23，（1）是手指的形状的图标，与上述图22的例子同样地，越接近虚拟操作面则越小。（2）表示圆形且逐渐变小但是当输入或者选择被确定时变化为特别的形状来表示被确定的情况。在该图标、其它图标的情况下，还能够代替形状（包含大小，相对显示器的角度）的变化，或相配合地使图标的颜色发生变化。例如，以蓝色、绿色、黄色、红色等使得从冷色系变化为暖色系，由此操作者能够直观地识别操作被聚焦而被确定的情况。（3）是X那样的形状，在位于远处的情况下，不仅大并且变得模糊，随着接近而图标的大小变小，并且模糊消失而形成明显的形状。（4）是图标整体的大小不变化，成为描绘在其中的图形产生形状变化并被聚焦的样子来进行识别。在这种情况下，也能够使图形的颜色发生变化。图23示出的（5）也是使形状发生变化的情况。在图23中，还能够与手指的动作相应地使图标的形状、颜色等发生变化，当超过虚拟操作面时如栏2601所示那样瞬间变化为各种形状、颜色或者闪烁而使操作者识别判断为操作的情况。另外，虽然未图示，但作为其它图标的变化，最初透明而手指越接近虚拟操作面则越变为不透明这种变化也是有效的。另外，虽然未图示，如果利用三维显示器的立体显示功能进行对焦，则可制作图标看上去从画面凸出的图像，让操作者了解对焦的状况。

在此，在图标的变化中不怎么使形状特别发生变化而使颜色、浓淡发生变化的情况下，如图24所示，当不怎么使图标移动而使手指601接近时，颜色变为暖色系或者变浓，从而能够确定输入。

另外，在以上例子中，为了确认操作的判断状况，虚拟操作面的位置上显示图标，根据操作者的动作使颜色、形状发生变化，但是，例如在本来如菜单那样预先将指示的位置固定的情况下，即使不特意显示图标，也根据手指所指示的位置与立体显示的菜单的哪个项目按钮最接近来决定，通过使对根据手指的动作、特别是相对于根据虚拟操作面的距离来指示的项目按钮填充的颜色或者填充浓淡发生变化，来识别虚拟操作面的位置，从而能够容易地进行操作输入。

作为同样的菜单的选择例，还存在图26示出的一例，在此进行说明，例如当图21的手指601进入到虚拟操作面701的近前的固定区域时，在画面上菜单4301立体显示于虚拟操作面的位置，当该手指601进一步接近虚拟操作面701时，在图26示出的菜单的例如项目4302上显示大图标2610。之后，当手指601到达虚拟操作面701时，项目4302的选择被确定而显示小图标2611，通知该情况。之后，还能够当通过使手指601左右上下移动来使菜单的选择项目进行移动并在期望的项目上静止固定时间时，进行与所选择的项目相应的处理。另外，还能够当在执行选择之前手指601向虚拟操作面701近前的固定区域的向后方移动时消除菜单。在图31中，也与图26同样地，当手指601进入到虚拟操作面701近前的固定区域时，则将菜单立体显示于虚拟操作面的位置，但是，在此为视频影像控制的例子。在本例中，也与图26示出的例子同样地，能够使用大图标3110和小图标3111来进行菜单操作。

另外，参照图25说明其它输入操作的例子。图25是表示通过本实施方式而输入使显示在画面中的图形进行移动的指示的一例的显示画面的图。在此，显示画面立体显示于虚拟操作面的位置，通过使操作者的手或者手指与虚拟操作面接触而进行移动来进行指示。首先，示出当使手指等接近画面时使图标从画面4211的图标4201缩小为画面4212的图标4202而接近虚拟操作面的情况。之后，当接触虚拟操作面时，如画面4213的图标4203那样使颜色发生变化来放置，当在这种状态下向上移动手指等时显示画面4214的橡皮圈4204等来表示移动方向，由此操作者能够确认自己的操作。另外，当向右方向移动手指时，能够显示画面4215的橡皮圈4205。这样，显示根据手指等到达虚拟操作面之后的上下左右的拖拽距离而伸缩的橡皮圈（上图中的箭头）（在手指移出虚拟操作面之前图标4203的位置是固定的），能够根据伸缩距离使移动速度发生变化，并根据伸展角度使得在3D空间内进行移动的方向发生变化（箭头前端跟随手臂、手指等的动作）。

以上，关于图20示出的操作者与监视器大致处于相同高度的、即虚拟操作面与操作者的水平方向前面大致垂直地形成的情况，说明了本实施方式的原理，但是该原理不受到这种操作者与显示器之间的位置关系、形状的影响，而能够具有各种配置、结构。例如，还能够应用图13至图15示出的系统的配置。在这种情况下，三维摄影机201也与显示器111一起倾斜，因此基本上与上述配置在水平位置的情况没有很大差异，但是假设为将摄影机设置于其它位置，通过本技术领域中公知的任意方法来进行位置校正等，由此也能够计算出操作者的部位与虚拟操作面之间的位置关系，从而判断操作。

如上所述，在本实施方式中，根据第1实施方式中描述的虚拟操作面进行操作输入处理之前，按照操作者的意图设定该虚拟操作面本身，因此，仅仅对设定处理进行了说明，但是，如果一次地设定虚拟操作面，则即使在与第1实施方式中的任意的功能相组合的情况下，仍可进行操作输入处理。

（第3实施方式）

本实施方式可基本地共同地用于上述第1和第2实施方式，因此，系统结构和虚拟操作面的设定等的处理是同样的，但是改进了操作的判断处理。即，在本实施方式中，其处理与第1和第2实施方式基本相同，但是，例如当采用虚拟操作面来选择图标时等的情况下，特别是在小的图标的情况下，如果弄错手指的压入方向，则存在无法适当地指定图标、或指定另外的图标的问题，因此在图标的周边，设定网格来捕捉网格，从而容易地指定所希望的图标。在如本发明那样虚拟地设定操作面，形成操作的基准的情况下，即使在如第1和第2实施方式那样，加入准确地识别操作面的各种处理的情况下，操作者也不是一定能够总是指定正确的位置。在本实施方式中，在操作者稍稍弄错的位置或方向上指定图标，例如，图15所示的例子那样的情况下，即使在不调整操作面的倾斜度、位置等时，仍可以选择所希望的图标。

图38为表示本实施方式的网格捕捉处理所采用的对象画面的例子的图，图39为表示本实施方式的网格捕捉处理所采用的网格的设定例子的图。如图39所示，通过例如，以大于各图标并包围图标3902的方式设定网格4001，操作者通过手指指定图标3902，即使在没有正确地按压图标3902的情况下，如果手指进入包围图标3902的网格4001的范围，即可以进行判断捕捉网格从而指定图标3902。另外，还可通过调整网格的分割位置等可判断指示在插入图标之间时最接近于指定位置的图标。

具体来说，针对操作对象显示器上的图标或连杆的中心位置，通过专用浏览器或内容制作工具等的手段，从固定面积的周围朝目标（图标、连杆）中心捕捉焦点。由此，可以容易地进行选择操作，即使在虚拟操作面倾斜的情况下，操作者的平面指示动作也不会产生问题。在上述程度的XY平面上获得对焦动作的稳定后，在相对目标区域从虚拟操作面具有Z轴方向的压入行程（朝向空中触摸模板的触摸操作）的情况下，按压动作后从相对该目标焦点仍以不偏离的方式（固定XY焦点）连续导向，仅仅判断Z方向的压入行程，即，在对虚拟操作面的压入，与该图标的区域脱离的情况下，仅仅识别压入，忽略XY平面上的动作，稳定此后的一系列的触摸行程操作，从而进行处理。

另外，在上述以外的校正，摄像机等的安装位置、角度与操作对象显示器具有很大不同的情况下，相对Z轴的进深方向扩张·放大（摄像机、显示器的安装角度的不同造成的“移动”的角度量相当的面积）在XY平面上任意规定的捕捉区域（面积），由此还可以更加有效地进行网格捕捉。

参照图40，在从二维图标区域“D”具有操作进入的情况下，通过在从进深方向进展的立体区域“E”，即使手指的指尖的按入行程偏离的情况下，仍可以通过照原样地在区域“E”内部捕捉判断Z轴的按入行程，从而防止“晃动”（因手的颤动或难以稳定动作造成的晃动）、“移动”（摄像机、显示器、身高差造成的移动）造成的误动作。

如上所述，在本实施方式中，根据第1实施方式和第2实施方式中说明的虚拟操作面进行操作判断处理时，特别是图标等在操作者进行指示固定区域的动作的情况下，当因各种原因而无法正确进行指定时，通过网格捕捉的方法判断适合的操作，因此仅仅对具体的网格捕捉处理进行说明，但是即使与其它的处理和虚拟操作面的设定等第1实施方式和第2实施方式中说明的任意的功能组合的情况下，仍可以进行操作输入处理。

Claims

1.一种图像识别装置，其特征在于，包括：

三维摄像单元，其读取操作者的图像来生成立体图像数据；

操作面形成单元，其通过基于由所述三维摄像单元读取到的操作者的图像和位置的形状和位置，形成虚拟操作面；

操作判断单元，其通过所述三维摄像单元来读取相对于所述已形成的虚拟操作面的操作者的至少一部分的图像动作，根据所述操作者的一部分与所述虚拟操作面的位置关系，判断该动作是否为操作；以及

信号输出单元，当被判断为该动作是操作时，该信号输出单元输出规定的信号；

位置确定面设置于所述虚拟操作面的操作者侧的规定位置，用于确定该虚拟操作面上的操作位置，所述操作判断单元在所述操作者的一部分从所述位置确定面移动到所述虚拟操作面的一系列的动作中，横切所述虚拟操作面时，与所述位置确定面上的所述操作者的一部分横切的位置相对应的所述虚拟操作面上的位置作为该操作者的一部分横切的位置，判断所述操作者的操作。

2.根据权利要求1所述的图像识别装置，其特征在于，在所述三维摄像单元读取多个操作候补者的情况下，将进行预定的指定动作的操作候补者判断为所述操作者。

3.根据权利要求1或2所述的图像识别装置，其特征在于，还包括操作者显示单元，该操作者显示单元表示所述三维摄像单元读取的多个操作候补者的图像所示的被判断为所述操作者的操作候补者的当前操作者与其它操作候补者的位置关系。

4.根据权利要求1所述的图像识别装置，其特征在于，所述虚拟操作面的形状和位置是，从所述已读取的操作者的图像中提取手臂和脸的位置，根据该已提取的手臂和脸的位置进行确定。

5.根据权利要求1所述的图像识别装置，其特征在于，所述虚拟操作面的位置位于所述操作者和所述三维摄像单元之间。

6.根据权利要求1所述的图像识别装置，其特征在于，所述操作面形成单元通过基于由所述三维摄像单元读取的操作者的图像、以及所述操作者的预定的指定动作而确定的形状和位置，来形成虚拟操作面。

7.根据权利要求1所述的图像识别装置，其特征在于，所述操作面形成单元通过基于由所述三维摄像单元读取的操作者的图像、以及所述操作者的预定的指定动作而确定的角度，来形成虚拟操作面。

8.根据权利要求1所述的图像识别装置，其特征在于，所述操作面形成单元通过基于由所述三维摄像单元读取的操作者的图像和位置而确定的角度，来形成虚拟操作面。

9.根据权利要求1所述的图像识别装置，其特征在于，还包括显示表示所述已形成的虚拟操作面的立体图像的操作面立体显示单元。

10.根据权利要求9所述的图像识别装置，其特征在于，所述立体图像由左右眼视差形成。

11.根据权利要求9或10所述的图像识别装置，其特征在于，在根据所述操作者的一部分和所述虚拟操作面的位置关系计算相关距离，在与该距离相对应的位置上立体显示表示所述操作者的一部分相对所述虚拟操作面的位置关系的规定标示。

12.一种图像识别装置，其特征在于，包括：

三维摄像单元，其读取操作者的图像来生成立体图像数据；

操作面形成单元，其通过基于由所述三维摄像单元读取到的操作者的预定的指定动作的形状和位置，形成虚拟操作面；

操作判断单元，其通过所述三维摄像单元来读取相对于所述已形成的虚拟操作面的操作者的至少一部分的图像的动作，根据所述操作者的一部分与所述虚拟操作面的位置关系，判断该动作是否为操作；以及

13.一种操作判断方法，其特征在于，包括：

三维摄像步骤，其读取操作者的图像来生成立体图像数据；

操作面形成步骤，其通过基于由所述三维摄像步骤读取到的操作者的图像和位置的形状和位置，形成虚拟操作面；

操作判断步骤，其通过所述三维摄像单元来读取相对于所述已形成的虚拟操作面的操作者的至少一部分的图像的动作，根据所述操作者的一部分与所述虚拟操作面的位置关系，判断该动作是否为操作；以及

信号输出步骤，当被判断为该动作是操作时输出规定的信号；

位置确定面设置于所述虚拟操作面的操作者侧的规定位置，用于确定该虚拟操作面上的操作位置，所述操作判断步骤在所述操作者的一部分从所述位置确定面移动到所述虚拟操作面的一系列的动作中，横切所述虚拟操作面时，与所述位置确定面上的所述操作者的一部分横切的位置相对应的所述虚拟操作面上的位置作为该操作者的一部分横切的位置，判断所述操作者的操作。

14.根据权利要求13所述的操作判断方法，其特征在于，还包括显示表示所述形成的虚拟操作面的立体图像的操作面立体显示步骤。