CN103677252A

CN103677252A - 姿势识别装置、其控制方法、显示器

Info

Publication number: CN103677252A
Application number: CN201310375853.9A
Authority: CN
Inventors: 山下隆义
Original assignee: Omron Corp
Current assignee: Omron Corp
Priority date: 2012-08-31
Filing date: 2013-08-26
Publication date: 2014-03-26
Also published as: EP2706434A2; EP2706434A3; US20140062862A1; JP2014048936A; KR20140029223A

Abstract

本发明提供一种姿势识别装置及其控制方法、显示器。该姿势识别装置，用户可以通过自然动作来启动姿势识别，且能够正确判断用户的开始做姿势的意图。当视线方向推断单元所推断出的操作者的视线方向在规定方向上大致处于静止状态时，意图判断单元判断为用户意图开始做姿势。当意图判断单元判断为上述用户意图开始做姿势时，反馈部向上述用户通知已进行该判断的处理。

Description

姿势识别装置、其控制方法、显示器

技术领域

本发明涉及一种根据识别对象的动作来识别姿势的姿势识别装置及其控制方法、显示器（显示设备）。

背景技术

近年来，出现了在电视显像器、个人计算机或平板电脑终端等显示装置上组装了姿势识别装置的显示器，该姿势识别装置用于识别出由操作者操作的识别对象的姿势。就这种显示器而言，人们希望能够使用如下的姿势识别装置，即：操作者无需穿戴数据手套等特殊用具，另外，利用操作者的手或手指等进行姿势识别，以使操作者能够将自身的操作自然而顺畅地实施在该显示器上。此外，在现有的姿势识别装置中，执行使用了HMM（Hidden MarkovModel；隐马尔科夫模型）或者连续DP（Continuous Dynamic Programming：动态处理）等的姿势识别。

此处，利用图8，对现有的姿势识别装置的姿势识别的流程进行说明。如图8所示，在现有的姿势识别技术中，首先确定/决定操作者。即，姿势识别装置判断是否将已识别的多个人中的某一人作为操作者，或者，判断已识别的人是否包含在事先登记的操作者名单中。其次，操作者向姿势识别装置传递表示开始做姿势（做出姿势，摆出姿势）的信息。具体而言，如果操作者进行例如举手等表示开始的开始动作，姿势识别装置就会识别上述开始动作，从而处于对识别对象（例如操作者的手、鼠标指针等）进行姿势识别的状态。姿势识别装置在识别出上述开始动作之后，再对操作者的利用识别对象做出的姿势进行识别。

作为上述姿势识别装置的例子，在专利文献1中公开了如下的姿势识别装置，即，当判断为特定拍摄对象的移动速度快到一定速度以上，并且，判断为移动模式收敛在一定范围内时，就将这些事件作为开始或结束姿势识别处理的指示来进行识别。具体而言，将用户的手作为上述特定拍摄对象，当从上述特定拍摄对象中检测出快速挥手等的迅速而零碎的动作时，上述姿势识别装置开始或结束姿势识别。

另外，在专利文献2中公开了如下的接口装置，即，通过解析拍摄而得的图像，检测出具有与预设值相近的特征的基准物，另外，将与上述基准物之间的相对关系满足预定的特定条件的物体，确定为识别对象。此外，上述基准物例如是指人的面部（脸），另外，上述识别对象例如是指覆盖人的面部的一部分的手的形状及颜色。

现有技术文献

专利文献

专利文献1：日本特开2011－192090号公报（2011年9月29日公开）

专利文献2：日本特开2011－232894号公报（2011年11月17日公开）

发明要解决的问题

但是，在专利文献1中公开的技术中，该装置在每次开始或结束姿势识别时，都需要用户做手势。

另外，在专利文献2公开的技术中，上述接口装置自动将与上述基准物之间的相对关系满足预定的特定条件的物体确定为上述识别对象，因此，有可能会将用户本不希望成为识别对象的物体确定为上述识别对象。

发明内容

本发明鉴于上述问题而做出，其目的在于提供一种姿势识别装置等，用户能够通过自然的动作来启动姿势识别，且能够正确判断用户开始做姿势的意图。

解决问题的手段

为解决上述问题，本发明的姿势识别装置是一种用于从拍摄用户而得的视频中识别出该用户姿势的姿势识别装置，其特征在于，具有：视线方向推断单元，其用于推断上述用户的视线方向；判断单元，其在规定期间内，在规定方向与上述视线方向所成的角度小于规定值时，判断为上述用户意图开始做姿势；通知单元，其在上述判断为单元判断为上述用户意图开始做姿势时，向上述用户通知已进行了该判断。

另外，为解决上述问题，本发明提供一种姿势识别装置的控制方法，该姿势识别装置从拍摄用户而得的视频中识别该用户的姿势，其特征在于，对上述用户的视线方向进行推断；在规定期间，当规定方向与上述视线方向所成的角度小于规定值时，判断为上述用户意图开始做姿势；当判断为上述用户意图开始做姿势时，向上述用户通知已进行了该判断。

根据上述结构或方法，首先推断出用户的视线方向。并且，当推断出的视线方向在规定方向上大致处于静止状态时，判断为用户意图开始做出欲使该姿势识别装置进行识别的姿势。从而，当用户开始做姿势的时候，只要将视线方向朝向规定方向即可，无需做手势等繁杂的动作。由此，可以通过控制（注视）视线这种自然的方法，来向该姿势识别装置传递开始做姿势的意图，并做姿势。此外，上述规定方向例如是指，该姿势识别装置的视频拍摄用摄像头的方向。

另外，根据上述结构或上述方法，当规定方向与用户视线方向构成的角度小于规定值时，可以认为视线方向大致处于静止状态。因此，当用户欲向该姿势识别装置通知开始做姿势的意图时，将视线投向上述规定的方向即可，例如将视线投向摄像头方向的例如10°以下范围内的方向即可。这样，通过设有可视为视线方向处于静止状态的方向的程度的范围，即使视线方向抖动或视线方向推断单元对视线方向的推断存在误差等，用户也能够向该姿势识别装置传递开始做姿势的意图。

进一步，根据上述结构或上述方法，当判断用户具有开始做姿势的意图时，将该判断结果通知给用户。

因此，用户可以明确知晓开始做姿势的意图是否传递到该姿势识别装置。从而，用户能够适当判断出下一个应进行的动作是将开始做姿势的意图再次传递给该姿势识别装置还是开始做姿势。

另外，在本发明的姿势识别装置中，优选地，当判断出该姿势识别的开始或结束中的至少一种情况时，上述通知单元都上述用户通知已进行该判断的处理。

根据上述结构，在判断出姿势识别的开始及/或结束时，都向用户通知该判断结果。因此，用户通过确认各判断结果，来开始做姿势或结束做姿势。

另外，本发明的姿势识别装置可以进一步具有面部检测单元，该面部检测单元用于在视频中检测上述用户的面部位置；在规定期间，当规定方向与上述视线方向所成的角度小于规定值，且由上述面部检测单元检测出的面部位置的变化量小于规定值时，上述判断单元判断为上述用户意图开始做姿势。

另外，本发明的姿势识别装置可以进一步具有面部方向推断单元，其用于在视频中推断上述用户的面部方向；在规定期间，当规定方向与上述视线方向所成的角度小于规定值，且由上述面部方向推断单元推断出的面部方向与规定方向所成的角度小于规定值时，上述判断单元判断为上述用户意图开始做姿势。

根据上述结构，当视线方向在规定方向上处于静止状态，且面部位置/面部方向处于静止状态时，判断单元判断为用户具有开始做姿势的意图。在此，认为为了将开始做姿势的意图传递给该姿势识别装置而将视线投向上述规定方向时，用户的面部位置及面部方向处于静止状态。因此，与单纯地只将视线方向在规定方向上是否处于静止状态的条件来作为开始做姿势的意图判断条件的结构相比，通过增加面部位置/面部方向是否处于静止状态的上述判断条件，能够更正确地判断用户是否开始意图做姿势。

另外，本发明的姿势识别装置也可进一步具备识别区域设定单元，其用于设定作为识别上述姿势的区域的识别区域。

根据上述结构，该姿势识别装置不是在整个视频图像范围内进行姿势识别，而是将视频图像的一部分区域设定为上述识别区域，并在该识别区域内进行姿势识别。因此，当对识别对象进行姿势识别时，能够降低该姿势识别装置的处理负荷。

另外，本发明的姿势识别装置也可进一步具备设备控制单元，其用于指示外部设备，以使外部设备执行与姿势识别结果相应的处理。

根据上述结构，在外部设备中执行与上述姿势识别结果相应的处理。上述外部设备例如是指具备显示装置的显示器。由此，用户能够用做姿势的方式对上述显示器等外部设备进行操作。

此外，上述姿势识别装置可以用计算机来实现，此时，以如下方式形成的姿势识别装置的控制程序也在本发明的范围内，即：将计算机作为上述各单元而进行工作，从而以计算机形式实现上述姿势识别装置。

另外，以如下方式形成的显示器也在本发明范围内，即：具有上述姿势识别装置和显示装置，该显示装置向用户显示上述姿势识别装置所保持的各种信息；并且通过上述姿势识别装置来进行动作控制。

发明的效果

如上所述，本发明的姿势识别装置是一种姿势识别装置，从对由用户操作（驱动）的识别对象进行拍摄而得的视频中识别出该识别对象姿势，其具有：视线方向推断单元，其用于推断上述用户的视线方向；判断单元，其在规定期间内，在规定方向与上述视线方向所成的角度小于规定值时，判断为上述用户意图开始做姿势；通知单元，其在上述判断为单元判断为上述用户意图开始做姿势时，向上述用户通知已进行了该判断的处理。

另外，本发明提供一种姿势识别装置的控制方法，该姿势识别装置从拍摄用户而得的视频中识别该用户的姿势，对上述用户的视线方向进行推断，在规定期间，当规定方向与上述视线方向所成的角度小于规定值时，判断为上述用户意图开始做姿势；当判断为上述用户意图开始做姿势时，向上述用户通知已进行了该判断的处理。

由此，本发明的姿势识别装置及其控制方法产生如下效果：用户能够通过自然动作来启动（开始）姿势识别，且能够正确判断用户的开始做姿势的意图。

附图说明

图1是表示本发明一实施方式的姿势识别装置的结构的框图。

图2是表示图1姿势识别装置的动作的流程图。

图3是表示由图1姿势识别装置所具有的控制单元设定的识别区域及面部位置的示意图。

图4的（a）及（b）部分是表示由图1姿势识别装置所具有的控制单元推断出的面部方向及视线方向的示意图，其中，（a）部分表示操作者的视线方向及面部方向朝向正面时的情况，（b）部分表示操作者的视线方向及面部方向朝向侧面时的情况。

图5是表示本发明其他实施方式的姿势识别装置的结构的框图。

图6是表示图5姿势识别装置的动作的流程图。

图7是表示使用了本发明姿势识别装置的显示器的外观图。

图8是用于说明一般的姿势识别流程的说明图。

其中，附图标记说明如下：

1、1a 姿势识别装置

2 显示装置

1000 显示器

13 反馈部（通知单元）

121 面部检测单元

122 视线方向推断单元

123 意图判断单元（判断单元）

124 识别区域设定单元

127 面部方向推断单元

具体实施方式

以下，利用第一及第二实施方式对本发明的实施方式进行详细说明。

〔第一实施方式〕

基于图1～图4，对本发明姿势识别装置1的实施方式进行如下说明。

（姿势识别装置1的结构）

首先，使用图1对姿势识别装置1的结构进行说明。该图为表示姿势识别装置1的结构的框图。

如图1所示，姿势识别装置1具有视频拍摄部11、控制单元12、反馈部（通知单元）13及存储部14。以下，对上述各构件分别进行详细说明。

（1.视频拍摄部11）

视频拍摄部11是用于拍摄带有操作者（即用户）的空间图像的构件。更具体地，视频拍摄部11对成为做姿势的主体的操作者及成为姿势识别的对象的识别对象进行拍摄，生成视频数据。另外，视频拍摄部11将按规定的时间间隔（例如1/15秒）拍摄的帧图像发送至后述的面部检测单元121及姿势识别单元125。

（2.控制单元12）

控制单元12是对姿势识别装置1的各部件进行统一控制的构件，并且具有面部检测单元121、视线方向推断单元122、意图判断单元（判断单元）123、识别区域设定单元124、姿势识别单元125及显示器控制单元126。此外，就控制单元12所具有的各单元的详细情况，在后叙述。

（3.反馈部13）

反馈部13是用于向操作者反馈姿势识别装置1的识别阶段的构件。具体地，反馈部13基于从控制单元12所具有的意图判断单元123、识别区域设定单元124及姿势识别单元125输入的控制信号，针对每个上述识别阶段向用户进行反馈。由此，操作者可以知道自身的操作或动作是否被姿势识别装置1所识别。

作为这种反馈的其中一个手段，使本实施方式的姿势识别装置1中的反馈部13具有LED（light-emitting diode：发光二级管），并且针对姿势识别装置1的每个识别阶段，使上述LED以不同颜色发光。

根据上述结构，由意图判断单元123获得的后述判断结果，可以通过LED的颜色而通知到用户。因此，用户通过确认上述LED颜色，就能够知道姿势识别装置1中执行上述各判断的情况。由此，用户能够判断对该姿势识别装置1应该进行的恰当的操作。

此外，反馈部13可以是与姿势识别装置1的其他结构物、即视频拍摄部11等一体形成的结构，另外也可以是设置在与视频拍摄部11分开的位置的结构。另外，可以设成使上述LED在上述各识别阶段呈现不同的发光状态，例如使上述LED呈现点亮、熄灭、闪烁等状态，或者，设成在显示装置（未图示）的画面中显示上述识别阶段。此外，在显示装置的画面中显示上述识别阶段时，作为该显示方法可以是利用例如颜色、文本、图标等的方法。另外，除了这些之外，还可以是以如下方式构成的结构：每当识别阶段发生变化时，利用从外部音频输出装置（未图示）输出的声音，向用户通知此时的识别阶段。此外，反馈部13也可以是以如下方式构成的结构：不仅针对每个识别阶段进行反馈，而且例如针对识别对象脱离了后述识别区域OE的情况或姿势识别装置1发生姿势识别失败的情况等，也分别进行反馈。

此外，上述识别阶段在例如以下的每个阶段都具有差异。

第一阶段：没有发现操作者的阶段（即，姿势识别装置1没有确定/决定出操作者的状态）或判断为操作者没有意图开始做姿势的阶段。

第二阶段：判断为操作者有开始做姿势的意图的阶段（即，姿势识别装置1根据操作者的面部位置及视线方向判断出操作者有意开始做出姿势的阶段）

第三阶段：完成对识别对象的识别的阶段（即，姿势识别装置1在识别区域OE内检测出识别对象的阶段）

第四阶段：完成了姿势识别的阶段（即，姿势识别装置1结束了对识别对象的姿势识别处理的阶段）

（4.存储部14）

存储部14是用于存储姿势识别装置1所处理的各种数据的构件，包括以易失性存储方式存储数据的暂时存储部和以非易失性存储的方式存储数据的存储装置。上述暂时存储部是一种在姿势识别装置1所执行的各种处理过程中、用于暂时存储运算中所使用的数据及运算结果等的所谓的暂存器，由RAM（Random-access memory：随机存取存储器）等构成。另外，上述存储装置用于存储控制单元12所执行的控制程序、OS程序（Operating system program：操作系统程序）以及当执行姿势识别装置1的各种功能时所读取的各种数据，由ROM（Read-only memory：只读存储器）等构成。

（控制单元12的详细结构）

此处，使用图1对控制单元12的详细结构进行说明。

（1.面部检测单元121）

面部检测单元121获得视频拍摄部11拍摄的图像，并从该图像中检测出人的面部及面部位置FE（即图像中面部所占的区域；参照图3）。而且，面部检测单元121将在各帧图像中推断出的面部位置FE存储在存储部14中。可以利用已知的面部检测技术，从图像中提取人的面部。例如，首先使用模板匹配来提取肤色区域，其次基于上述肤色区域中的颜色变化来推断眉毛和嘴部的位置，并且将具有与图像横竖方向相平行的边并且包含所推断出的眉毛和嘴部的最小正方形区域，设定为面部位置FE。

（关于模板匹配）

上述模板匹配是指，针对对输入图像等样本计算出与事先准备的模型之间的一致（匹配）程度的方法。

以下，简单说明模板匹配处理的过程。此外，为了模板匹配，事先将面部形状的模板存储在存储部14中。

首先，将从图像中提取的肤色区域部分与在存储部14中准备的面部形状的模板进行比较。然后，在上述肤色区域中，将与上述模板间的相似度小于规定值的部分，判断为不相当于人的面部而将其排除在外。之后，针对剩余的肤色区域，即，针对与上述模板间的相似度在规定值以上的区域，实施后述的姿势识别处理。此外，优选具有多个互不相同的模板来作为模板。此时，在模板匹配处理中，计算出样本与各模板间的匹配度，如果存在与样本间的相似度在规定值以上的模板，则判断该样本相当于人的面部。

（2.视线方向推断单元122）

视线方向推断单元122用于推断操作者的视线方向LV（参照图4（图4的（图4的（a）及（b））。另外，视线方向推断单元122将针对视频拍摄部11拍摄出的全部图像中的每帧图像或者规定张数的每帧图像而推断出的视线方向，存储在存储部14中。

（关于视线方向推断）

视线方向的推断可以以如下方式实现。

视线方向推断单元122首先从与面部位置FE对应的图像区域中，提取眼部位置。为了从面部位置FE中提取出眼部区域，只要从面部位置FE中提取出亮度最高的区域即可。由此，一般能够提取出白眼球部分（眼白部分）的区域。由提取出的白眼球部分的轮廓围成的区域就是眼部区域。接着，视线方向推断单元122提取虹膜。此外，虹膜是指将亮度高的区域即白眼球部分作为周边区域的区域，能够通过提取亮度低的区域来找出该虹膜区域。如此，在提取出眼部及虹膜之后，视线方向推断单元122根据眼部区域内虹膜的左右方向偏移，来推断出视线方向。例如，在图4的（a）中，操作者的视线朝向前方，即朝向视频拍摄部11的方向。另一方面，在图4的（b）中，操作者的视线朝向视频拍摄部11的左侧（即从操作者来看是右侧）。

（3.意图判断单元123）

意图判断单元123从存储部14获得面部位置FE及视线方向LV。详细而言，意图判断单元123获得连续的多帧图像（例如30帧图像）的面部位置FE及视线方向LV。而且，意图判断单元123基于获得的帧图像间的面部位置FE的变化量，来判断操作者的面部位置是否处于静止状态，另外，基于帧图像间的视线方向LV的变化量，来判断操作者的视线方向是否处于静止状态。此处，当操作者想让姿势识别装置1识别姿势的时候，会注视视频拍摄部11即摄像头。因此，当操作者意图开始做姿势的时候，操作者的面部位置处于静止状态，且操作者的视线方向朝向视频拍摄部11而处于静止状态。因此，在规定个数的连续的帧图像中，如果规定方向和视线方向LV构成的角度小于规定值（条件A），且面部位置FE的变化量小于规定值（条件B），则意图判断单元123判断为操作者意图开始做姿势。

详细而言，当满足以下两个意图判断条件时，意图判断单元123就会判断为操作者具有做姿势的意图。

条件A.在连续的30帧图像中，视线方向均处于相对于与视频拍摄部11正对的方向偏离10°的角度范围内。即，视线方向在连续的30帧图像中，均在以如下的圆锥范围内，该圆锥是指，以虹膜中心为顶点，在连接虹膜中心与视频拍摄部11的基准直线附近，扩展10°的角度而形成的圆锥。

条件B.面部位置FE的中心（或重心等规定的一个点）在连续的30帧图像中，均在特定的一个圆内，该特定的圆以面部位置FE的宽度（左右长度）的10％的长度为直径。

然而，意图判断单元123对操作者开始做姿势的意图的判断条件不限于此。例如，在上述条件A中，也可以判断操作者的视线是否静止朝向反馈部13（参照图7），来代替判断操作者的视线朝向视频拍摄部11的方式。或者，也可判断操作者的视线是否静止朝向其他规定方向或多个规定方向中的任一方向。另外，在上述条件A及B中，在视为操作者的视线方向/面部位置处于静止状态的范围内，可以变更圆锥的角度/圆的直径大小。此外，在圆锥的角度/圆的直径大的情况下，若圆锥的角度/圆的直径越大，则操作者的视线方向/面部位置的运动范围就会越大，所以即使操作者不太想开始做姿势，也使姿势识别装置1开始姿势识别。相反，在上述圆锥的角度或上述圆的直径小的情况下，仅在操作者的视线方向或面部位置几乎不变时，才使姿势识别装置1开始姿势识别处理。

（4.识别区域设定单元124）

识别区域设定单元124用于在面部位置FE的周边设定识别区域OE1、OE2，详细而言，在面部位置FE的左右位置设定识别区域OE1、OE2（参照图3）。此外，识别区域OE1、OE2的大小设定成其各边的长度为面部位置FE所对应的各边长度的1.5倍。而且，识别区域设定单元124在识别区域OE1及OE2内提取识别对象（例如操作者的手）。此外，当操作者大致在位于面部的旁边的位置对识别对象进行操作时，优选识别区域OE1、OE2的高度方向的范围包含面部位置FE的高度方向的范围。例如，优选将识别区域OE1、OE2设定成识别区域OE1及OE2的高度方向的中心线与面部位置FE的高度方向的中心线相一致。由此，使得识别区域OE1、OE2的高度方向的中心与面部位置FE的高度方向的中心相一致。进一步，如上所述，识别区域OE1、OE2的边的长度为面部位置FE的边的长度的1.5倍。因此，识别区域OE1、OE2的高度方向的范围包含面部位置FE的高度方向的范围。

根据上述结构，识别区域OE1、OE2被设在用户面部的左右位置。因此，当用户将自身的手作为识别对象而做姿势时，只要将手举在自身面部的左右某个位置即可。即，用户能够通过将手举在自身面部左右某一侧这样的自然举动，来做出姿势。

或者，当识别对象为操作者的手时，识别区域设定单元124以如下方式，在发现操作者的手（手指）之后再设定识别区域OE′也可。

关于识别区域OE′的设定，识别区域设定单元124首先将面部位置FE的周边区域设定为探索区域。上述探索区域例如可以为从面部位置FE的左右侧边中的某一侧面开始到图像侧端中接近该侧边的侧端为止的区域，或者，也可以是除面部位置FE之外的整个图像区域。

其次，识别区域设定单元124在上述探索区域内进行连续的帧图像的背景差分，由此从除面部位置FE之外的图像区域中提取前景。其次，识别区域设定单元124对提取的前景中的顶端部（更正确为上端部）进行提取。此处，针对顶端部（上端部）的提取，例如可以提取以如下的细长状区域，该细长状区域的纵向的同一颜色（例如肤色）以规定以上的长度连续，横向的上述同一颜色连续的长度小于规定长度。例如，如图3所示，当操作者将食指立在面部位置FE的侧方时，识别区域设定单元124从除面部位置FE之外的图像区域中提取前景，从而提取操作者的手。接着，识别区域设定单元124提取前景的顶端部，由此提取操作者的食指顶端。之后，识别区域设定单元124将提取的食指顶端作为中心设定识别区域OE′。此外，与识别区域OE1、OE2同样地，将识别区域OE′的大小设为，各边分别具有面部位置FE的各边的1.5倍长度的正方形。

根据上述结构，识别区域设定单元124首先从图像中提取出成为前景的区域，其次，在提取的前景区域中检测具有特定形状的特定部位（食指顶端），并且将上述特定部位的特定位置为中心设定识别区域OE′。此处，在用户做姿势的时候，认为用户就在姿势识别装置1的正前方，并且姿势识别装置1和用户之间并不存在其他物体，而且还认为在图像中，用户的面部及识别对象会成为前景。因此，识别区域设定单元124通过从图像中提取除了用户面部之外的前景区域，从而提取出识别对象（用户的手）。

其次，检测出上述前景区域，即，检测出识别对象的特定形状。此外，可以将上述特定形状设为用户做姿势的手的形状，例如，如本实施方式般，只伸出食指的手的形状。另外，将上述特定部位的特定位置设为例如本实施方式般的食指顶端。此时，操作区域OE′被设定成以用户手的食指为中心的区域。

因此，用户可以将上述特定部位移至对自身而言容易做姿势的期望位置，使识别区域设定单元124以期望位置为中心设定操作区域OE′。

此处，在进行识别区域OE′的设定时，直到提取的前景帧图像间的差分小于规定值为止，（在此之前）最好不确定前景的顶端部。理由如下：当前景帧图像间的差分较大时，认为操作者正处于将识别对象移动至欲做姿势的期望位置，例如移动至面部旁边的位置的状态。此时，由于在移动识别对象的途中对识别区域进行了设定，因此该设定位置有可能位于与操作者的期望位置不同的位置。

（5.姿势识别单元125）

姿势识别单元125在识别区域OE1及OE2内对识别对象的位置、形状及位移进行识别。作为对识别对象的识别方法，例如可以举出针对每帧图像提取出手的位置位移的方法或者利用HMM等模型的方法等。

（关于姿势识别）

为进行姿势识别，如上所述般，可以使用对帧图像间的识别对象的位置位移进行测定的方法及/或使用HMM的方法。具体地，根据对识别对象的位置位移进行测定的方法，能够进行如下处理：当操作者移动识别对象时，使显示在与姿势识别装置1相连接的显示装置上的鼠标指针（指针）P根据识别对象所移动的方向、距离而移动。另外，在使用HMM的方法中，首先，将姿势识别装置1要识别的每种姿势的模型做成数据库存储在存储部14中。之后，针对已输入姿势识别装置1中的图像，姿势识别单元125计算上述数据库中包含的各模型的似然性。其结果，当发现一个或多个针对输入图像的似然值在规定值以上的模型时，姿势识别单元125就将与这些模型中的似然性最高的模型相对应的姿势作为从输入图像中识别出的姿势。

（6.显示器控制单元126）

显示器控制单元126，用于在姿势识别装置1外部的显示器中执行与姿势识别单元125识别出的姿势识别结果相对应的处理。详细而言，显示器控制单元126首先参照存储在存储部14中的姿势-处理内容对应表，该对应表显示每种姿势所分别对应的处理内容。由此，显示器控制单元126对上述显示器执行与姿势识别单元125识别出的姿势识别结果相对应的处理。

参照图7，说明显示器控制单元126对显示器1000的控制，则显示器控制单元126首先将指示基于姿势识别结果而决定的处理内容的控制信号发送至显示器1000所具有的控制功能部（未图示）。这样，上述控制功能部接收到显示器控制单元126发送的控制信号，从而执行上述处理内容。上述处理内容是指，例如基于识别对象位移的识别结果，对显示在显示装置2的鼠标指针P进行移动的处理。或者，也可以是如下的处理：当识别出操作者用手做出规定形状的姿势时，选择与上述鼠标指针P重叠的位置所示的图标。这样，操作者无需与显示装置2的画面接触，就能够通过利用了识别对象的简单操作，来进行对显示器1000的操作。

（7.关于其他单元）

此外，控制单元12除了包括以上说明的各单元之外，还可包括面部认证单元（未图示），该面部认证单元用于决定是否将面部检测单元121所检测出的人认定为操作者，另外，在存在多个操作者候选时，用于决定将哪个人认定为操作者。例如，当通过面部检测单元121检测出多个面部时，上述面部认证单元对检测出的各面部特征进行提取，并分别判断是否与事先存储在存储部14中的操作者名单（被认定为操作者的人）所包含的人面部特征相一致。此时，在操作者名单所包含的人中设有优先级，上述面部认证单元从面部检测单元121所检测出的所有人中，将优先等级最高的人认定为操作者。或者，当检测出多个面部时，上述面部认证单元也可将图像中面部占最大区域的人（即，位于离视频拍摄部11最近的位置的人）认定为操作者。另外，当上述面部认证单元判断面部检测单元121所检测出的人不在上述操作者名单中时，可以认为该人不是操作者。

（姿势识别处理的流程）

此处，使用图2来说明利用控制单元12来执行的姿势识别处理的流程。在该姿势识别处理中，基于操作者的面部位置和视线方向，判断操作者是否具有开始做姿势的意图，当判断操作者具有开始做姿势的意图时，就开始进行姿势识别。以下，根据图2示出的流程图，对姿势识别处理进行详细说明。此外，此处的操作者所采用的识别对象被设为操作者自身的手。

此处，在初始状态下，反馈部13所具有的LED处于熄灭状态。此外，作为其他结构例，在初始状态下，反馈部13也可使上述LED以显示姿势识别装置1处于待机状态的颜色来发光。

在姿势识别处理中，首先，面部检测单元121执行面部检测（S101）。此外，面部检测方法如上所述。而且，面部检测单元121将检测出的面部所占有的图像区域设定作为面部位置FE。面部检测单元121将针对每帧图像检测出的面部位置FE的数据存储在存储部14中。

其次，视线方向推断单元122对操作者的视线方向进行推断（S102）。详细而言，视线方向推断单元122在上述面部位置FE中如上所述那样提取眼部及虹膜，之后，在这些基础上推断视线方向。视线方向推断单元122将针对每帧图像推断出的视线方向的数据存储在存储部14中。

之后，意图判断单元123判断视线方向是否处于静止状态（S103）。详细而言，意图判断单元123从存储部14中获得连续的多帧图像（例如30帧图像）的视线方向，基于这些视线方向，判断操作者的视线方向是否处于静止状态。当意图判断单元123判断视线方向不处于静止状态时（步骤S103中的“否”），返回视线方向推断步骤S102。

接着，意图判断单元123判断由面部检测单元121检测出的面部位置是否处于静止状态（S104）。详细而言，意图判断单元123从存储部14中获得连续的多帧图像（例如30帧图像）的面部位置，并基于这些面部位置，判断操作者的面部是否处于静止状态。当意图判断单元123判断面部位置不处于静止状态时（步骤S104中“否”），返回进行面部检测的步骤S101。

另一方面，当意图判断单元123判断面部位置处于静止状态时（步骤S104中“是”），识别区域设定单元124在面部位置FE的周边区域设定识别区域OE1、OE2（参照图3）（S105）。即，只有同时满足视线方向处于静止状态的条件（条件A）和面部位置处于静止状态的条件（条件B）时，意图判断单元123才判断为操作者意图开始做姿势，从而利用识别区域设定单元124设定识别区域OE1、OE2。此外，当判断为操作者意图开始做姿势时（即步骤S104之后且步骤S105之前），意图判断单元123向反馈部13发送用于指示LED以红色发光的控制信号。这样，由于LED以红色发光，因此操作者知道开始做姿势的意图已经被姿势识别装置1所识别。

此外，也可将上述步骤S101～S104的顺序变更为如下形式。即，在该情况下，首先进行面部检测（上述步骤S101），其次判断面部位置的静止状态（上述步骤S104）。之后，当面部位置处于静止状态时，对视线方向进行推断（上述步骤S102），接着再判断视线方向的静止状态（上述步骤S103）。

接着，姿势识别单元125在识别区域OE1及OE2中检测识别对象（S106）。在检测出识别对象之后，姿势识别单元125发送用于指示反馈部13以使LED的颜色改变成蓝色的控制信号。这样，LED的发光色从红色变成蓝色，由此，操作者就会知道姿势识别装置1已经变为接受姿势识别指示的状态。

之后，姿势识别单元125开始对识别对象进行姿势识别。详细而言，姿势识别单元125对识别对象的位置、位移及形状进行识别（S107）。在完成姿势识别之后，姿势识别单元125指示反馈部13，以使LED的颜色变成绿色。这样，LED从蓝色变成绿色，由此，操作者就会知道姿势识别装置1已经完成姿势识别。

这样，操作者在姿势识别处理的各阶段中从姿势识别装置1得到关于识别阶段的反馈。由此，操作者能够通过确认反馈，来计算应该开始做姿势的时机，或者进行对姿势的修正。

在利用姿势识别单元125完成姿势识别之后，显示器控制单元126与显示器所具有的控制功能部协同工作，使该显示器执行与姿势识别的结果相对应的处理。

〔变形例〕

基于图5及图6对第一实施方式的姿势识别装置1的变形例进行如下说明。此处，图5是表示本变形例的姿势识别装置1a的结构的框图，图6是表示利用姿势识别装置1a所具有的控制单元22来执行的姿势识别处理α的流程的流程图。以下，为了便于说明，对与第一实施方式中说明的附图具有相同功能的构件，标上相同的附图标记，省略其说明。

此外，本变形例是基于以下研究的成果。当操作者为了使姿势识别装置1a识别出姿势而注视视频拍摄部11时，操作者的视线方向静止朝向视频拍摄部11，并且，操作者的面部方向与视频拍摄部11正对而且处于静止状态。因此，当由面部检测单元121检测出的面部位置的变化量小于规定值，并且，由面部方向推断单元127推断出的面部方向与规定方向构成的角度小于规定值时，则认为操作者意图开始做姿势。即，在本变形例中，将面部方向在规定方向上处于静止状态作为上述意图判断条件中的一个条件，用此来代替如所述第一实施方式那样将面部位置处于静止状态为上述意图判断条件中的一个条件。此处，面部方向的上述规定方向具体可以指正对视频拍摄部11的方向。在所述第一实施方式中，当操作者的面部没有朝向规定方向，例如没有朝向视频拍摄部11的方向，而在该状态下其面部的位置处于静止状态时，也会判断为意图开始做姿势。另一方面，在本变形例中，基于面部方向在规定方向上处于静止状态，来判断操作者意图开始做姿势，因此能够更准确地判断操作者的开始做姿势的意图。

在本变形例的姿势识别装置1a中，如图5所示，控制单元22在控制单元12的结构基础上进一步具有用于推断操作者的面部方向的面部方向推断单元127。该面部方向推断单元127用于在从面部检测单元121获得的面部位置FE（参照图3）内推断操作者的面部方向。此外，推断面部方向的方法如下。而且，本变形例的姿势识别处理α中，如图6所示，判断面部方向是否处于静止状态（参照图6步骤S104a及S104b），以此来代替，在上文说明的姿势识别处理中判断操作者的面部位置是否处于静止状态（参照图2的步骤S104）的方案。

（关于面部方向的推断）

为了推断人的面部方向（换言之为头的方向），可以应用前述的视线方向的推断。详细而言，当从视频图像中如上所述般提取的两眼部处于相对面部位置FE的横向中心线CL而相互对称的位置（参照图4的（a））上时，面部方向推断单元127判断为面部方向正对姿势识别装置1（正确而言是视频拍摄部11）。另一方面，当提取的眼部处于相对上述中心线CL非对称的位置时（参照图4的（b）），面部方向推断单元127判断为面部方向没有正对姿势识别装置1，即判断为操作者朝向侧面。

以下，利用图6所示的流程图来说明本实施方式的姿势识别装置1a的姿势识别处理α。此外，在姿势识别处理α中，步骤S101～S103、S105～S107与所述第一实施方式的姿势识别处理的流程相同，因此省略其说明。

（姿势识别处理α的流程）

在步骤S103中，当意图判断单元123判断为视线方向处于静止状态时（步骤S103中“是”），面部方向推断单元127对面部方向进行推断（S104a）。之后，意图判断单元123在连续的多帧图像（例如30帧图像）中判断面部方向是否在规定方向上处于静止状态（S104b）。当判断为面部方向没有在规定方向上处于静止状态时（步骤S104b中“否”），返回步骤S102，然后再次对视线方向进行推断。

另一方面，当判断为面部方向处于静止状态时（步骤S104b中“是”），进入步骤S105，与上述姿势识别处理一样，利用识别区域设定单元124，设定识别区域OE1、OE2（参照图3）。

即，在本实施方式中，只有同时满足视线方向在规定方向上处于静止状态的条件（条件A）和面部方向在规定方向上处于静止状态的条件（条件B′）时（步骤S103及S104b中都是“是”），意图判断单元123才判断为操作者意图开始做姿势，从而利用识别区域设定单元124设定识别区域OE1、OE2。此外，如下详解说明操作者的面部在规定方向上处于静止状态的条件B′。

条件B′：在连续的30帧图像中，操作者的右眼部至中心线CL的距离与操作者的左眼部至中心线CL的距离之差，在面部位置FE的宽度的10％以下。

此外，在本变形例中，在视线方向处于静止状态的条件（条件A）和面部方向处于静止状态的条件（条件B′）都满足时，才会判断为操作者意图开始做姿势，但本发明并不限于此，例如也可以取代上述条件B′而采用如下条件：可以将表示操作者嘴的特定的形状变化（例如发出“o-i”（“おーい”）时的嘴的形状变化）作为条件（条件B′1），或者将操作者发出特定声音（语音或拍手的声音等）作为条件（条件B′2）。进一步，也可以按以如下方式设置也可，即：将此处阐述的条件B′1、B′2的双方或其中一方加入到条件A及B′中，当满足这些所有条件时，意图判断单元123判断为操作者意图开始做姿势。特别是，将如条件B′2那样般，将操作者发出规定声音作为意图判断条件中的一个条件时，姿势识别装置1还要具有两个麦克风。这两个麦克风设置在互不相同的位置上，当发出声音时，在设有各麦克风的位置上对该声音进行录音。由此，意图判断单元123从由上述两个麦克风录制的声音中，确定发出该声音的位置。而且，当位于发出声音的位置上的人就是由面部检测单元121检测出面部的操作者时，意图判断单元123就判断为满足条件B′2。由此，当操作者以外的人发出上述特定声音时，该人位于与操作者不同的位置上，因此就判断为不满足条件B′2。

〔第二实施方式〕

基于图7对本发明显示器1000进行如下说明。此外，为了便于说明，对与第一实施方式及变形例中说明的附图具有相同功能的构件标上相同的附图标记，并省略其说明。

（显示器1000的结构）

图7中示出外观的显示器1000，具有姿势识别装置1及显示装置2。在显示器1000中，可以使用所述变形例的姿势识别装置1a来代替姿势识别装置1。此外，显示器1000具体为个人计算机。但是，本发明不限于此，显示器1000可以为电视显像器、网络电视或平板电脑终端等的具有控制功能及显示功能的各种显示器。

另外，姿势识别装置1设置在显示装置2的上侧并且与该显示装置2的上边相接触。另外，这样设置姿势识别装置1，即，使位于与显示装置2的画面正对的方向的操作者（用户）能够看见视频拍摄部11及反馈部13。由此，操作者能够确认利用反馈部13进行的反馈，与此同时还能够看到显示装置2的画面。另外，视频拍摄部11以能够拍摄位于画面前方的操作者的活动影像（动画）的方式构成。

此外，在图7中，姿势识别装置1设置在显示装置2的上侧，但并不特别限制姿势识别装置1的设置位置，也可以将其设置在显示装置2的下侧、左侧、右侧，或与显示装置2形成为一体也可。作为姿势识别装置1与显示装置2形成为一体的结构，例如可以在围绕显示装置2的画面的框架中嵌入视频拍摄部11。进一步，当显示装置2具有网络摄像头时，可以用该网络摄像头来代替视频拍摄部11，此时，姿势识别装置1全部以软件形式实现。

（关于显示器1000的控制）

本实施方式的显示器控制单元126基于从姿势识别单元125中获得的姿势识别结果，来控制显示装置2的显示。显示器控制单元126例如通过与上述显示器1000进一步具有的控制功能部（未图示）协同工作，来控制显示装置2中显示的鼠标指针P。该鼠标指针P基于姿势识别装置1对识别对象姿势的识别结果，而与识别对象的姿势联动。即，如果操作者在识别区域OE1、OE2内进行对识别对象的操作，则在显示装置2的画面内，鼠标指针P与识别对象的操作联动。这样，操作者无需与显示装置2的画面相接触，或者无需使用遥控器等工具，就能够对显示在画面中的鼠标指针P进行操作。

接着对显示器1000的使用例进行说明。首先，操作者在（在确认了反馈部13的LED的颜色为蓝色的基础上，即，在确认了姿势识别装置1处于接受姿势的状态的基础上）识别区域OE1、OE2内使用识别对象（手）做出姿势。识别对象的姿势被视频拍摄部11拍摄，从而被姿势识别单元125识别，之后，被输入至显示器控制单元126。这样，显示器控制单元126将基于姿势识别结果而决定的鼠标指针P的控制内容，发送至显示装置2的上述控制功能部。由此，显示器控制单元126通过与上述控制功能部协同工作，来控制显示在显示装置2中的鼠标指针P。此外，显示器控制单元126也可为如下结构：不仅能够控制鼠标指针P的动作，还能够执行与识别对象的形状相对应的处理内容。由此，例如当操作者进行握手动作时，显示器控制单元126以能够控制选择显示在与鼠标指针P重叠的位置上的图标。

此外，在本实施方式的显示器1000中，反馈部13是与显示装置2相独立地设置的结构，另外，与所述第一实施方式一样，是利用LED发光向操作者进行反馈的结构。但是，本发明并不限于此，也可为利用显示装置2的显示向操作者进行反馈的结构。例如，利用显示在画面一部分中的图标、文本、颜色，向操作者进行反馈也可。除此之外，利用从显示装置2的音频输出装置（未图示）中输出的声音来进行反馈也可。此外，当为这种结构时，反馈部13以软件形式实现，并包含在控制单元12中。

（总结）

如上所述，根据本发明，操作者无需进行例如摆手等特别的开始动作，也能够使姿势识别装置1、1a识别姿势。而且，操作者从姿势识别装置1、1a中获得关于识别阶段的反馈，因此能够通过确认该反馈来进行恰当的操作。进一步，操作者无需使用遥控器、鼠标或数据手套（glove）等特别的工具，并且无需接触显示装置2的画面，就能够将操作者自身的手等作为识别对象，来进行对显示器1000的操作。即，本发明的姿势识别装置1、1a提供能够使操作者自然而顺利地对显示器1000进行交互式操作的接口。

此外，本发明并不限于上述各第一、第二实施方式及变形例，而是在权利要求的范围内可以进行各种变更，对第一、第二实施方式及变形例中分别公开的技术手段进行适当组装而得到的实施方式，也包含在本发明的技术范围之内。

〔利用软件来实现的例子〕

最后，姿势识别装置1、1a的各模块，特别是控制单元12、22中的各单元也可以利用形成在集成电路（IC芯片）上的逻辑电路以硬件形式来实现，也使用CPU（Central Processing Unit：中央处理器）以软件形式实现。

在后者的情况下，姿势识别装置1、1a具有如下构件等，这些构件包括：CPU，其用于执行可实现各功能的程序的指令；ROM（Read OnlyMemory：只读存储器），其用于存储上述程序；RAM（Random AccessMemory：随机存取存储器），其用于加载上述程序；存储器等的存储装置（存储介质），用于存储上述程序及各种数据。另外，将实现上述功能的软件，即姿势识别装置1、1a的控制程序的程序代码（目标程序（anexecutable format program）、中间代码程序、源程序），以计算机可读形式存储的存储介质中，供给至上述姿势识别装置1、2，使该计算机（或CPU或MPU（微处理器））读取存储介质中存储的程序代码并执行该程序代码，由此能够达成本发明的目的。

作为上述存储介质，可以使用非暂时性有形介质（non-transitorytangible medium），例如：磁带或盒式磁带等磁带类；包括软（floppy，注册商标）盘/硬盘等磁盘，或CD－ROM/MO/MD/DVD/CD－R等光盘的盘类；IC卡（包括内存卡）/光卡等卡类；闪速ROM/EPROM/EEPROM（注册商标）/闪存等半导体内存类；或者PLD（Programmable logic device：可编程逻辑器件）或FPGA（Field Program mable Gate Array：现场可编程门阵列）等逻辑电路类等。

另外，将姿势识别装置1、1a设成可与通信网连接的结构，并且将上述程序代码经由通信网进行供给也可。该通信网只要能传输程序代码即可，并无特别限定。例如，可以利用因特网、局域网、外部网、LAN、ISDN、VAN、CATV通信网、虚拟专用网（Virtual Private Network）、电话网、移动通信网、卫星通信网等。另外，构成该通信网的传输介质只要是能够传输程序代码的介质即可，不限于特定结构或种类。例如、也可利用IEEE1394、USB、电力线载波通信、TV电缆线路、电话线、ADSL（Asymmetric Digital Subscriber Line：非对称数字用户线路）线路等有线线路；如IrDA或遥控器的红外线、蓝牙（Bluetooth注册商标）、IEEE802．11无线、HDR（High Data Rate：高数据速率）、NFC（Near Field Communication：近距离通讯）、DLNA（Digital Living Network Alliance：数字生活网）、移动电话网、卫星线路、数字电视地面传播网等无线线路。此外，本发明也可以以计算机数据信号的形式实现，该计算机数据信号通过电子传输上述程序代码而得以实现，并承载于载波上。

产业的利用可能性

本发明可以用于具有显示装置的各种显示器上，特别是可以用在电视显像器、个人计算机及平板电脑终端等上。

Claims

1.一种姿势识别装置，用于从拍摄用户而得的视频中识别该用户的姿势，其特征在于，具有：

视线方向推断单元，其用于推断上述用户的视线方向，

判断单元，其在规定期间内，若规定方向与上述视线方向所成的角度小于规定值，则判断为上述用户意图开始做姿势，

通知单元，其在上述判断单元判断为上述用户意图开始做姿势时，向上述用户通知已进行了该判断。

2.如权利要求1所述的姿势识别装置，其特征在于，

当判断出该姿势识别的开始或结束中的至少一种情况时，上述通知单元都向上述用户通知已进行了该判断。

3.如权利要求1或2所述的姿势识别装置，其特征在于，

进一步具有面部检测单元，该面部检测单元用于在视频中检测上述用户的面部位置；

在规定期间内，若规定方向与上述视线方向所成的角度小于规定值，且由上述面部检测单元检测出的面部位置的变化量小于规定值，则上述判断单元判断为上述用户意图开始做姿势。

4.如权利要求1或2所述的姿势识别装置，其特征在于，

进一步具有面部方向推断单元，其用于在视频中推断上述用户的面部方向；

在规定期间内，若规定方向与上述视线方向所成的角度小于规定值，且由上述面部方向推断单元推断出的面部方向与规定方向所成的角度小于规定值，则上述判断单元判断为上述用户意图开始做姿势。

5.如权利要求1或2所述的姿势识别装置，其特征在于，

进一步具有识别区域设定单元，其用于设定识别区域，该识别区域是用于对上述姿势进行识别的区域。

6.如权利要求1～5中任一项所述的姿势识别装置，其特征在于，

进一步具有设备控制单元，其用于指示外部设备执行与姿势识别结果相对应的处理。

7.一种显示器，其特征在于，

具有如权利要求6所述的姿势识别装置和利用上述姿势识别装置进行动作控制的显示装置。

8.一种姿势识别装置的控制方法，该姿势识别装置从拍摄用户而得的视频中识别该用户的姿势，其特征在于，

对上述用户的视线方向进行推断，

在规定期间内，若规定方向与上述视线方向所成的角度小于规定值，则判断为上述用户意图开始做姿势，

当判断为上述用户意图开始做姿势时，向上述用户通知已进行了该判断。