CN1276572A

CN1276572A - 手形手势识别装置、识别方法及含该方法程序的记录媒体

Info

Publication number: CN1276572A
Application number: CN00118340A
Authority: CN
Inventors: 今川和幸; 松尾英明; 猪木诚二; 吕山
Original assignee: Communications Research Laboratory; Matsushita Electric Industrial Co Ltd
Current assignee: Communications Research Laboratory; Panasonic Holdings Corp
Priority date: 1999-06-08
Filing date: 2000-06-08
Publication date: 2000-12-13
Anticipated expiration: 2020-06-08
Also published as: JP4332649B2; US6819782B1; EP1059608A2; CN1191536C; JP2001056861A

Abstract

本发明提供一种对复杂手形图像也进行手形手势识别的手形手势识别装置和识别方法以及程序记录媒体。手图像归一化部11从种种形状/姿势的图像当中消除手腕区域,生成对手方向和大小归一化的手形图像。本征空间计算部13进行本征空间法的解析,根据手形图像求得本征值和本征向量。本征空间投影部15将手形图像投影到以本征向量为基底的本征空间,求得本征空间内的投影坐标。手图像归一化部21从输入手图像当中消除手腕区域,生成将大小或亮度归一化为与手形图像同等的输入手形图像。

Description

手形手势识别装置、识别方法及含该方法程序的记录媒体

本发明涉及手形手势识别装置和手形手势识别方法以及记录有执行该方法程序的记录媒体，具体来说，涉及不用数据手套等带有电缆等的手套，能够对人类手形和手势推定进行识别，根据该识别结果用于人机之间界面装置或手语识别装置等的手形手势识别装置及其方法以及记录有执行该方法程序的记录媒体。

当前，对于新的人类界面手段，人们正热衷于研究开发识别人类手形、取得人类用手提示的信息的装置。而且，着眼于增进听觉障碍者和健康人之间的交流，也热衷于对手语动作中提示的手形和手势进行识别的研究。

通常，作为取得人类手形的方法，公知的有手上加上数据手套等传感器测定各状态的方法，例如电气学会计量研究会资料(1994第49页～第56页)(以下称为第一文献)。该第一文献讨论的是沿手指设置手套光纤，利用光纤伸展时和弯曲时的光量变化，对手指关节的角度进行推定的方法。

而对于如上述第一文献所述不用带传感器手套的方法，则有用摄像机识别手形的方法，例如渡边、岩井、八木、谷内田的论文“用彩色手套的手指文字识别”(电子信息通信学会杂志vol.J80-D-2，No.10，第2713页～第2722页)(以下称为第二文献)。该第二文献讨论的是手上装上加有多种彩色的手套(标识器)，根据该手套图像识别手形的方法。

另一方面，对于手未装上手套等标识器而用摄像机进行手形和手势识别的方法，例如有日本专利申请特开平8-263629号公报“物体形状·姿势检测装置”(以下称为第三文献)所揭示的方案。该第三文献记载的是至少用3台摄像机对手进行摄影，将手视为平面，判别该手与哪一摄像机相对，并根据朝向正面的摄像机的图像识别形状，对姿势进行推定的方法。

此外，作为根据朝向正面的摄像机的图像对形状进行识别的方法，存在石渊、岩崎、竹村、岸野的论文“用图像处理的实时手势推定和对人类界面的应用”(电子信息通信学会论文杂志vol.J79-D-2，No.7，第1218页～第1229页)(以下称为第四文献)。该第四文献说明的是根据多个摄像机得到的手的图像求出手腕-中指方向

(以下称为掌主轴)，同时求得伸展的指尖位置，并识别伸展的手指有几根这一方法。

通常为了识别面容、车等物体的姿势和种类，近年来将利用外观图像的方法同本征空间法组合的图像识别法受到关注。这里，所说的基于外观图像的方法，是指仅仅用预先取得的3维物体的2维外观图像对物体姿势、种类进行识别的方法。而所说的本征空间法，是指从古至今进行的方法，采用图像集合的协方差矩阵(或自相关矩阵)本征向量所构成的本征空间的方法，公知的是采用主成分分析或KL展开的方法。

以下简单说明就图像应用上述主成分分析的方法。

为了更加容易地了解或处理多维空间的特点，在设法利用本征空间用较少的维数表现的统计方法中，作为多变量解析中一方法常常利用主成分分析。就原理来说，将多维空间上的特点线形映射为分散大的少数低维正交部分空间。

该主成分分析方法应用于图像时，首先将n×m像素的图像经光栅扫描得到的列向量作为U，用

{U₁，U₂，U₃，…，U_p}

表现p个图像属于的图像群。

接着，从该图像分组各个要素当中减去图像集合平均图像c要素的列向量分组成的nm×p矩阵设定为A，由矩阵A

A＝[U₁-c，U₂-c，U₃-c，…，U_p-c]

图像集合的协方差矩阵Q用下列式(1)计算。另外，矩阵A^T表示矩阵A的转置矩阵。

Q＝AA^T (1)

而且用该协方差矩阵Q解下述式(2)的本征方程式。

λ_i＝Qe_i (2)

这里，应求得的部分空间，若其维数为k，便成为通过以k个大的本征值所对应的本征向量

e₁，e₂，…，e_k(λ₁≥λ₂≥…≥λ_k≥…≥λ_p)

为基底向量所得到的部分空间。

因而，通过将某个像素x按下述式(3)线形映射为本征向量的部分空间，可以将n×m维图像维数压缩为k维特征向量y。

y＝[e₁，e₂，…，e_k]^Tx (3)

另一方面，用主成分分析或KL展开、因人类面容模样复杂而对多种多样实体进行检出识别的方法来说，有例如日本专利申请特开平8-339445号公报“用几率本征空间解析的复杂对象物的检测、识别、以及编码方法和装置”(以下称为第五文献)所揭示的方案。该第五文献其特征在于，以往所采取的上述办法对复杂对象物、尤其是对面容适用。上述第五文献按复杂对象物例子给出应用于手形识别的实施例，以下说明其方法。

首先，相对于黑色背景对手势所用的手的图像集合进行摄影。接下来用Canny的边缘操作器提取手的2维轮廓。接着，对得到的边缘图像集合进行KL展开求得部分空间的方案仍按原样利用2值边缘图，图像间几乎相互无关，因此部分空间的维数必须非常大。因此，上述第五文献中记载的实施例，提出通过在2值边缘图上经扩散处理将边缘除外求部分空间、来压缩部分空间维数这一方案。而且，为了从输入图像当中求得手的位置，通过按某种一定的大小搜索整个图像来求得手的位置，进行识别。

但要识别人手形状时，象上述第一文献所讨论的那样手戴上数据手套进行手形识别时，由于手带有电缆，因而动作受到牵制，或在穿戴感觉方面成问题。

即便用摄像机对手形进行识别时，象上述第二文献所讨论的那样以装上手套等标识器为前提时，没有手套时不仅无法进行手形识别，而且戴上时的亲和感成问题。

此外，象上述第三文献讨论的那样在不戴手套或标识器的情况下利用多个摄像机对手形和手势进行识别时，将手视为平面，根据该手与哪一摄像机相向来判别手势，但实际上手可能表现为种种形状，这当中还有很多是无法近似成平面的形状。因而，可以作为识别对象应对伸展手指根数等单纯形状，但不适用更复杂形状(例如拇指和食指接触形成孔的形状)等。

而象上述第四文献那样，对基于更普遍的本征空间解析方法来说，不清楚如何取得仅仅是手经归一化的图像。对基于本征空间解析的方法来说，重要的是如何截取所识别的对象物体其图像区域进行归一化。通常，按刚体识别的对象物体有明显不同时，该归一化只要是大小和亮度归一化便足够了，但是手或容貌这种复杂物体情况下，将其所包含部分截取的处理是极为重要的。

例如，将此方法用于容貌识别时，使眼睛、鼻子位置移动至某个一定的位置上，可以利用将颚部或毛发消除的方法。而对于手时，需要用某种方法将腕部区域消除，将手移动至一定位置进行归一化，不进行这种处理，对多种手形和手势的识别，就存在即使利用基于本征空间解析的方法但识别率差这种问题。

而且，象上述第五文献所讨论的那样，实际将本征空间解析应用于手的图像时，还需要根据手的图像中的边缘求得轮廓，进而将边缘除外。因此，1根手指伸展的图像和2根手指以接触的形式伸展的图像，在图像上无法区别其差异，结果是不可能用于更加复杂的形状等。

因此，本发明目的在于，提供一种通过预先对应识别的手形，从给出种种手势的图像当中消除手腕区域进行归一化，并对经归一化的图像应用基于本征空间解析的方法，从而对更为复杂的手形图像也识别其形状和姿势的手形和手势识别装置及手形和手势识别方法以及记录有执行该方法程序的记录媒体。

为了达到上述目的，本发明具有如下所述特征。

第一方面为对光学读取手段所取得的手的图像(以下称为输入手图像)进行手形和手势识别的装置，其中包括：

输入预先对种种形状和姿势的手进行摄像得到的多个图像，并分别生成该图像消除手腕区域后预先确定的图像形态(手的方向、图像的大小、图像的亮度)经过归一化的手形图像的第一手图像归一化部；

将手形图像和与该手形图像相关的形状信息和姿势信息一起分别存储的手形图像信息存储部；

进行本征空间法的解析，根据手形图像分别计算本征值和本征向量的本征空间计算部；

存储本征向量集合的本征向量存储部；

将手形图像投影至以本征向量为基底的本征空间，分别求得该本征空间内投影座标，并存储于手形图像信息存储部的第一本征空间投影部；

将输入手图像输入，生成该输入图像消除手腕区域后按与手形图像为同类图像形态那样经过归一化的输入手形图像的第二手图像归一化部；

将输入手形图像投影至以本征向量为基底的本征空间，求得该本征空间内投影座标的第二本征空间投影部；

分别比较第二本征空间投影部求得的投影座标和手形图像信息存储部存储的投影座标，求得与输入手形图像最为接近的手形图像的手形图像选择部；以及

从手形图像信息存储部当中取得并输出最为接近的手形图像的形状信息和姿势信息的形状·姿势输出部。

如上所述，按照第一方面，从具有种种手形和手势的多幅手图像和为识别对象的输入手图像两者当中消除手腕区域，因而可以比单纯的大小和亮度归一化更为精密地对手图像进行归一化。因此，将基于本征空间的方法用于手形和手势识别，也能够得到精度足够高的结果。

而且，将基于本征空间的方法用于手形和手势识别，并利用对伸展手指个数计数等几何特征的方法，对几何特征难以处理的更为复杂的手形也能够识别。

第二方面为对光学读取手段所取得的手的图像进行手形和手势识别的装置，其特征在于，包括：

输入预先对种种形状和姿势的手进行摄像得到的多个图像，并分别生成该图像消除手腕区域后预先确定的图像形态经过归一化的手形图像的第一手图像归一化部；

存储本征向量集合的本征向量存储部；

将手形图像投影至以所述本征向量为基底的本征空间，分别求得该本征空间内投影座标，并存储于手形图像信息存储部的第一本征空间投影部；

通过群集分析分别将投影座标分组，求得各手形图像属于哪一群集并存储于手形图像信息存储部，并求得与各群集相关的统计信息的群集分析部；

将统计信息与相应的群集一起分别存储的群集信息存储部；

分别比较第二本征空间投影部求得的投影座标和群集信息存储部存储的统计信息，求得最为接近的群集的最近似群集判别部；

分别比较属于最近似群集的手形图像和输入手形图像，求得与该输入手形图像最为接近的手形图像的图像比较部；以及

如上所述，按照第二方面，通过本征空间内的群集分析对手形图像信息存储部存储的多个手形图像分组，识别输入手图像时，先求得属于哪一分组，再求得与该分组内的哪一手形图像最为接近。因此，可以减少图像比较次数，从而更为高速地进行处理。存在不同形状但近似的图像时也能够正确地求得手形和手势。

第三方面为从属于第二方面的手形手势识别装置，其特征在于，图像比较部包括下列构成：

比较属于最近似群集判别部求得的群集的所述手形图像和所述第二手图像归一化部生成的输入手形图像时，按同一群集内的同一形状对手形图像进行分组的同一形状分类部；

求得表现分组的统计量的形状分组统计量计算部；以及

计算输入手形图像和统计量之间距离，输出属于最为接近分组的形状的最近似形状判别部。

如上所述，按照第三方面，在第二方面中不需要输出到姿势的场合，能够比识别姿势和形状两者的场合更为正确地求得手形。

第四方面为从属于第二方面的手形手势识别装置，其特征在于，群集分析部从手形图像信息存储部当中取得针对各群集的手形图像和形状信息，分别计算用以判别各手形图像的部分区域，存储于群集信息存储部，

图像比较部，比较属于最近似群集判别部求得的群集的手形图像和第二手图像归一化部生成的输入手形图像时，仅对与群集相对应的部分区域内进行比较。

如上所述，按照第四方面，在第二方面中预先确定用以判别图像的部分区域，仅在该部分区域内比较手形图像和输入手形图像。因此，与第二方面相比，可以减少图像比较次数，并且在对为识别对象的手的图像进行识别时，即便存在不同形状但近似的图像场合，也能够正确且高速地求得手形和手势。

第五方面为从属于第二方面的手形手势识别装置，其特征在于，输入手图像为从多个视点对识别对象手进行摄像得到的多个图像时，

第二手图像归一化部分别就多个输入手图像生成输入手形图像，

第二本征空间投影部对于第二手图像归一化部生成的多个输入手形图像，分别求得本征空间内的投影座标，

最近似群集判别部比较第二本征空间投影部求得的各投影座标和统计信息，来分别求得最为接近的群集，

图像比较部综合最近似群集判别部求得的多个最为接近的群集，根据属于各群集的手形图像的形状信息和姿势信息推定不矛盾的形状·姿势。

如上所述，按照第五方面，在第二方面中根据从多个视点摄像得到的输入手图像求得的群集，综合最为接近的群集，求得输入手图像的形状和姿势。因此，即便是形状和姿势无法仅凭1方向上的图像确定的场合(例如横向手图像等)，也能够正确求得手形和手势。

第六方面为对光学读取手段所取得的进行一系列具有含义动作的连续的手的图像(以下称为手势动作图像)其含义进行识别的装置，其特征在于，包括：

存储本征向量集合的本征向量存储部；

将统计信息与相应的群集一起分别存储的群集信息存储部；

将手势动作图像输入，从该手势动作图像的各个图像当中分别检出手区域的手区域检出部；

在检出的手区域中分别求得手势动作图像的手活动，按照手活动求得手动作分节节点的手动作分节部；

根据手势动作图像中为手动作分节节点的图像，将检出的手区域部分截取的手图像截取部；

对手图像截取部从手势动作图像当中截取的1幅以上的手图像(以下称为手图像序列)，分别生成该手图像消除手腕区域后按与手形图像为同类图像形态那样经过归一化的输入手形图像的第二手图像归一化部；

将输入手形图像投影至以本征向量为基底的本征空间，分别求得该本征空间内投影座标的第二本征空间投影部；

分别比较第二本征空间投影部求得的投影座标和群集信息存储部存储的统计信息，求得最为接近的群集，分别输出规定该群集的符号的最近似群集判别部；

将最近似群集判别部输出的手图像序列对应的符号(以下称为符号序列)与该手图像序列之源的手势动作图像的含义一起登录于序列识别词典部的序列登录部；

存储手势动作图像含义和相应的符号序列的序列识别词典部；以及

从序列识别词典部当中取得并输出最近似群集判别部所输出的符号序列相应含义的识别运算部。

如上所述，按照第六方面，对于手势词语或手语词语等这种具有一系列含义的手势动作图像，预先将为手动作分节点的图像其群集序列与其含义一起存储，识别手势动作图像时，根据所求得的群集序列输出所存储的含义。因此，对于手势词语或手语词语等这种具有一系列含义的动作，能够进一步减少误识别，正确地求得含义。

第七方面为从属于第六方面的手形手势识别装置，其特征在于，还包括：

将手势动作图像输入，根据该图像动作主体的活动和位置输出候选含义的总体动作认识部；以及

根据具有一系列含义的动作，预先存储约束条件以限制所输入的手势动作图像含义的约束条件存储部，

识别运算部按照约束条件，从序列识别词典部当中取得并输出最近似群集判别部所输出的符号序列相应的含义。

如上所述，按照第七方面，在第六方面中根据手总体动作特征，并进一步增加约束条件，导出手势动作图像的含义。因此可以减少手势动作图像的误识别。

第八和第九方面为从属于第六、第七方面的手形手势识别装置，其特征在于，手区域检出部包括以下构成：

从所输入的手势动作图像的各个图像当中分别截取作为候选手区域的区域的候选区域截取部；

存储屏蔽区域以便从矩形区域当中取出为候选手图像的区域的屏蔽区存储部；

从手势动作图像当中截取的候选手区域这一区域，增加屏蔽区域，接下来分别生成与计算本征向量时所用的手图像为同类图像形态那样经过归一化的图像的手区域图像归一化部；

将候选手区域的区域经归一化的图像投影至以本征向量为基底的本征空间，分别求得该本征空间内投影座标的手区域本征空间投影部；

分别比较手区域本征空间投影部求得的投影座标和群集信息存储部存储的统计信息，求得最为接近的群集，分别输出一评价值以表明规定该群集的符号和比较对象群集之间接近度的手区域最近似群集判别部；以及

根据评价值，输出评价值最高的候选手区域其位置信息和其群集的区域确定部。

如上所述，按照第八和第九方面，在第六、第七方面中检出手区域时将手区域候选区域投影至本征空间，通过求得相应群集来检出手区域。因此，检出手区域的同时可以求得该手区域的相应群集，因而能够将手区域和手形手势识别，或者将手区域和手势动作识别处理综合成为一项处理。

第十至第十二方面为从属于第一、第二、第六方面的手形手势识别装置，其特征在于，第一手图像归一化部和第二手图像归一化部分别包括以下构成：

预先按色分布存储所输入的手图像中应提取的手区域的色分布存储部；

按照色分布，从所输入的手图像当中提取手区域的手区域提取部；

求得手腕方向，按照该手腕方向从手区域当中消除手腕区域的手腕区域消除部；

使消除手腕区域的手区域移动至图像上预先定义的位置的区域移动部；

求得旋转角使手区域内的手朝向预定的一定方向的旋转角计算部；

按照旋转角，旋转手区域使手朝向一定方向的区域旋转部；以及

将旋转的手区域的大小归一化为预定的一定大小的大小归一化部。

如上所述，按照第十至第十二方面，在第一、第二、第六方面中对手图像归一化时，不仅消除手腕区域，还按肤色提取手区域。因此，可以从通常自然背景下摄像得到的手图像当中提取手区域，进而能够正确识别手形和手势。

第十三方面为从属于第一方面的手形手势识别装置，其特征在于，还包括：

分别存储形状信息和姿势信息所对应的命令的命令存储部；以及

将形状·姿势输出部所输出的形状信息和姿势信息输入，从命令存储部取得并输出该形状信息和该姿势信息所对应的命令的命令输出部。

如上所述，按照第十三方面，可以使第一方面的识别装置起到一控制界面的作用，以按照所求得的手形和手势对其他设备进行控制。

第十四方面为对光学读取手段所取得的手的图像进行手形和手势识别的方法，其特征在于，包括：

输入预先对种种形状和姿势的手进行摄像得到的多个图像，并分别生成该图像消除手腕区域后预先确定的图像形态经过归一化的手形图像的第一归一化步骤；

进行本征空间法的解析，根据手形图像分别计算本征值和本征向量的解析步骤；

将手形图像投影至以本征向量为基底的本征空间，分别求得该本征空间内投影座标的第一投影步骤；

将输入手图像输入，生成该输入图像消除手腕区域后按与手形图像为同类图像形态那样经过归一化的输入手形图像的第二归一化步骤；

将输入手形图像投影至以本征向量为基底的本征空间，求得该本征空间内投影座标的第二投影步骤；

分别比较就手形图像求得的投影座标和就输入手形图像求得的投影座标，求得与输入手形图像最为接近的手形图像的比较步骤；以及

输出最为接近的手形图像的形状信息和所述姿势信息的步骤。

如上所述，按照第十四方面，从具有种种手形和手势的多幅手图像和为识别对象的输入手图像两者当中消除手腕区域，因而可以比单纯的大小和亮度归一化更为精密地对手图像进行归一化。因此，将基于本征空间的方法用于手形和手势识别，也能够得到精度足够高的结果。

第十五方面为对光学读取手段所取得的手的图像进行手形和手势识别的方法，其特征在于，包括：

通过群集分析分别将投影座标分组，求得各手形图像属于哪一群集和与各群集相关的统计信息的分析步骤；

分别比较就输入手形图像求得的投影座标和统计信息，求得最为接近的群集的判别步骤；

分别比较属于最近似群集的手形图像和输入手形图像，求得与该输入手形图像最为接近的手形图像的比较步骤；以及

输出最为接近的手形图像的形状信息和姿势信息的步骤。

如上所述，按照第十五方面，通过本征空间内的群集分析对多个手形图像分组，识别输入手图像时，先求得属于哪一分组，再求得与该分组内的哪一手形图像最为接近。因此，可以减少图像比较次数，从而更为高速地进行处理。存在不同形状但近似的图像时也能够正确地求得手形和手势。

第十六方面为从属于第十五方面的手形手势识别方法，其特征在于，比较步骤包括下列步骤：

比较属于判别步骤求得的群集的手形图像和第二归一化步骤生成的输入手形图像时，按同一群集内的同一形状对手形图像进行分组的步骤；

求得表现分组的统计量的步骤；以及

计算输入手形图像和统计量之间距离，输出属于最为接近分组的形状的步骤。

如上所述，按照第十六方面，在第十五方面中不需要输出到姿势的场合，能够比识别姿势和形状两者的场合更为正确地求得手形。

第十七方面为从属于第十五方面的手形手势识别方法，其特征在于，分析步骤根据针对各群集的手形图像和形状信息，分别计算用以判别各手形图像的部分区域，

比较步骤，比较属于判别步骤求得的群集的手形图像和第二归一化步骤生成的输入手形图像时，仅对与群集相对应的部分区域内进行比较。

如上所述，按照第十七方面，在第十五方面中预先确定用以判别图像的部分区域，仅在该部分区域内比较手形图像和输入手形图像。因此，与第十五方面相比，可以减少图像比较次数，并且在对为识别对象的手的图像进行识别时，即便存在不同形状但近似的图像场合，也能够正确且高速地求得手形和手势。

第十八方面为从属于第十五方面的手形手势识别方法，其特征在于，输入手图像为从多个视点对识别对象手进行摄像得到的多个图像时，

第二归一化步骤分别就多个输入手图像生成输入手形图像，

第二投影步骤所述第二归一化步骤生成的多个输入手形图像，分别求得本征空间内的投影座标，

判别步骤比较第二投影步骤求得的各投影座标和统计信息，来分别求得最为接近的群集，

比较步骤综合判别步骤求得的多个最为接近的群集，根据属于各群集的手形图像的形状信息和姿势信息推定不矛盾的形状·姿势。

如上所述，按照第十八方面，在第十五方面中根据从多个视点摄像得到的输入手图像求得的群集，综合最为接近的群集，求得输入手图像的形状和姿势。因此，即便是形状和姿势无法仅凭1方向上的图像确定的场合，也能够正确求得手形和手势。

第十九方面为对光学读取手段所取得的进行一系列具有含义动作的连续的手的图像其含义进行识别的方法，其特征在于，包括：

将手势动作图像输入，从该手势动作图像的各个图像当中分别检出手区域的检出步骤；

在所述检出的手区域中分别求得手势动作图像的手活动，按照手活动求得手动作分节节点的分节步骤；

根据手势动作图像中为手动作分节节点的图像，将检出的手区域部分截取的截取步骤；

对从手势动作图像当中截取的手图像序列，分别生成该手图像消除手腕区域后按与手形图像为同类图像形态那样经过归一化的输入手形图像的第二归一化步骤；

将输入手形图像投影至以本征向量为基底的本征空间，分别求得该本征空间内投影座标的第二投影步骤；

分别比较就输入手形图像求得的投影座标和统计信息，求得最为接近的群集，分别输出规定该群集的符号的判别步骤；

将所判别的所述手图像序列对应的符号序列与该手图像序列之源的手势动作图像的含义一起存储的步骤；以及

识别所输入的手势动作图像时，根据所存储的符号序列及其含义，输出所判别的符号序列相应含义的识别步骤。

如上所述，按照第十九方面，对于手势词语或手语词语等这种具有一系列含义的手势动作图像，预先将为手动作分节点的图像其群集序列与其含义一起存储，识别手势动作图像时，根据所求得的群集序列输出所存储的含义。因此，对于手势词语或手语词语等这种具有一系列含义的动作，能够进一步减少误识别，正确地求得含义。

第二十方面为从属于第十九方面的手形手势识别方法，其特征在于，还包括：

将手势动作图像输入，根据该图像动作主体的活动和位置输出候选含义的认识步骤；以及

根据具有一系列含义的动作，预先存储约束条件以限制所输入的手势动作图像含义的存储步骤，

识别步骤按照约束条件，并根据所存储的符号序列及其含义输出所判别的符号序列相应的含义。

如上所述，按照第二十方面，在第十九方面中根据手总体动作特征，并进一步增加约束条件，导出手势动作图像的含义。因此可以减少手势动作图像的误识别。

第二十一和第二十二方面为从属于第十九、第二十方面的手形手势识别方法，其特征在于，检出步骤包括以下步骤：

从所输入的手势动作图像的各个图像当中分别截取作为候选手区域的区域的截取步骤；

存储屏蔽区域以便从矩形区域当中取出为候选手图像的区域的存储步骤；

从手势动作图像当中截取的候选手区域这一区域，增加屏蔽区域，接下来分别生成与计算本征向量时所用的手图像为同类图像形态那样经过归一化的图像的归一化步骤；

将候选手区域的区域经归一化的图像投影至以本征向量为基底的本征空间，分别求得该本征空间内投影座标的投影步骤；

分别比较投影座标和统计信息，求得最为接近的群集，分别输出一评价值以表明规定该群集的符号和比较对象群集之间接近度的判别步骤；以及

根据评价值，输出评价值最高的候选手区域其位置信息和其群集的确定步骤。

如上所述，按照第二十一和第二十二方面，在第十九、第二十方面中检出手区域时将手区域候选区域投影至本征空间，通过求得相应群集来检出手区域。因此，检出手区域的同时可以求得该手区域的相应群集，因而能够将手区域和手形手势识别，或者将手区域和手势动作识别处理综合成为一项处理。

第二十三至第二十五方面为从属于第十四、第十五、第十九方面的手形手势识别方法，其特征在于，第一归一化步骤和第二归一化步骤分别包括以下步骤：

预先按色分布存储所输入的手图像中应提取的手区域的色存储步骤；

按照色分布，从所输入的手图像当中提取手区域的步骤；

求得手腕方向，按照该手腕方向从手区域当中消除手腕区域的步骤；

使消除手腕区域的手区域移动至图像上预先定义的位置的步骤；

求得旋转角使手区域内的手朝向预定的一定方向的步骤；

按照旋转角，旋转手区域使手朝向一定方向的步骤；以及

将旋转的手区域的大小归一化为预定的一定大小的步骤。

如上所述，按照第二十三至第二十五方面，在第十四、第十五、第十九方面中对手图像归一化时，不仅消除手腕区域，还按肤色提取手区域。因此，可以从通常自然背景下摄像得到的手图像当中提取手区域，进而能够正确识别手形和手势。

第二十六方面为从属于第十四方面的手形手势识别方法，其特征在于，还包括：

分别存储形状信息和姿势信息所对应的命令的命令存储步骤；以及

将输出步骤所输出的形状信息和姿势信息输入，从命令存储步骤取得并输出该形状信息和该姿势信息所对应的命令的步骤。

如上所述，按照第二十六方面，可以使第十四方面的方法起到一控制界面的作用，以按照所求得的手形和手势对其他设备进行控制。

第二十七方面为一种记录媒体，所记录的程序用以在计算机装置中执行对光学读取手段所取得的手的图像进行手形和手势识别的方法，其特征在于，所记录的程序用以在计算机装置上实现一工作环境，它包括下列步骤：

输出最为接近的手形图像的形状信息和姿势信息的步骤。

第二十八方面为一种记录媒体，所记录的程序用以在计算机装置中执行对光学读取手段所取得的手的图像进行手形和手势识别的方法，其特征在于，所记录的程序用以在计算机装置上实现一工作环境，它包括下列步骤：

输出最为接近的手形图像的形状信息和姿势信息的步骤。

第二十九方面为从属于第二十八方面的记录媒体，其特征在于，比较步骤包括下列步骤：

求得表现分组的统计量的步骤；以及

第三十方面为从属于第二十八方面的记录媒体，其特征在于，分析步骤根据针对各群集的手形图像和形状信息，分别计算用以判别各手形图像的部分区域，

第三十一方面为从属于第二十八方面的记录媒体，其特征在于，输入手图像为从多个视点对识别对象手进行摄像得到的多个图像时，

第二归一化步骤分别就多个输入手图像生成输入手形图像，

第二投影步骤对于第二归一化步骤生成的多个输入手形图像，分别求得本征空间内的投影座标，

第三十二方面为一种记录媒体，所记录的程序用以在计算机装置中执行对光学读取手段所取得的进行一连串有含义动作的连续手图像进行手形和手势识别的方法，其特征在于，所记录的程序用以在计算机装置上实现一工作环境，它包括下列步骤：

在检出的手区域中分别求得手势动作图像的手活动，按照手活动求得手动作分节节点的分节步骤；

将所判别的手图像序列对应的符号序列与该手图像序列之源的手势动作图像的含义一起存储的步骤；以及

第三十三方面为从属于第三十二方面的记录媒体，其特征在于，还包括：

第三十四和第三十五方面为从属于第三十二、第三十三方面的记录媒体，其特征在于，检出步骤包括以下步骤：

第三十六至第三十八方面为从属于第二十七、第二十八、第三十二方面的记录媒体，其特征在于，第一归一化步骤和第二归一化步骤分别包括以下步骤：

按照色分布，从所输入的手图像当中提取手区域的步骤；

求得旋转角使手区域内的手朝向预定的一定方向的步骤；

按照旋转角，旋转手区域使手朝向一定方向的步骤；以及

将旋转的手区域的大小归一化为预定的一定大小的步骤。

第三十九方面为从属于第三十方面的记录媒体，其特征在于，还包括：

综上所述，第二十七至第三十九方面，为记录用以执行上述第十四至第二十六方面手形手势识别方法的程序的记录媒体。对于现有装置，这适应用软件形式提供上述第十四至第二十六方面的手形手势识别方法。

附图简要说明

图1是表示本发明第一实施例手形手势识别装置构成的框图。

图2是图1中手图像归一化部11所进行处理的概要说明图。

图3示出的是一例图1中手形图像信息存储部12A所具有的存储表。

图4是一例在本征空间计算部13中求本征空间的方法的概要说明图。

图5是图1中本征空间投影部15所进行处理的概要说明图。

图6示出的是一例用以实现本发明第一实施例手形手势识别装置的硬件构成。

图7示出的是一例在存储针对形状信息和姿势信息的命令的命令存储部中存储针对音频设备的命令的情形。

图8是表示本发明第二实施例手形手势识别装置构成的框图。

图9示出的是一例图8中手形图像信息存储部12B所具有的存储表。

图10是示出一例图8中群集分析部16所进行处理的流程图。

图11示出的是一例图8中图像比较部26所进行的比较方法的概念。

图12是表示本发明第三实施例手形手势识别装置构成的框图。

图13示出的是一例由图8中群集分析部16分类为同一分组的近似图像。

图14示出的是一例图12中群集分析/框判别部18所进行的处理概念。

图15是本发明第四实施例手形手势识别装置一例根据多台摄像机的输入手图像求得手形图像这一概念的说明图。

图16是表示本发明第五实施例手形手势识别装置构成的框图。

图17示出的是图16中手区域检出部28、手动作分节部29和手图像截取部30所进行的处理概念。

图18示出的是一例图16中手图像序列和根据该手图像序列求得的群集序列。

图19示出的是一例图16中序列识别词典32所具有的存储形式。

图20示出的是一例图16中序列识别词典32所具有的存储形式。

图21是表示本发明第六实施例手形手势识别装置构成的框图。

图22示出的是一例图21中手形图像信息存储部12C所具有的存储表。

图23是一例手势定义方法的概要说明图。

图24是表示本发明第七实施例手形手势识别装置构成的框图。

图25是表示本发明第八实施例手形手势识别装置其手区域检出部具体构成的框图。

图26示出的是一例图25中候选区域截取部39的处理。

图27示出的是图25中图像归一化部41的处理概要。

图28示出的是一例图25中屏蔽区域存储部40所存储的屏蔽区域。

图29是表示本发明第九实施例手形手势识别装置其手区域检出部具体构成的框图。

图30示出的是一例图29中群集变迁信息存储部43所存储的群集变迁信息。

图31示出的是一例图29中屏蔽区域存储部45所存储的屏蔽区域。

图32是表示本发明第十实施例手形手势识别装置其手图像归一化部11、12更具体构成的框图。

图33示出的是一例图32中色分布存储部61所具有的存储表结构。

图34是图32中旋转角计算部65所进行处理的概要说明图。

图35是一例图32中手指特征强化部68所进行处理的说明图。

图36示出的是本发明第十一实施例手形手势识别装置中一例根据多台摄像机的输入手图像求得手方向进行归一化的概念。

图37是一例手势定义方法的概要说明图。

较佳实施例的说明

在说明本发明各实施例之前，下面先就说明过程中用到的“手形”和“手势”这类用语进行定义。

人们按手势或手语等让手具有某些含义进行提示时，包含由手指与手掌的关节曲角所确定的手形态(例如“石头(グ-)”、“剪刀(チヨキ)”、“布(パ-)”等)；以及手腕和腕关节所确定的手方向(例如手指指示方向等)这2种含义。因此，本发明各实施例说明中，将手指与手掌的关节曲角所确定的手形态称为“手形”，手腕和腕关节所确定的手方向称为“手势”。

这里，严格定义手势时，可按例如图37那样定义。

首先，在具有表示某种形状的手的3维空间中，定义一局部座标系i，以手的手腕剖面中心延伸至中指尖端中心的方向为Xi轴(掌主轴)，以与Xi轴正交并相对于手平面垂直的方向为Yi轴，以与Xi轴和Yi轴两者正交的方向为Zi轴(图37(a))。另一方面预先设定摄像机中摄取手图像进行投影的摄像机座标系c(Xc轴、Yc轴、Zc轴；另外各轴相互正交)(图37(b))。另外，下面将摄像机座标系c中Zc轴表现为光轴。

而且，对于摄像机座标系c上投影的手图像，将手局部座标系i各轴和摄像机座标系c各轴之间的差定义如下(图37(c))：

θ：以Xc轴为中心的旋转角度

φ：Xc轴-Zc轴平面上的旋转角度

Ψ：Xc轴-Yc轴平面上的旋转角度

利用这些旋转角度θ、φ、Ψ定义手势。

另外，手势的表现能够这样严格定义，但例如也能利用“相对于摄像机朝向正面、相对于摄像机朝向左面”等定性表现来定义手平面相对于摄像机如何倾斜。本发明无论哪一种情形都能适应，下面所示各实施例中为了清楚和便于说明，举例说明用定性表现定义姿势的情形。

下面参照附图具体说明本发明各实施例。

(第一实施例)

本发明第一实施例提供的是，依据本征空间法对具有预先存储的种种手形和手势的多个图像和作为所输入的识别对象的手图像进行识别时，通过从所准备的手图像当中消除手腕区域进行归一化，对形状更为复杂的手图像也进行手形和手势识别的装置和方法。

图1是示意本发明第一实施例手形手势识别装置构成的框图。图1中，第一实施例的手形手势识别装置由存储部架构体系1和姿势·形状识别体系2构成。

存储部架构体系1预先架构根据显示种种手形和手势的多个手形图像及其形状信息和姿势信息进行识别所需的信息。姿势·形状识别体系2对所输入的为识别对象的手的图像(以下称为输入手图像)，利用存储部架构体系1所架构的存储部存储的信息求得该输入手图像的手形和手势。

先分别说明存储部架构体系1和姿势·形状识别体系2的各个构成。图1中，存储部架构体系1包括：手图像归一化部11、手形图像信息存储部12A、本征空间计算部13、本征向量存储部14以及本征空间投影部15。姿势·形状识别体系2包括：手图像归一化部21、本征空间投影部22、手形图像选择部23以及形状·姿势输出部24。

手图像归一化部11，输入具有种种手形和手势的多个手图像，分别生成该手图像消除手腕区域并实行预定的归一化的手形图像。手形图像信息存储部12A将手图像归一化部11生成的多个手形图像与另外提供的该手形图像的形状信息和姿势信息、将手形图像投影到本征空间的本征空间投影座标一起分别存储。本征空间计算部13根据手形图像信息存储部12A存储的手形图像进行本征空间法解析，求得本征值和本征向量。这里，对于本征空间计算部13进行的本征空间解析方法，可考虑例如根据手形图像信息存储部12A存储的手形图像进行主成分分析求得本征空间的方法，根据手形图像信息存储部12A存储的手形图像和形状信息进行判别分析、再根据其分析结果求得手形判别空间的方法等各种方法，第一实施例中用前面的方法说明以下动作。本征向量存储部14存储本征空间计算部13求得的本征向量。本征空间投影部15将手形图像信息存储部12A存储的手形图像投影到以本征向量存储部14存储的本征向量为基底的本征空间，求得该本征空间内的投影座标，存储于手形图像信息存储部12A。

手图像归一化部21将输入手图像输入，生成从该输入手图像当中消除手腕区域并实行预定的归一化使得该输入图像与手形图像信息存储部12A预先存储的手形图像为同等的输入手形图像。本征空间投影部22将手图像归一化部21生成的输入手形图像投影到以本征向量存储部14存储的本征向量为基底的本征空间，求得该本征空间内的投影座标。手形图像选择部23比较本征空间投影部22求得的投影座标和手形图像信息存储部12A预先存储的本征空间投影座标，求得与输入手形图像最为接近的手形图像。形状·姿势输出部24输出手形图像选择部23求得的最为接近的手形图像的形状信息和姿势信息。

接着，利用图2～图5按处理顺序说明第一实施例手形手势识别装置进行的手形/手势识别方法。图2是图1中手图像归一化部11所进行处理的概要说明图。图3示出的是图1中手形图像信息存储部12A所具有的一例存储表。图4是图1中本征空间计算部13中一例求得本征空间的方法的概要说明图。另外，图4中记载为一例用上述主成分分析办法的情形。图5是图1中本征空间投影部15中求得本征空间投影座标的办法的概要说明图。

首先说明存储部架构体系1所进行的处理。

存储部架构体系1如上所述，用具有种种手形和手势的多个手图像，预先架构用来与输入至姿势·形状识别体系2的输入手图像相比较的手形图像。这里，存储部架构体系1对手图像进行归一化，以求得对手形图像的本征空间。

参照图2，手图像归一化部11先根据所给的手图像求得手腕方向(图2(b))。接下来，手图像归一化部11从手腕一侧端部向手掌一侧沿手腕与背景之间的边界线拉一直线，求得与该直线距离达到预定的阈值以上的位置点作为手腕区域的终点(手腕截取点)(图2(c))。接着，手图像归一化部11从手图像当中消除一直到手腕截取点的手腕区域(图2(d))。接下来，手图像归一化部11从消除手腕区域的图像当中只取出手部分，并旋转使手腕—中指方向朝向某一一定方向(图2(e))。另外，本实施例中，其一定方向假定为正下方。接着，手图像归一化部11通过将经过旋转的手图像其大小和整体亮度归一化为预定值来生成手形图像(图2(f))，将表示该手形图像手指状态的形状信息(图2例子中有3根伸展手指)和表示手形图像手掌朝向的姿势信息(图2例子中手掌方向朝向后方)，存储于手形图像信息存储部12A。另外，图2例子中，采用的是用语言表现姿势信息的方式，但其他均用相对于光轴的角度来表现也行。手图像归一化部11对具有种种手形和手势的多个手图像分别进行上述归一化处理，并如图3所示将多个手形图像存储于手形图像信息存储部12A。另外，手形图像信息存储部12A中的本征空间投影座标，存储的是本征空间投影部15求得的结果，因而此时什么也不存储。

接下来，本征空间计算部13求得手形图像信息存储部12A存储的各个手形图像的本征空间。

参照图4，本征空间计算部13先求得手形图像信息存储部12A存储的全部手形图像的平均图像c(步骤S1)。接下来，本征空间计算部13就每一手形图像，对由手形图像减去平均图像c得到的图像进行光栅扫描，用1维向量表现(步骤S2)，求得将全部图像的1维向量排列成列向量的矩阵A(步骤S3)。接着，本征空间计算部13根据矩阵A求得图像集合的协方差矩阵Q(步骤S4)，求得该协方差矩阵Q的本征值和本征向量(步骤S5)。最后，本征空间计算部13求得以预先另行定义的k个大小本征值所对应的本征向量(e₁，e₂，…，e_k)为基底向量的本征空间(步骤S6)。

本征空间计算部13通过以上处理计算本征空间基底向量，并在本征向量存储部14中存储本征向量的集合。

接下来，本征空间投影部15对手形图像信息存储部12A存储的各个手形图像，求得将各个手形图像投影到本征空间得到的本征空间投影座标。

参照图5，本征空间投影部15就手形图像信息存储部12A存储的每一手形图像，对图像进行光栅扫描，求得1维向量，将该1维向量与本征向量存储部14存储的本征向量相乘求得本征空间投影座标。而且，本征空间投影部15将这样求得的各本征空间投影座标分别存储于手形图像信息存储部12A。

通过以上处理，存储部架构体系1中预先进行的处理结束，手形图像信息存储部12A和本征向量存储部14A存储有全部信息。

接着说明姿势·形状识别体系2进行的处理。

为识别对象的输入手图像，输入至手图像归一化部21。手图像归一化部21对输入手图像，生成按照与手图像归一化部11相同办法归一化的输入手形图像。本征空间投影部22对手图像归一化部21生成的输入手形图像，与本征空间投影部15相同，利用本征向量存储部14存储的本征向量求得本征空间投影座标。接着，手形图像选择部23分别求得与本征空间投影部22求得的输入手形图像有关的本征空间投影座标同手形图像信息存储部12A预先存储的各手形图像其本征空间投影座标之间的距离(例如欧几里德距离)，求得与输入手形图像最为接近的手形图像。接下来，形状·姿势输出部24输出所求得的最为接近的手形图像的形状信息和姿势信息。

以上结果，可同时求得输入手图像的手形和手势。

另外，在典型的硬件环境中，上述第一实施例的手形手势识别装置可由存储规定程序数据的存储装置(ROM、RAM、硬盘等)和CPU(中央处理单元)以及输入输出装置所构成。图6示出一例实现本第一实施例手形手势识别装置的硬件构成。

图6中，存储装置50例如是硬盘等，具有手形图像信息存储部12A和本征向量存储部14这种功能。CPU51是控制各部分动作的中央运算装置。存储器52在各部分动作时暂时保存数据。图像输入装置53例如为视频俘获卡，输入作为识别对象的输入手图像。输入装置54输入具有种种手形和手势的多个手形图像及其形状信息和姿势信息。输出装置55则输出表示所识别的手形和手势的数据。可通过采取这些硬件构成来实现第一实施例的手形手势识别装置。另外，这种场合第一实施例手形手势识别装置所进行的各项处理，可按独立的程序数据形式提供。该程序数据也可以通过CD-ROM或软盘等记录媒体导入。

而且，将上述第一实施例手形手势识别装置用作其他设备界面时，还可以增加具有以下功能的构成。这种构成是指存储针对形状信息和姿势信息的命令的命令存储部和输出该命令的命令输出部。命令存储部存储的是例如图7所示的给形状信息和姿势信息所对应的其他设备的命令。图7示出一例存储针对音频设备的命令的情形。而且，命令输出部按照形状·姿势输出部24求得的形状信息·姿势信息，从命令存储部将形状信息·姿势信息所对应的命令输出给其他设备。例如，图7中形状·姿势输出部24求得“伸展5根手指”这一形状信息和“全姿势”这一姿势信息时，命令输出部便输出“启动”音频设备的命令。这样，便能够将上述第一实施例的手形手势识别装置用作其他设备的界面。

如上所述，利用本发明第一实施例的手形手势识别装置和识别方法的话，便从具有种种手形和手势的多个手图像和作为识别对象的输入手图像两者当中消除手腕区域，因而与单纯对大小和亮度进行归一化相比，可以对手图像进行更精细的归一化。因此，即便将基于本征空间的办法用于手形和手势识别，也能够获得精度足够高的结果。

此外还考虑到，比较多个手形图像和输入手形图像时，对全部手形图像进行比对的话，图像数目较为庞大。但如本第一实施例那样，通过对手图像归一化并投影至本征空间内预先求得其投影座标，在其本征空间内比较输入手形图像，与比较图像本身相比，可以减少计算量，进行高速处理。因此，象显示种种手形和手势的多幅手形图像那样考虑庞大数量的手形图像时，为非常实用的办法。

另外，上述第一实施例中假定，存储实际手图像作为具有种种手形和手势的多幅手形图像，但还考虑由于某些原因无法摄取多个视点图像的场合。例如识别手形时，手采取种种姿势，因而需要预先准备按种种手势提示的手图像。将实际的手放在转台上进行摄像是不可能的，而且命令时要保持人所具有的姿势，对其姿势摄像时，对人们所展示姿势的精度来说有限制，因而实际考虑需要准备在包围手的形式下进行摄像的特殊器材。因此，通过预先准备手模型作为CAD或CG等用到的三维模型，存储该模型的多个视点投影像，可以定义更高精度的手形图像和此时手形手势之间的关系。而且，用人体模型等所用的那种实际手模型等，也能够进行同样的定义。另外，本第一实施例中，不论准备三维模型投影像还是准备实际手图像，均能够利用完全相同的构成和方法来实现。

而且，上述第一实施例基本上是输出一种手形手势的，但由于图像分辨率等关系、而无法区别格外近似等场合，有时不会集中为一种。此时，还可考虑输出多个候选手形和候选手势。此时，也能够利用与上述第一实施例完全相同的构成和方法来实现。此外，上述第一实施例对手形图像和输入手形图像两者均假定是浓淡图像，但这些图像无论是轮廓图像还是彩色图像，均能够利用与上述第一实施例完全相同的构成和方法来实现。

(第二实施例)

一般对给定手形和手势的多幅手图像进行分类时，可考虑按手形或按手势分类。但为手图像时可考虑“手形不同但近似的图像(例如横向观察伸出1根或2根手指形状的情形)”、“手势不同但近似的图像(例如握着的形状)”。因此，若按照手形或手势分类，大多数时候是不适合识别手形和手势场合的。

因此，本发明第二实施例提供一种装置和方法，在基于上述第一实施例中说明的本征空间法的手形手势识别装置和方法中，靠群集分析将手形图像信息存储部12A存储的全部手形图像的本征空间投影座标自动分组，提供作为识别对象的输入手图像时，通过先求得属于哪一分组，再求得与该分组内的哪一手形图像接近，来减少比较次数进行高速处理。

图8是表示本发明第二实施例手形手势识别装置构成的框图。图8中，第二实施例的手形手势识别装置与上述第一实施例的手形手势识别装置相同，由存储部架构体系1和姿势·形状识别体系2所构成。

图8中，存储部架构体系1包括手图像归一化部11，手形图像信息存储部12B，本征空间计算部13，本征向量存储部14，本征空间投影部15，群集分析部16和群集信息存储部17A。姿势·形状识别体系2包括手图像归一化部21，本征空间投影部22，最近似群集判别部25，图像比较部26和形状·姿势输出部24。

如图8所示，第二实施例的手形手势识别装置，与上述第一实施例的手形手势识别装置相比，存储部架构体系1为用手形图像信息存储部12B替代手形图像信息存储部12A，再增加群集分析部16和群集信息存储部17A的构成，姿势·形状识别体系2为用最近似群集判别部25和图像比较部26替代手形图像选择部23的构成。

另外，第二实施例手形手势识别装置中的其他构成，与上述第一实施例手形手势识别装置的构成相同，对该构成加上相同标号，并省略其说明。

首先，围绕与上述第一实施例不同的部分说明第二实施例中存储部架构体系1和姿势·形状识别体系2各自构成。

手形图像信息存储部12B将手图像归一化部11生成的多个手形图像与其形状信息和姿势信息以及手形图像投影至本征空间的本征空间投影座标一起分别存储。这里，手形图像信息存储部12B与上述第一实施例中说明的手形图像信息存储部12A不同，存储的是对多个手形图像自动群集化时的群集索引(以下称为群集ID)。群集分析部16靠群集分析使手形图像信息存储部12B存储的本征空间投影座标实现群集化，求得各手形图像属于哪一群集，在手形图像信息存储部12B中存储定义群集的群集ID，同时求得与各群集有关的统计信息。群集信息存储部17A存储的是群集分析部16所求得的群集ID和统计信息。

最近似群集判别部25取得在本征空间投影部22所求得的本征空间投影座标中具有最为接近的投影座标的群集。图像比较部26从属于最近似群集判别部25所取得群集的、手形图像信息存储部12B存储的手形图像当中，求得与手图像归一化部21生成的输入手形图像最为接近的手形图像。

接着，用图9至图11按处理顺序说明第二实施例手形手势识别装置所进行的手形/手势识别方法。图9示出的是一例图8中手形图像信息存储部12B具有的存储表。图10是表示一例图8中群集分析部16所进行的处理步骤的流程图。另外，图10中举例说明用群集分析之一方法的ISODATA法的情形。图11示出的是一例图8中图像比较部26所进行的比较方法的概念。另外，图11中举例说明用单纯的图案比对的比较方法的情形。

先说明存储部架构体系1所进行的处理。

手图像归一化部11与上述第一实施例相同，通过从给出种种姿势的多个手图像当中消除手腕区域进行归一化，分别生成手形图像，如图9所示，在手形图像信息存储部12B中存储多个手形图像、形状信息和姿势信息。另外，对于手形图像信息存储部12B中本征空间投影座标和群集ID来说，存储的是由本征空间投影部15和群集分析部16所求得的投影座标和群集ID，因而此时什么也没有存储。

接着，本征空间计算部13、本征向量存储部14和本征空间投影部15与上述第一实施例相同，基于本征空间法求得本征空间，将手形图像信息存储部12B存储的手形图像投影至本征空间，在手形图像信息存储部12B中分别存储靠投影求得的本征空间投影座标。

接下来，群集分析部16对手形图像信息存储部12B存储的本征空间投影座标进行群集分析，并进行分组使手形图像接近的本征空间投影座标分类为同一组。这种群集分析部16所进行的群集分析方法有单纯的重置法(k-平均法)和ISODATA法等种种方法，这里举例说明一例基于ISODATA法的群集化方法。

ISODATA法为非分层群集化中代表性方法，除了基于重置法的群集化以外，由群集分割和综合手续组成。

参照图10，群集分析部16先设定初始参数(步骤S101)。就初始参数来说，具有例如所说的最终群集数、重置收敛条件、微群集·孤立数据的判定条件、分裂·融合分支条件、重复计算的结束条件。接着，群集分析部16确定初始群集的中心(步骤S102)。该初始群集可以对手形图像投影座标集合，适当选择确定以初始群集为中心的图像来替代。

接下来，群集分析部16靠重置法进行群集化。群集分析部16先计算本征空间内各手形图像和群集之间的距离，将各个图像配置于距离最小的群集(步骤S103)。接着，群集分析部16按照重置的图像的本征空间投影座标，再次计算各群集的中心(步骤S104)。接下来，群集分析部16判断所属群集改变的图像数是否低于预先确定的阈值(收敛)(步骤S105)。该步骤S105的判断中，若所属群集改变的图像数低于某一阈值的话，群集分析部16便结束基于重置法的群集化处理，否则返回上述步骤S103重复处理。

上述步骤S105判断中，判定收敛时，群集分析部16便将个体数目明显较少的群集和明显偏离其他个体的个体从以后群集化当中除外(步骤S106)。接着，群集分析部16判断群集数是否处于以最终群集数为中心的一定范围内，群集中心间距最小值是否低于预先确定的阈值(步骤S107)。该步骤S107判断中，群集中心间距最小值低于预先确定的阈值时，群集分析部16便在群集信息存储部17A中存储各群集信息(群集ID、本征空间中群集的平均值、分散等统计信息)作为群集化是收敛的，在手形图像信息存储部12B中存储表明各手形图像属于哪一群集的群集ID(步骤S108)。而上述步骤S107判断中，群集中心间距最小值不低于预先确定的阈值时，群集分析部16对群集进行分裂或融合(步骤S109)。该步骤S109中，当群集数相对最终群集大得超过一定范围时，群集分析部16便对群集进行分裂，而小得超过一定范围时则进行融合。群集数处于一定范围时，便重复次数为偶数时进行融合，而为奇数时则进行分裂。

群集分析部16在群集融合中，群集中心间距的最小值一旦低于预先确定的阈值，便将该群集对融合求得新的群集中心。接着，群集分析部16再度计算中心间距，继续融合直到最小值超过阈值为止。

而群集分析部16在群集分裂中，群集分散的最大值一旦高于预先确定的阈值，便将该群集按第一主成分一分为二，计算新的群集中心和分散。重复分裂直到分散的最大值低于阈值为止。

接着，上述步骤S109的分裂或融合一旦结束，群集分析部16就再度返回步骤S103重复处理。

通过进行上述处理，群集分析便结束，在群集信息存储部17A中存储为各群集信息的群集ID、本征空间中群集的平均值、分散等统计信息，在手形图像信息存储部12B中存储表明各手形图像属于哪一群集的群集ID。另外，对上述参数还可考虑根据试验等随时选择最佳参数，但除此以外，还能够按照某种信息量基准(例如AIC、MDL等)，指定最终群集数、群集的分割·综合基准。另外，本实施例中说明的是基于ISODATA法的群集分析，但即便是单纯的基于重置法的群集分析，通过适当设定阈值等参数也达到与ISODATA法相同的效果。

通过以上处理，存储部架构体系1预先所进行的处理便结束，手形图像信息存储部12B、本征向量存储部14和群集信息存储部17A存储全部信息。

接下来说明姿势·形状识别体系2所进行的处理。

为识别对象的输入手图像输入至手图像归一化部21。手图像归一化部21和本征空间投影部22与上述第一实施例相同，求得归一化的输入手形图像和本征空间投影座标。最近似群集判别部25求得本征空间投影部22所求得的本征空间投影座标和群集信息存储部17A所存储的群集信息之间距离，求得与输入手形图像最为接近的手形图像属于的群集。另外，对于求得最为接近的群集的方法来说，可考虑基于各群集平均的欧几里德距离的方法，基于各群集的马哈拉诺微丝(マハラノビス)距离的方法，靠最近似法求得与各群集近似度并将近似度最高的群集当作较近群集的方法等，但这里举例说明靠最近似法求最近群集的方法。

最近似群集判别部25根据属于群集信息存储部17A中群集的图像的本征空间投影座标u求得平均μ成为群集中心座标，作为群集的统计信息。此外，最近似群集判别部25根据各图像的本征空间投影座标u和群集中心座标求得协方差矩阵∑，由这些数值按照下面式(4)定义与群集i有关的近似度函数G_i(u)。另外，下面式(4)中x²表示图像的本征空间投影座标u和群集i之间的马哈拉诺维丝距离。

G_i(u)＝-(1/2)ln|∑_i|-(1/2)x²(u；μ_i，∑_i) (4)

可根据该近似度函数G_i(u)求得近似度最高的群集。

另外，除此以外的上述方法(基于欧几里德距离的方法、基于马哈拉诺维丝距离的方法)当中，在所登录的形状数较少的场合下可以达到相同效果。

接着，图像比较部26参照手形图像信息存储部12B存储的群集ID，将仅仅是属于最近似群集判别部25所求得群集的手形图像与手图像归一化部21生成的输入手形图像相比较，求得与输入手形图像最为接近的手形图像。另外，图像比较部26中所进行的输入手形图像和手形图像之间的比较方法可有各种考虑，但用例如单纯的图像比对方法来比较即可。接着，形状·姿势输出部24输出图像比较部26所求得的手形图像的形状信息和姿势信息。

综上所述，按照本发明第二实施例手形手势识别装置和识别方法，存储部架构体系1中靠本征空间内的群集分析使手形图像信息存储部12B存储的多个手形图像分组，姿势·形状识别体系2在识别输入手图像时，首先求得最初属于哪一分组，接着求得与该分组内哪一手形图像最为接近，可以减少图像比较次数，此外还能够高速处理。

而在本征空间内分组时，不是按手形或按手势这样分组，而是群集为在本征空间内接近的图像即近似的图像为同一分组，因而即便存在形状不同但近似的图像的场合，也能够正确地求得其手形和手势。

另外，上述第二实施例中假定存储实际手图像作为给出种种手形和手势的多个手形图像，但与上述第一实施例相同，也可考虑预先准备手模型作为CAD或CG等所用到的三维模型，存储该模型的多个视点的投影像。此时，可以高精度地定义取得投影像时模型的手势。而且，即便采用人体模型等所用的那种实际的手模型，也能够同样定义。

此外，上述第二实施例基本上只输出1种手形手势，但由于图像分辨率等关系，在没有区别格外近似等情况下，很可能无法集中为1种。此时，也可考虑输出多个候选手形和候选手势。这时，也能利用与上述第二实施例完全相同的构成和方法来实现。此外，上述第二实施例为了对近似图像分类而采用图像比较部26，但也很可能有的足以根据情形输出至手形为止。这时，也可通过按属于群集的手形根据平均图像或分散图像等统计量求得手形图像，并比较这些图像和输入手形图像，只求得手形。而且利用硬件实现第二实施例手形手势识别装置时，用与上述图6中所示的相同构成即可。

而且，上述第二实施例手形手势识别装置的图像比较部26也可替换为具有如下组成部分的构成，包括：将属于最近似群集判别部25求得的群集的、手形图像信息存储部12B存储的手形图像与手形图像归一化部21生成的输入手形图像比较时，按同一群集内同一手形对手形图像分组的同一形状分类部；求得表现分类的各个分组的统计量的形状分组统计量计算部；以及计算输入手形图像和形状分组统计量计算部求得的统计量之间距离，并输出属于最为接近分组的手形的最近似形状判别部。这样的话，便可以进一步减少图像比较次数，能够更加高速地处理。

(第三实施例)

如上述第二实施例所述，所分析的各群集中不是将按手形或手势分类的图像，而是将近似图像分类为同一群集。因而，例如图13所示的食指和中指这2根手指并排竖立的手图像同食指和中指这2根手指重叠竖立的手图像分类为同一群集。这种手形差异存在例如实际区分手语中手指文字的情形。判别这些手形时，不是象上述第二实施例所述那样判别图像整体差异，而需要仅仅提取不同部分进行判别。

这里，本发明第三实施例所提供的不是上述第二实施例中图像比较部26靠图案比对直接整体地比较输入手形图形和手形图像信息存储部12B存储的手形图像，而是预先求得各群集中的判别框，在该判别框内对手形进行判别的方法。

图12是示出本发明第三实施例手形手势识别装置构成的框图。图12中，第三实施例的手形手势识别装置，与上述第二实施例的手形手势识别装置相同，由存储部架构体系1和姿势·形状识别体系2构成。

图12中，存储部架构体系1包括手图像归一化部11、手形图像信息存储部12B、本征空间计算部13、本征向量存储部14、本征空间投影部15、群集分析/框判别部18以及群集信息存储部17B。姿势·形状识别体系2包括手图像归一化部21、本征空间投影部22、最近似群集判别部25、图像比较部27以及形状·姿势输出部24。

如图12所示，第三实施例的手形手势识别装置与上述第二实施例的手形手势识别装置相比，为存储部架构体系1中群集分析部16用群集分析/框判别部18替代，群集信息存储部17A用群集信息存储部17B替代，姿势·形状识别体系2中图像比较部26用图像比较部27替代的构成。

另外，第三实施例手形手势识别装置中其他构成与上述第二实施例手形手势识别装置的构成相同，对该构成加上相同标号，并省略其说明。

下面参照图12和图14，围绕与上述第二实施例不同的部分说明第三实施例中存储部架构体系1和姿势·形状识别体系2各自的构成和处理动作。图14示出的是一例图12中群集分析/框判别部18所进行的形状判别框位置的算法。

群集分析/框判别部18先对手形图像信息存储部12B存储的本征空间投影座标进行群集分析，对手形图像相近的进行分组，使之分类为同一分组。这种处理与上述第一实施例中说明的群集分析部16相同。

接着，群集分析/框判别部18对各群集计算出形状判别框的位置。参照图14，群集分析/框判别部18先提取1个群集内存在的同一手形的多个手形图像并取平均，再求得各个手形的平均图像。接着，群集分析/框判别部18利用预先确定的一定的框(框的形状可任意确定。另外，图14中用的是方框)，使框在各自的平均图像上移动，同时依次求得框内两者平均图像间之差，将最大差值的位置设定为形状判别框的位置。接下来，群集分析/框判别部18在群集信息存储部17B中存储这样求得的形状判别框的位置。

图像比较部27先参照手形图像信息存储部12B存储的群集ID，取得仅仅是属于最近似群集判别部25所求得群集的手形图像和手图像归一化部21生成的输入手形图像。而图像比较部27从群集信息存储部17B则取得最近似群集判别部25所求得的群集对应的形状判别框的位置。接着，图像比较部27仅在形状判别框的位置内比较所取得的手形图像和输入手形图像，求得与输入手形图像最为接近的手形图像。

综上所述，按照本发明第三实施例的手形手势识别装置和识别方法，预先确定形状判别框位置，仅在该形状判别框内比较手形图像和输入手形图像。因此，与上述第二实施例相比，可以减少图像比较次数，能够更加高速地进行正确处理。

(第四实施例)

本发明第四实施例所提供的是，与上述第二实施例中根据最近似群集判别部25求得的群集求手形和手势时靠图像比较部26直接比较手形图像信息存储部12B存储的手形图像和输入手形图像有所不同，通过用多台摄像机从多个视点对给出某一手形手势的手进行摄像，根据各个摄像机摄取的手图像综合最近似群集判别部25求得群集中的形状信息，来求得手形和手势的方法。

另外，本发明第四实施例手形手势识别装置其构成与上述第二实施例手形手势识别装置的构成相同，因而省略附图。而参照图8和图15，围绕与上述第二实施例不同的部分说明第四实施例的姿势·形状识别体系2的各个构成和处理动作。图15是本发明第四实施例手形手势识别装置中一例根据多台摄像机输入手图像求得手形图像的概念说明图。另外，图15中举例说明一例利用3台摄像机的场合。

首先，作为前提，如图15所示利用3台摄像机从不同的3个方向对给出某一手形手势的手进行摄像，获得3幅输入手图像。从该3个方向摄取的3幅输入手图像，由手图像归一化部21、本征空间投影部22和最近似群集判别部25分别处理，并分别求出相应的最为接近的群集。为此，图像比较部26根据3台摄像机获得的3个群集和属于该3个群集的3幅手形图像的形状信息和姿势信息，按照以下条件(1)、(2)求得对于3幅输入手图像来说最为接近的手形图像。

(1)为同一手形

(2)摄像机的位置关系和姿势不矛盾

具体来说，图像比较部26首先按照上述条件(1)，在属于3个群集的手形当中提取属于全部群集的手形(图15所示例子中，为伸展1根手指)。接着，图像比较部26按照上述条件(2)，根据分别提取的手形所对应的手势，按照各摄像机的位置关系导出(综合)不矛盾的手形图像。图15所示例子中，第一摄像机选取的是手左侧图像时，第二摄像机选取手掌向下图像，而第三摄像机选取手朝向前方的图像的话，便没有矛盾。

可通过进行上述处理，按照各个摄像机的输入手图像，选择最符合条件的手形图像，对作为识别对象的输入手图像导出手形和手势。

综上所述，按照本发明第四实施例的手形手势识别装置和识别方法，基于根据多个摄像机的输入手图像所求得的群集，利用摄像机位置关系综合属于各群集的手形图像的形状信息和姿势信息，求得输入手图像的手形和手势。因此，仅仅依据1个方向的图像无法确定手形和手势时(例如横向手图像等)，也能够正确求得手形和手势。

另外，上述第四实施例中说明为，对于根据各摄像机图像求得的群集加以综合使之完全不矛盾，但也可根据各摄像机的结果，通过按多数票表决等选择部分摄像机的群集，来输出可能性最高的手形和手势。而且，上述第四实施例说明的是一例用3台摄像机的情形，但用其他数目的多台摄像机，也可与上面所述一样实施。

(第五实施例)

上述第二实施例中，是以识别对象手图像为静止图像(例如仅伸出1根食指只表达数字“1”的场合)这一情况为前提，来说明输出与输入手图像相应的手形和手势的手形手势识别装置。但手势和手语等进行的手势动作，有时利用作为活动图像的一系列动作的结束来表达1种含义(例如有告知他人去向时常用的伸出1根食指并改变手指指示方向的那种情形)。对于这种活动图像的手势动作，上述第二实施例的手形手势识别装置无法求得手势动作的含义。

因此，本发明第五实施例的手形手势识别装置所提供的是，适应识别对象的手图像为对进行一系列具有含义的手势动作的手摄取的活动图像(以下称为手势动作图像)这种情形，对种种手势动作提取各自特征点并预先与其含义一起存储，通过比较所输入的手势动作图像特征点和所存储的特征点来求得手势动作含义的方法。

下面第五实施例的说明假定所输入的手势动作图像对打手势的人物的上半身或全身摄像。另外，对于人物摄像的方向来说，可考虑正面、斜上、横向等种种方向，但第五实施例中对于从其中任一方向摄取的图像，均能够达到有益的效果。

图16是表示本发明第五实施例手形手势识别装置构成的框图。图16中，第五实施例的手形手势识别装置与上述第二实施例的手形手势识别装置相同，由存储部架构体系1和姿势·形状识别体系2所构成。

图16中，存储部架构体系1包括手图像归一化部11、本征向量存储部14、本征空间计算部13、手形图像信息存储部12B、本征空间投影部15、群集信息存储部17A和群集分析部16。而姿势·形状识别体系2包括手区域检出部28、手动作分节部29、手图像截取部30、手图像归一化部21、本征空间投影部22、最近似群集判别部25、识别运算部33A、序列登录部31、序列识别词典32和数据路径控制部34A。

如图16所示，第五实施例的手形手势识别装置与上述第二实施例的手形手势识别装置相比，为在姿势·形状识别体系2中在手图像归一化部21前一级增加手区域检出部28、手动作分节部29和手图像截取部30，并用序列登录部31、序列识别词典32、识别运算部33A和数据路径控制部34A替代图像比较部26的构成。

另外，第五实施例手形手势识别装置中的其他构成与上述第二实施例手形手势识别装置的构成相同，对该构成加上相同标号，并省略其说明。

这里，第五实施例中所说的存储部架构体系1，是指与上述第二实施例手形手势识别装置有关的存储部架构体系1，按存储部架构体系1一侧不包含序列识别词典32的形式构成。但第五实施例中用的“存储部架构体系1”和“姿势·形状识别体系2”这种体系名称，毕竟只是为了表明与上述第二实施例的连续性，因而在此指出，对于实际的内部处理，例如在姿势·形状识别体系2中制作词典(序列识别词典32)并不存在约束。

先围绕与上述第二实施例不同的部分说明第五实施例中姿势·形状识别体系2中的各个构成。

手区域检出部28输入手势动作图像，并从各个图像当中分别检出手区域。手动作分节部29根据手势动作图像求手形手势变化点，生成由1幅或2幅以上包含变化点的图像所构成的手势动作图像序列。手图像截取部30从动作分节部29生成的手势动作图像序列当中分别截取包含手的周边区域以生成手图像序列，输出至手图像归一化部21。序列登录部31登录手势动作图像(手势动作图像序列)时，将最近似群集判别部25输出的手图像序列所对应的群集序列与该手势动作图像的含义一起登录于序列识别词典32。序列识别词典32将序列登录部31输出的群集序列与相应提供的手势动作图像含义一起存储。识别运算部33A在识别手势动作图像时，通过比较最近似群集判别部25输出的群集序列和序列识别词典32登录的群集序列，来识别手势动作图像的含义。数据路径控制部34A对最近似群集判别部25输出的群集序列进行控制，以便登录时输出至序列登录部31，识别时输出至识别运算部33A。

接着，用图17至图20按处理顺序说明第五实施例手形手势识别装置所进行的识别方法。图17示出的是图16中手区域检出部28、手动作分节部29和手图像截取部30所进行处理的概念。图18示出的是一例根据图16中手图像序列和该手图像序列求得的群集序列。图19和图20示出的是图16中序列识别词典32所具有的一例存储形态。另外，图19中示出的是单纯数据表形式的存储形态例，图20中示出的是基于隐含马尔可夫模型的存储形态例。

第五实施例中，存储部架构体系1进行与上述第二实施例手形手势识别装置相同的处理，因而这里省略说明。

姿势·形状识别体系2进行下述2个模式的处理。

1.登录模式(第一登录模式)

为将所输入的手势动作图像获得的群集序列和其含义一起登录至序列识别词典32中的模式。

2.识别模式

为基于所输入的手势动作图像获得的群集序列来识别其含义的模式。该识别模式，是上述第二实施例所进行的姿势·形状识别相应的处理，利用本征向量存储部14和群集信息存储部17A和序列识别词典32识别手势动作含义。

上述各个模式可通过向数据路径控制部34A输入选择哪一模式进行切换。下面按照各自模式依次说明。

先说明各个模式中共同进行的手区域检出部28、手动作分节部29、手图像截取部30和手图像归一化部21的动作。

多个图像构成的手势动作图像(图17(a))输入手区域检出部28。手区域检出部28对所输入的手势动作图像分别检出图像中手所在区域(手区域)。这里，假定所摄取的手势动作图像为容易从背景当中分离手区域的图像，单纯对图像取二进制值，并将具有接近于手区域面积的区域检出作为手区域。

手动作分节部29对于手区域检出部28输出的手势动作图像，求得对于手形手势较为关键的图像(以下称为关键帧)。这里所说的关键帧，是指人们可以识别手形手势的图像。通常为手势动作时，手活动期间由于余像等影响，人们无法识别手形手势。因此，手动作分节部29求手活动相对较小的图像(帧)，将该图像设定为关键帧。手动作分节部29所求得的1幅或2幅以上关键帧，作为手势动作图像序列(图17(b))输出至手图像截取部30。

另外，对于求上述相对手活动的方法来说，还可考虑例如求手区域检出部28所获得的手区域在手势动作图像中的位移量或手区域内部变动的方法，或是从手区域开始跟随手势动作图像中手的位置、并根据手的轨迹求手相对停顿的点(这当中还包含手动作轨迹当中曲率相对较大的帧)的方法，或是根据手势动作图像求时间微分图像，并根据该时间微分图像信息求得相对停顿点的方法。此外，还有将手势动作图像的全部图像当作关键帧的场合。

手图像截取部30从手动作分节部29求得的手势动作图像序列各关键帧当中分别截取手区域检出部28求得的手区域部分，生成包含手部位在内的手图像序列(图17(c)、图18(a))。构成该手图像序列的各个手图像为上述第二实施例中与所输入的手图像为同类图像。该手图像截取部30所生成的手图像序列输出至手图像归一化部21。

接着，手图像归一化部21、本征空间投影部22和最近似群集判别部25，对构成手图像序列的各个关键帧，进行上述第二实施例中说明的各项处理，分别求关键帧所对应的最为接近的群集，输出作为群集序列(图18(b))。

以上处理是作为各模式预处理部所共同进行，根据手势动作图像求相应的群集序列。

下面说明各模式个别的处理。

先说明登录模式的处理。

该登录模式中，最近似群集判别部25输出的群集序列将手势动作定义为带特征序列，并进行与手势动作所给出的含义一起登录(存储)于序列识别词典32这种处理。

登录模式中，数据路径控制部34A切换路径，以便最近似群集判别部25输出的群集序列输入至序列登录部31。

序列登录部31将最近似群集判别部25输入的群集序列与另外提供的该群集所对应的手势动作含义一起登录于序列识别词典32。对于序列识别词典32中登录数据时的存储形式来说，存在几种方法，但举例说明一例图19和图20情形下这2种存储形式。

图19对于最近似群集判别部25所获得的群集序列，是按原样将该群集序列与含义一起登录的例子。另外，如图19所示，之所以对1种含义存在多个群集序列，是因为即便为相同含义的手势动作，也随打手势的人在速度、形状等方面存在细微差异，对相同含义的手势动作可通过进行多次登录处理来生成。

图20是作为一例状态变迁模型按隐含马尔可夫模型(HMM)形式登录的例子。该隐含马尔可夫模型是指，为声音识别领域等所公知的技术，按1个状态变迁模型中综合的形式表示图19所示的那种对1个含义存在多个的群集序列。关于隐含马尔可夫模型的具体技术内容，记载于技术文献“中川著《确立模型的声音识别》korona公司，电子信息通信学会编”，图20以该文献为基准所绘制。另外，图20中，标量值表示至S1～S3的状态变迁几率，而向量值表示附加群集1～5状态变迁条件的输出几率。

另外，作为序列识别词典32的架构方法，一般是将从图像得到的手形和手势按原样登录。但这时，如上述第二实施例所述，手图像中有“手形不同但近似的图像”，“手势不同但近似的图像”，所以，象上述第三和第四实施例那样比较图像或采用多个摄像机图像的话，便容易发生误识别。

因此，第五实施例与这种方法不同，通过将观察的眼睛较近的图像作为同一群集的群集序列登录在序列识别词典32中，以便能够以误识别更少的形式识别。

接下来说明识别模式的处理。

该识别模式中，对所输入的手势动作图像进行处理，以便用序列识别词典32实际求得其含义。

识别模式中，数据路径控制部34A切换路径，以便最近似群集判别部25所输出的群集序列输入识别运算部33A。

识别运算部33A比较最近似群集识别部25所输入的群集序列和序列识别词典32所登录的多个群集序列，判断同一或最为接近的群集序列。接着，识别运算部33A从序列识别词典32当中提取并输出判断为同一或最为接近的群集序列的含义。

综上所述，按照本发明第五实施例的手形手势识别装置和识别方法，当采用与上述第二实施例相同的群集信息，对手势单词或手语单词这种一系列具有含义的手势动作图像，将作为手动作分节点的图像的群集序列与其含义一起预先存储，识别手势动作图像时，根据所求得的群集序列输出所存储的含义。

因此，能够对手势单词或手语单词等这种一系列具有含义的动作，进一步减少误识别，求得正确的含义。

另外，上述第五实施例中，记载的是对关键帧中手图像进行识别的方法。但本发明第五实施例，除此以外，将全部帧设定为关键帧场合，按一定间隔将采样的帧设定为关键帧场合，仅将手势动作开始时和结束时的帧设定为关键帧等场合，通过进行上述处理均可达到相同效果。

(第六实施例)

本发明第六实施例，与上述第五实施例的存储部架构体系1中在手形图像信息存储部12B中预先存储种种姿势形状的手图像不同，而是存储根据手势动作图像获得的手图像序列的各幅图像及其含义。

图21是表示本发明第六实施例手形手势识别装置构成的框图。图21中，第六实施例的手形手势识别装置，不是象上述第五实施例手形手势识别装置那样将存储部架构体系1和姿势·形状识别体系2相区别，而以1个综合形式构成。

图21中，第六实施例的手形手势识别装置包括手区域检出部28，手动作分节部29，手图像截取部30，手图像归一化部21，本征空间投影部22，最近似群集判别部25，识别运算部33A，序列识别词典32，数据路径控制部34B，手图像登录部35，序列重组部36，本征空间计算部13，本征向量存储部14，手形图像信息存储部12C，群集分析部16和群集信息存储部17A。

如图21所示，第六实施例的手形手势识别装置，对于上述第5实施例的手形手势识别装置，对存储部架构体系1和姿势·形状识别体系2进行综合，因而图16中分别将手图像归一化部11和手图像归一化部21、本征空间投影部15和本征空间投影部22合并，为分别用手形图像信息存储部12C替代手形图像信息存储部12B，用数据路径控制部34B替代数据路径控制部34A，并用手图像登录部35和序列重组部36替代序列登录部31的构成。

另外，第六实施例手形手势识别装置中的其他构成，与上述第五实施例手形手势识别装置构成相同，对该构成加上相同标号，并省略其说明。

先围绕与上述第五实施例不同的部分说明第六实施例手形手势识别装置的各个构成。

手图像登录部35将手图像归一化部21所提供的手势动作图像相应的手图像序列与该序列含义一起登录于手形图像信息存储部12C。手形图像信息存储部12C将所登录的手势动作图像所对应的手形图像序列(手图像序列)与该序列含义一起分别存储。而且手形图像信息存储部12C与上述第五实施例中手形图像信息存储部12B相同，还分别存储各个手形图像投影至本征空间的投影座标和群集ID。序列重组部36根据手形图像信息存储部12C存储的信息，将所存储的各个手形图像序列所对应的群集序列和其含义登录于序列识别词典32。数据路径控制部34B对手图像归一化部21输出的手图像序列进行控制，以便登录时输出至手图像登录部35，识别时输出至本征空间投影部22。

接着，用图22按处理顺序说明第六实施例手形手势识别装置所进行的识别方法。图22示出的是图21中手形图像信息存储部12C所具有的一例存储表。

第六实施例的手形手势识别装置进行下述2种模式的处理。

1.登录模式(第二登录模式)

为将根据所输入的手势动作图像得到的群集序列与其含义一起登录至序列识别词典32的模式。该登录模式为构筑手形图像信息存储部12C、本征向量存储部14和群集信息存储部17A的模式，属于与上述第二实施例中存储部架构体系1相应的处理。具体来说，将根据所输入的手势动作图像得到的手图像序列(手形图像序列)与其含义一起存储于手形图像信息存储部12C，依据所存储的手形图像进行本征空间计算和群集分析。接着，将所求得的群集序列和其含义登录至序列识别词典32。

2.识别模式：手势动作识别

为根据由所输入手势动作图像得到的群集序列，识别其含义的模式。该识别模式与上述第五实施例中说明的识别模式相同，属于与上述第二实施例所进行的姿势·形状识别相应的处理，利用本征向量存储部14和群集信息存储部17A和序列识别词典32来识别手势动作的含义。

上述各个模式可通过输入选择哪一模式，对数据路径控制部34B进行切换。下面按照各个模式依次说明。

先说明登录模式中的处理。

如上所述，手区域检出部28、手动作分节部29、手图像截取部30和手图像归一化部21求得与上述第五实施例同样处理输入的手势动作图像所对应的手图像序列。而数据路径控制部34B则切换路径，以便手图像归一化部21输出的手图像序列输入手图像登录部35。

接下来，手图像登录部35将手图像归一化部21输入的手图像序列与另外提供的该手图像序列所对应的手势动作含义一起存储至手形图像信息存储部12C中。图22示出的是手形图像信息存储部12C所具有的一例存储表。如图22所示，手形图像信息存储部12C中，与上述第二实施例中手形图像信息存储部12B的形状信息和姿势信息有所不同，分别存储的是手图像序列序号、手图像序列所对应的手势动作图像的含义、序列中手形图像为位于第几号图像这种信息(步骤)。另外，为两手接触这种图像时，将两手接触的图像登录作为1个手形图像。

本征空间计算部13、本征向量存储部14、本征空间投影部22和群集分析部16，对手形图像信息存储部12C存储的各个手形图像进行上述第二实施例中所述的处理，存储本征向量存储部14和群集信息存储部17A所对应的信息的同时，还在手形图像信息存储部12C中存储本征空间投影座标和群集ID。

序列重组部36一旦向手形图像信息存储部12C进行信息存储，便按照所存储的手图像序列在序列识别词典32中登录群集序列和其含义。

接下来说明识别模式的处理。

识别模式中，识别运算部33A比较最近似群集判别部25输入的群集序列和序列识别词典32中登录的多个群集序列，判断为同一或最为接近的群集序列。接着，识别运算部33A从序列识别词典32当中提取输出判断为同一或最为接近的群集序列的含义。

综上所述，按照本发明第六实施例的手形手势识别装置和识别方法，可对手形图像信息存储部12C所存储的图像利用与实际识别时相同的图像，因而也不需要特意取得别的图像，而且保证在同一环境下取得图像，因而可以减少图像误识别。

另外，上述第六实施例的手形手势识别装置，还可以进一步增加上述第五实施例中说明的序列登录部31和数据路径控制部34A的构成，以便不论用第一登录模式还是第二登录模式，都可以将群集序列和其含义登录至序列识别词典32。

通过这样构成，即便是手形图像信息存储部12C用作固定数据库这种场合，也能够靠第一登录模式进行有关新的手势动作图像的数据登录(序列识别词典32的更新)。

(第七实施例)

本发明第七实施例提供的是，在上述第五或第六实施例中，识别对象的手图像为对进行手势或手语等一系列具有含义的动作的手所摄取的手图像时，通过将第五或第六实施例的识别装置用作识别手势或手语所用装置的1个模块，来求得动作含义的方法。

考虑例如将本发明用于手语识别的场合。对手语来说，除了手的形状以外，还由手空间位置、手的活动、手形、手势这样几方面构成要素所组成，这样其含义才成立。此外，手形还可举出手语单词开始时的形状和结束时的形状(仅仅右手、仅仅左手、左手右手两者)作为构成要素。图23中示出的是用构成要素记述几个手语单词的例子。图23中，“说”这种含义的手语单词，是利用用右手先在嘴边或口的前方形成伸出食指的手形，然后保持该手形向前方送出这种动作来表达的。而“喜欢”这种含义的手语单词，则是利用用右手先在颚部保持伸出拇指和食指的手形，接着边闭合手指边拉至下方这种动作来表达。

这里，第七实施例的手形手势识别装置，是通过对手语、手势这种动作增加有关手空间位置、活动这种手大局动作特征的识别部约束条件，来减少手图像误识别的。

图24是表示本发明第七实施例手形手势识别装置构成的框图。图24中，第七实施例手形手势识别装置包括手图像登录部35，本征向量存储部14，本征空间计算部13，手形图像信息存储部12C，群集信息存储部17A，群集分析部16，序列重组部36，手区域检出部28，手动作分节部29，手图像截取部30，手图像归一化部21，本征空间投影部22，最近似群集判别部25，识别运算部33B，序列识别词典32，数据路径控制部34B，大局动作识别部37和约束条件存储部38。

图24所示的第七实施例的手形手势识别装置，为上述第六实施例的手形手势识别装置增加大局动作识别部37和约束条件存储部38，用识别运算部33B替代识别运算部33A的构成。另外，第七实施例手形手势识别装置中的其他构成，与上述第六实施例手形手势识别装置的构成相同，对该构成加上相同标号，省略其说明。

首先，约束条件存储部38中预先存储有根据手语单词这种具有含义的动作对手形和手势进行约束的约束条件。对这种约束条件来说，例如为图23所示的手语单词“说”的情形，便将开始手形和结束手形两者存储为伸出食指的形状，而手势、位置以及动作均按上述内容存储。另外，手语单词“说”这种动作，仅用右手进行，因而图23例中未记载有关左手的条件。

手势动作图像分别输入大局动作识别部37和手区域检出部28。大局动作识别部37对所输入的手势动作图像，与手区域检出部28相同提取手区域，求得该手区域的手轨迹和手相对身体的位置，将手轨迹和手位置信息输出至识别运算部33B。该大局动作识别部37按例如本申请发明人先前申请的“手动作识别装置”(日本专利申请特开平11-174948号公报)中记载的方法，求手轨迹和手位置。

另一方面，对于输入手区域检出部28的手势动作图像，上述第六实施例说明的处理在手动作分节部29、手图像截取部30、手图像归一化部21、本征空间投影部22和最近似群集判别部25中分别进行，手势动作图像所对应的群集序列从最近似群集判别部25输出至识别运算部33B。

识别运算部33B先检索约束条件存储部38存储的数据，并提取1个以上的与大局动作识别部37所提供的手势识别结果(手轨迹和手位置信息)为同一动作数据的手语/手势单词。接着，识别运算部33B比较最近似群集判别部25输入的群集序列和序列识别词典32中登录的多个群集序列，判断为同一或最为接近的群集序列，并从序列识别词典32当中提取1个以上经过该判断的群集序列的含义。接下来，识别运算部33B根据1个以上提取出的手语/手势单词和1个以上提取出的含义，对输入的手势动作图像输出最为接近的含义。

综上所述，按照本发明第七实施例的手形手势识别装置和识别方法，可进一步增加基于手大局动作特征的约束条件，导出手势动作图像的含义。

因此，可以减少手势动作图像的误识别。

另外，上述第七实施例中说明的是相对于上述第六实施例手形手势识别装置构成大局动作识别部37、约束条件存储部38和识别运算部33B的情况，但相对于上述第五实施例手形手势识别装置构成也行，相对于如上述第六实施例另外说明的那样第五实施例和第六实施例相结合的手形手势识别装置来构成也行。

(第八实施例)

本发明第八实施例提供的是，上述第五～第七实施例手区域检出部28中，通过对于手区域也利用群集信息，来高精度检出图像中手区域的方法。

图25是表示本发明第八实施例手形手势识别装置其组成手区域检出部具体构成的框图。图25中，构成第八实施例手形手势识别装置的手区域检出部48包括候选区域截取部39，屏蔽区域存储部40，图像归一化部41，本征空间投影部22，最近似群集判别部25和区域确定部42。

另外，第八实施例手形手势识别装置中的其他构成与上述第五～第七实施例手形手势识别装置的构成分别相同，对该构成加上相同标号，省略其说明。

先说明构成第八实施例手形手势识别装置的手区域检出部48各个构成。

候选区域截取部39从所输入的手势动作图像当中分别截取为候选手区域的图像范围。接着，候选区域截取部39将所截取的手区域位置信息输出至区域确定部42。屏蔽区域存储部40所存储的屏蔽用以从候选区域截取部39所截取的候选手区域当中仅提取预定区域。图像归一化部41通过对候选区域截取部39截取的候选手区域进行大小归一化并增加屏蔽区域存储部40存储的屏蔽区域之后，再进行亮度归一化，来获得手区域候选图像。本征空间投影部22如上述第五～第七实施例所述，将图像归一化部41得到的候选手区域图像展开至本征空间。最近似群集判别部25如上述第五～第七实施例所述，取得具有与本征空间投影部22所求得的本征空间投影座标最为接近的投影座标的群集。区域确定部42将最近似群集判别部25取得群集时的近似度，对整个候选手区域图像进行比较，输出具有最高近似度的候选手区域图像位置和此时的群集索引。

接下来，用图26～图28按处理顺序说明第八实施例手形手势识别装置其组成手区域检出部48所进行的手区域检出方法。图26是一例图25中候选区域截取部39所进行的求候选手区域方法的说明图。另外，图26中说明单纯进行扫描的方法，根据色信息以外知识截取候选手区域的方法，和按照前一时刻手区域检测结果预测当前时刻手区域位置的方法这3种方法。图27示出的是图25中图像归一化部41的处理概要。图28示出的是图25中屏蔽区域存储部40所存储的一例屏蔽区域。

候选区域截取部39求候选手区域，截取根据所输入的手势动作图像求得的候选手区域所对应的矩形区域。作为求该候选手区域的方法来说，可考虑例如图26所示的3个方法。

第一方法为最单纯方法，为一预先确定作为候选手区域截取的区域的大小，在手势动作图像上扫描所截取的矩形区域，将经扫描依次获得的全部区域作为候选手区域的方法(图26(a))。另外，该方法场合，也可以使扫描大小随手势动作图像上手的距离可变。

第二方法为通过用色信息(例如肤色信息)等，仅将该色彩所对应区域的前后作为扫描对象，从手势动作图像当中截取候选手区域这种矩形区的方法。该方法场合，可以通过采用肤色，而仅仅将手和容貌的周边区域图像当作候选手区域(图26(b))。

第三方法为根据前一时刻手区域的位置信息(从区域确定部42反馈的信息)预测当前时刻手区域位置，通过扫描所预测的手区域位置的周边来截取候选手区域的方法。该方法场合，例如有通过使前一时刻手速度满足前一时刻手的位置来预测当前时刻手区域的方法，还有在预测时利用卡尔曼滤波器求得手位置的方法等(图26(c))。

接着，图像归一化部41如图27所示，对候选区域截取部39所截取的候选手区域进行大小归一化，并叠加屏蔽区域存储部40存储的屏蔽手区域，进行亮度归一化。之所以对候选手区域进行屏蔽处理，是因为处理对象为没有手掌或容貌这种矩形区域的部位。因此，作为一例屏蔽区域存储部40所存储的屏蔽手区域，最好是图28(a)所示的几何形状屏蔽(采用单纯几何形状(圆、椭圆等)的屏蔽)和根据图28(b)所示的学习图像制作的屏蔽(叠加过去所得到的图像群进行OR运算的屏蔽)。

这样，图像归一化部41通过叠加上述屏蔽手区域和候选手区域这种图像，进行亮度归一化，来生成手区域候选图像。

然后，与上述第五～第七实施例相同，本征空间投影部22按照本征向量存储部14将图像归一化部41所输出的各手区域候选图像投影至本征空间，分别求投影座标。接着，最近似群集判别部25判断本征空间投影部22所求得的投影座标属于群集信息存储部17A所存储的哪一群集，按照各手区域候选图像将相应群集和此时近似度输出至区域确定部42。

接着，区域确定部42根据最近似群集判别部25所输出的各手区域候选图像所对应的近似度，求近似度最高时的候选手区域，将此时手区域位置(由候选区域截取部39所提供)和大小作为手区域检出结果，输出至手动作分节部29。

综上所述，按照本发明第八实施例手形手势识别装置和识别方法，检出手区域时将候选手区域这一区域投影至本征空间，通过求相应群集来检出手区域。

因此，检出手区域的同时，可以求该手区域的相应群集，因而能够将手区域检出和手形手势识别，或手区域检出和手势动作识别处理合并为1项处理。

另外，第八实施例中，上述方法适用于手势动作图像，但通过对通常的动作图像也用上述方法，便能够检出动作主体，可起到同样效果。

(第九实施例)

本发明第九实施例提供的是，在上述第八实施例手形手势识别装置其组成手区域检出部48的图像归一化部41和区域确定部42中，通过利用前一时刻的群集信息，更高精度地检出当前时刻手区域的方法。

图29是表示本发明第九实施例手形手势识别装置其组成手区域检出部具体构成的框图。图29中，第九实施例手形手势识别装置其组成手区域检出部58包括候选区域截取部39，屏蔽区域存储部45，图像归一化部41，本征空间投影部22，最近似群集判别部25，区域确定部42，群集变迁信息存储部43和群集变迁信息登录部44。

如图29所示，第九实施例手形手势识别装置其组成手区域检出部58，为上述第八实施例手形手势识别装置其组成手区域检出部48增加群集变迁信息存储部43和群集变迁信息登录部44，用屏蔽区域存储部45替代屏蔽区域存储部40的构成。

另外，第九实施例手形手势识别装置中其他构成与上述第八实施例手形手势识别装置构成相同，对该构成加上相同标号，省略其说明。

下面，用图30～图31按处理顺序说明第九实施例手形手势识别装置其组成手区域检出部58所进行的手区域检出方法。图30示出的是图29中群集变迁信息存储部43存储的一例群集变迁信息。如图30所示，群集变迁信息存储部43中存储的变迁度图，记载一表明提供某一时刻t的群集时是否容易在下一时刻t+1变迁至某一群集的群集变迁频度。另外，这里将群集变迁程度称为群集变迁度。图31示出的是图29中屏蔽区域存储部45存储的一例屏蔽区域。如图31所示，屏蔽区域存储部45分别就各群集登录预先根据学习图像生成的屏蔽。

首先，候选区域截取部39与上述第八实施例相同，根据所输入的手势动作图像求候选手区域，并截取与所求得的候选相对应的矩形区域。

接着，图像归一化部41对候选区域截取部39得到的候选手区域进行大小归一化，并叠加屏蔽区域存储部45存储的屏蔽手区域进行亮度归一化。这时，图像归一化部41根据前一时刻的相应群集，参照群集变迁信息存储部43，选择多个变迁度高的群集，从屏蔽区域存储部45当中取出各个群集相应的屏蔽。接下来，图像归一化部41通过叠加所取出的多个屏蔽并进行OR运算，来生成新屏蔽，将该生成的屏蔽与所得到的候选手区域叠加，并进行亮度归一化，来生成手区域候选图像。

然后，与上述第八实施例相同，本征空间投影部22按照本征向量存储部14将图像归一化部41所输出的各手区域候选图像投影至本征空间，分别求投影座标。接着，最近似群集判别部25判断本征空间投影部22所求得的投影座标属于群集信息存储部17A所存储的哪一群集，按照各手区域候选图像将相应群集和此时近似度输出至区域确定部42。

接下来，区域确定部42参照群集变迁信息存储部43存储的变迁度图，根据最近似群集判别部25输出的各手区域候选图像所对应的群集和近似度，在变迁度高于某一数值的群集当中，求具有最高近似度的群集的候选手区域，将此时手区域位置(由候选区域截取部39所提供)和大小作为手区域检出结果，输出至手动作分节部29。而区域确定部42将所检出的手区域群集输出至群集变迁信息登录部44。

群集变迁信息登录部44按照区域确定部42中手区域检出结果，仅在有指令要求更新群集变迁信息存储部43时才动作。该指令由利用该系统的用户或建立该系统的管理者输入。接下来，有指令要求更新时，群集变迁信息登录部44按照所检出的群集和前一时刻的群集，对群集变迁信息存储部43的群集变迁信息进行更新。例如，可通过单纯使变迁度图相应位置的数值增加某一数值来更新。

综上所述，按照本发明第九实施例手形手势识别装置和识别方法，对上述第八实施例的手形手势识别装置，在手区域确定时利用群集变迁信息。因此，可更为正确地进行手区域的确定。

另外，第九实施例中将上述方法应用于手势动作图像，但通过对通常的动作图像也利用上述方法，便能够检出动作主体，可起到同样效果。

(第十实施例)

本发明第十实施例提供的是，上述第一～第七实施例的手图像归一化部11、21中，在对手图像归一化时，不仅消除手腕区域，还增加根据肤色提取手区域，或根据经归一化的手图像进一步强化手指特征这种方法，从而能够从通常自然背景当中所摄取的手图像当中提取手区域，还能更为正确地对手形手势进行识别的方法。

图32是表示本发明第十实施例手形手势识别装置其组成手图像归一化部11、21更为具体构成的框图。

图32中，第十实施例手形手势识别装置其组成手图像归一化部11、21包括色分布存储部61，手区域提取部62，手腕区域消除部63，区域移动部64，旋转角计算部65，区域旋转部66，大小归一化部67和手指特征强化部68。

另外，第十实施例手形手势识别装置中的其他构成，与上述第一～第七实施例手形手势识别装置的构成分别相同，对该构成加上相同标号，省略其说明。

首先，说明第十实施例手形手势识别装置其组成手图像归一化部11、21的各个构成。

色分布存储部61按色分布预先存储应从输入手图像当中提取的手区域。手区域提取部62按照色分布存储部61所存储的色分布，提取手区域。手腕区域消除部63根据手区域提取部62所提取的区域求手腕方向，按照所求得的手腕方向从该提取的区域当中消除手腕区域。区域移动部64将手腕区域消除部63消除手腕区域的手区域移动至图像上预先定义的位置上。旋转角计算部65根据手区域求相对于光轴垂直的手的旋转角。区域旋转部66按旋转角进行旋转变换以便手朝向一定方向。大小归一化部67按预先确定的一定大小对旋转手区域大小进行归一化。手指特征强化部68从经过归一化的手图像当中消除手指以外的一定区域，强化手指特征。

接着，用图33～图35按处理顺序说明第十实施例手形手势识别装置其组成手图像归一化部11、12所进行的手图像归一化方法。图33示出的是图32中色分布存储部61所具有的一例存储表结构。另外，图33中举出一例存储表为RGB色空间三维查询表(LUT)的情形。图34是图32中旋转角计算部65所进行处理的概要说明图。图35是图32中手指特征强化部68所进行的一例处理的说明图。

最初，色分布存储部61对从自然背景当中取出手区域所需的肤色区域进行设定。色分布存储部61如图33所示，具有RGB色空间的三维LUT。该三维LUT，是以各个色为轴，对于各个轴按d1、d2、d3宽度对分别取离散值的3种色数值R、G、B所构成的三维色空间CS进行分割，保持该分割结果所得到的各个分割空间DS的重心位置(格点)色所对应的数据值而得到的数据表。换言之，三维LUT存储的是以各格点三维座标(r，g，b)为参数的函数值c{＝f(r，g，b)}。

第十实施例中说明的例子，将该色分布存储部61中手的色区域即肤色区域部分设定为正值，其他色区域部分为“0”值。

首先，手区域提取部62对所输入的图像进行扫描，在所得到的像素色和色分布存储部61存储的三维LUT格点色之间，求处于最近距离的格点的数据值。因此，像素色为肤色则输出正值，其他色则输出“0”，因而能够提取肤色区域。另外，将作为处于最近距离的格点所得到的像素色附近的6个格点的插补运算值，定义为上述函数f，也起到同样效果。

接着，手区域提取部62在所提取的肤色区域当中将最为接近手大小的区域当作手区域，将其他区域视为噪声消除后的手图像输出至手区域消除部63。

另外，对于色分布存储部61中设定肤色区域的方法来说，除了上述方法以外，还能够采用例如将肤色区域全部设定为一定数值(例如255位)的方法(此场合，手区域提取部62输出的图像为轮廓图像)，设定三维LUT以便在肤色区域当中将影子区域设定为暗的数值、强反射区域设定为明的数值这种方法，按原样在三维LUT中设定具有手图像的色度分布这种方法等。

接下来，手腕区域消除部63根据手区域提取部62所提取的手图像求手腕方向，按照所求得的手腕方向消除手腕区域。该手腕区域的消除能够用图2所示方法实现。区域移动部64输入经过手腕区域消除部63消除手腕区域之后的手图像，并进行移动变换以便所留下的手区域重心处于手图像中心。接着，旋转角计算部65如图34所示，计算手区域转动惯量主轴(手这种图形所延伸的方向，即手腕-中指方向)和图像上某一轴(例如x轴)之间角度。

现令手图像为f(x，y)，手重心座标为(x_g，y_g)，可按下面式(5)求得M₁₁、M₂₀、M₀₂。

M_{pq} = \underset{x}{Σ} \underset{y}{Σ} {(x - x_{g})}^{p} {(y - y_{g})}^{q} f (x, y) - - - (5)

因此，转动惯量主轴和x轴所成角度θ可按下面式(6)求出。

θ = \frac{1}{2} ta n^{- 1} [\frac{2 M_{11}}{M_{20} - M_{02}}] - - - (6)

上述角度计算后，区域旋转部66进行旋转变换，以便转动惯量主轴指向与y轴相同的方向。最后，大小归一化部67对手图像进行归一化，以便施加了旋转变换的手区域成为预定的一定大小。

该手腕区域消除部63、区域移动部64、旋转角计算部65、区域旋转部66和大小归一化部67是具体说明上述第一～第七实施例手图像归一化部11、21的典型构成例的，但第十实施例中，为了更为正确地进行图像识别，最后由手指特征强化部68从归一化后的手图像当中消除手指以外的一定区域，进行手指特征的强化处理。下面参照图35说明一例手指特征强化部68所进行的处理。

图35中，[例1]通过从手图像当中消除从手区域重心点(即图像中心点)开始在-y轴方向(转动惯量主轴的手腕方向)上呈±A度角度的扇形形状，来强化手指区域。[例2]通过从手图像当中消除从手区域重心点开始相对于-y方向处于距离D以外的手腕一侧，来强化手指区域。[例3]则通过较为简单地消除一定距离的手图像手腕一侧，来强化手指区域。[例4]通过对手图像进行极座标变换，来强化手指区域。

综上所述，按照本发明第十实施例的手形手势识别装置和识别方法，在对手图像归一化时，不仅消除手腕区域，还根据肤色提取手区域，或根据经归一化的手图像进一步强化手指特征。因此，能够从通常自然背景当中所摄取的手图像当中提取手区域，还能够更为正确地对手形手势进行识别。

(第十一实施例)

本发明第十一实施例提供的是，上述第一～第十实施例中，手形图像信息存储部12A～12C存储的手形图像只存储对于绕手掌主轴旋转的手形图像时，通过从多个视点的摄像机摄取作为识别对象的手，根据这样摄取的输入手图像求手方向，对手方向也进行归一化，从而对于实际上未作为手形图像存储的手方向图像，也进行手形和手势识别的方法。

该第十一实施例，可通过在上述第一～第十实施例中的手图像归一化部21中，对多台摄像机提供的各个输入手图像，靠求转动惯量主轴来求手方向，并增加对该方向进行归一化的方法来实现。

另外，本发明第十一实施例的手形手势识别装置其组成手图像归一化部21，与上述第一～第十实施例中说明的手图像归一化部21具有相同构成，因而省略其附图。图36示出一例由多台摄像机求手方向并进行归一化的方法的概念。另外，图36中举例说明一例用3台摄像机的场合。

现假定3台摄像机在图36所示位置上对手进行摄影。

首先，手图像归一化部21用与上述各实施例中所说明的相同方法消除各输入手图像的手腕区域。接着，手图像归一化部21使消除了手腕区域的输入手图像的手区域移动至图像中心，求手区域转动惯量主轴方向(与上述第十实施例区域移动部64和旋转角计算部65中说明的方法相同)。接着，手图像归一化部21根据所求的转动惯量主轴求三维空间主轴方向作为向量值，求所求得的主轴方向相对于各摄像机朝向与光轴垂直的一定方向的变换矩阵。接下来，手图像归一化部21按照所求得的变换矩阵，使各摄像机摄像输入的输入手图像变形。另外，对于输入手图像的变形，可采取利用一般进行的仿射变换的变形方法。

综上所述，按照本发明第十一实施例的手形手势识别装置和识别方法，手形图像信息存储部12A～12C只存储对于绕手掌主轴旋转的手形图像时，也能对实际上不作为手形图像存储的手方向图像进行手形和手势的识别。

Claims

1.一种手形手势识别装置，为对光学读取手段所取得的手的图像(以下称为输入手图像)进行手形和手势识别的装置，其特征在于，包括：

输入预先对种种形状和姿势的手进行摄像得到的多个图像，并分别生成该图像消除手腕区域后预先确定的图像形态(手的方向、图像的大小、图像的亮度)经过归一化的手形图像的第一手图像归一化手段(11)；

将上述手形图像和与该手形图像相关的形状信息和姿势信息一起分别存储的手形图像信息存储手段(12A)；

进行本征空间法的解析，根据所述手形图像分别计算本征值和本征向量的本征空间计算手段(13)；

存储所述本征向量集合的本征向量存储手段(14)；

将所述手形图像投影至以所述本征向量为基底的本征空间，分别求得该本征空间内投影座标，并存储于所述手形图像信息存储手段(12A)的第一本征空间投影手段(15)；

将所述输入手图像输入，生成该输入图像消除手腕区域后按与所述手形图像为同类图像形态那样经过归一化的输入手形图像的第二手图像归一化手段(21)；

将所述输入手形图像投影至以所述本征向量为基底的本征空间，求得该本征空间内投影座标的第二本征空间投影手段(22)；

分别比较所述第二本征空间投影手段(22)求得的所述投影座标和所述手形图像信息存储手段(12A)存储的所述投影座标，求得与所述输入手形图像最为接近的所述手形图像的手形图像选择手段(23)；以及

从所述手形图像信息存储手段(12A)当中取得并输出所述最为接近的手形图像的所述形状信息和所述姿势信息的形状·姿势输出手段(24)。

2.一种手形手势识别装置，为对光学读取手段所取得的手的图像(以下称为输入手图像)进行手形和手势识别的装置，其特征在于，包括：

将上述手形图像和与该手形图像相关的形状信息和姿势信息一起分别存储的手形图像信息存储手段(12B)；

存储所述本征向量集合的本征向量存储手段(14)；

将所述手形图像投影至以所述本征向量为基底的本征空间，分别求得该本征空间内投影座标，并存储于所述手形图像信息存储手段(12B)的第一本征空间投影手段(15)；

通过群集分析分别将所述投影座标分组，求得各所述手形图像属于哪一群集并存储于所述手形图像信息存储手段(12B)，并求得与各群集相关的统计信息的群集分析手段(16、18)；

将所述统计信息与相应的群集一起分别存储的群集信息存储手段(17A、17B)；

分别比较所述第二本征空间投影手段(22)求得的所述投影座标和所述群集信息存储手段(17A、17B)存储的所述统计信息，求得最为接近的群集的最近似群集判别手段(25)；

分别比较属于所述最近似群集的所述手形图像和所述输入手形图像，求得与该输入手形图像最为接近的所述手形图像的图像比较手段(26、27)；以及

从所述手形图像信息存储手段(12B)当中取得并输出所述最为接近的手形图像的所述形状信息和所述姿势信息的形状·姿势输出手段(24)。

3.如权利要求2所述的手形手势识别装置，其特征在于，图像比较手段(26、27)包括下列构成：

比较属于所述最近似群集判别手段(25)求得的群集的所述手形图像和所述第二手图像归一化手段(21)生成的所述输入手形图像时，按同一群集内的同一形状对所述手形图像进行分组的同一形状分类手段；

求得表现所述分组的统计量的形状分组统计量计算手段；以及

计算所述输入手形图像和所述统计量之间距离，输出属于最为接近分组的形状的最近似形状判别手段。

4.如权利要求2所述的手形手势识别装置，其特征在于，所述群集分析手段(18)从所述手形图像信息存储手段(12B)当中取得针对各群集的所述手形图像和所述形状信息，分别计算用以判别各所述手形图像的部分区域，存储于所述群集信息存储手段(17B)，

所述图像比较手段(27)，比较属于所述最近似群集判别手段(25)求得的群集的所述手形图像和所述第二手图像归一化手段(21)生成的输入手形图像时，仅对与所述群集相对应的所述部分区域内进行比较。

5.如权利要求2所述的手形手势识别装置，其特征在于，所述输入手图像为从多个视点对识别对象手进行摄像得到的多个图像时，

所述第二手图像归一化手段(21)分别就多个所述输入手图像生成所述输入手形图像，

所述第二本征空间投影手段(22)对于所述第二手图像归一化手段(21)生成的多个所述输入手形图像，分别求得本征空间内的投影座标，

所述最近似群集判别手段(25)比较所述第二本征空间投影手段(22)求得的各所述投影座标和所述统计信息，来分别求得最为接近的群集，

所述图像比较手段(26、27)综合所述最近似群集判别手段(25)求得的多个所述最为接近的群集，根据属于各群集的所述手形图像的所述形状信息和所述姿势信息推定不矛盾的形状·姿势。

6.一种手形手势识别装置，为对光学读取手段所取得的进行一系列具有含义动作的连续的手的图像(以下称为手势动作图像)其含义进行识别的装置，其特征在于，包括：

将上述手形图像和与该手形图像相关的形状信息和姿势信息一起分别存储的手形图像信息存储手段(12B、12C)；

存储所述本征向量集合的本征向量存储手段(14)；

将所述手形图像投影至以所述本征向量为基底的本征空间，分别求得该本征空间内投影座标，并存储于所述手形图像信息存储手段(12B、12C)的第一本征空间投影手段(15)；

通过群集分析分别将所述投影座标分组，求得各所述手形图像属于哪一群集并存储于所述手形图像信息存储手段(12B、12C)，并求得与各群集相关的统计信息的群集分析手段(16)；

将所述统计信息与相应的群集一起分别存储的群集信息存储手段(17A)；

将所述手势动作图像输入，从该手势动作图像的各个图像当中分别检出手区域的手区域检出手段(28、48、58)

在所述检出的手区域中分别求得所述手势动作图像的手活动，按照手活动求得手动作分节节点的手动作分节手段(29)；

根据所述手势动作图像中为手动作分节节点的图像，将所述检出的手区域部分截取的手图像截取手段(30)；

对所述手图像截取手段(30)从所述手势动作图像当中截取的1幅以上的手图像(以下称为手图像序列)，分别生成该手图像消除手腕区域后按与所述手形图像为同类图像形态那样经过归一化的输入手形图像的第二手图像归一化手段(21)；

将所述输入手形图像投影至以所述本征向量为基底的本征空间，分别求得该本征空间内投影座标的第二本征空间投影手段(22)；

分别比较所述第二本征空间投影手段22求得的所述投影座标和所述群集信息存储手段(17A)存储的所述统计信息，求得最为接近的群集，分别输出规定该群集的符号的最近似群集判别手段(25)；

将所述最近似群集判别手段(25)输出的所述手图像序列对应的符号(以下称为符号序列)与该手图像序列之源的所述手势动作图像的含义一起登录于序列识别词典手段的序列登录手段(31)；

存储所述手势动作图像含义和相应的所述符号序列的所述序列识别词典手段(32)；以及

从所述序列识别词典手段(32)当中取得并输出所述最近似群集判别手段(25)所输出的所述符号序列相应含义的识别运算手段(33A、33B)。

7.如权利要求6所述的手形手势识别装置，其特征在于，还包括：

将所述手势动作图像输入，根据该图像动作主体的活动和位置输出候选含义的总体动作认识手段(37)；以及

根据具有一系列含义的动作，预先存储约束条件以限制所输入的所述手势动作图像含义的约束条件存储手段(38)，

所述识别运算手段(33B)按照所述约束条件，从所述序列识别词典手段(32)当中取得并输出所述最近似群集判别手段(25)所输出的所述符号序列相应的含义。

8.如权利要求6所述的手形手势识别装置，其特征在于，所述手区域检出手段(48)包括以下构成：

从所输入的所述手势动作图像的各个图像当中分别截取作为候选手区域的区域的候选区域截取手段(39)；

存储屏蔽区域以便从矩形区域当中取出为候选手图像的区域的屏蔽区存储手段(40)；

从所述手势动作图像当中截取的候选手区域这一区域，增加所述屏蔽区域，接下来分别生成与计算所述本征向量时所用的手图像为同类图像形态那样经过归一化的图像的手区域图像归一化手段(41)；

将所述候选手区域的区域经归一化的图像投影至以所述本征向量为基底的本征空间，分别求得该本征空间内投影座标的手区域本征空间投影手段(22)；

分别比较所述手区域本征空间投影手段(22)求得的所述投影座标和所述群集信息存储手段(17A)存储的所述统计信息，求得最为接近的群集，分别输出一评价值以表明规定该群集的符号和比较对象群集之间接近度的手区域最近似群集判别手段(25)；以及

根据所述评价值，输出所述评价值最高的所述候选手区域其位置信息和其群集的区域确定手段(42)。

9.如权利要求7所述的手形手势识别装置，其特征在于，所述手区域检出手段(48)包括以下构成：

10.如权利要求1所述的手形手势识别装置，其特征在于，所述第一手图像归一化手段(11)和所述第二手图像归一化手段(21)分别包括以下构成：

预先按色分布存储所输入的手图像中应提取的所述手区域的色分布存储手段(61)；

按照所述色分布，从所输入的手图像当中提取手区域的手区域提取手段(62)；

求得手腕方向，按照该手腕方向从所述手区域当中消除手腕区域的手腕区域消除手段(63)；

使消除所述手腕区域的所述手区域移动至图像上预先定义的位置的区域移动手段(64)；

求得旋转角使所述手区域内的手朝向预定的一定方向的旋转角计算手段(65)；

按照所述旋转角，旋转所述手区域使手朝向一定方向的区域旋转手段(66)；以及

将旋转的所述手区域的大小归一化为预定的一定大小的大小归一化手段(67)。

11.如权利要求2所述的手形手势识别装置，其特征在于，所述第一手图像归一化手段(11)和所述第二手图像归一化手段(21)分别包括以下构成：

12.如权利要求6所述的手形手势识别装置，其特征在于，所述第一手图像归一化手段(11)和所述第二手图像归一化手段(21)分别包括以下构成：

13.如权利要求1所述的手形手势识别装置，其特征在于，还包括：

分别存储所述形状信息和所述姿势信息所对应的命令的命令存储手段；以及

将所述形状·姿势输出手段所输出的所述形状信息和所述姿势信息输入，从所述命令存储手段取得并输出该形状信息和该姿势信息所对应的命令的命令输出手段。

14.一种手形手势识别方法，为对光学读取手段所取得的手的图像(以下称为输入手图像)进行手形和手势识别的方法，其特征在于，包括：

输入预先对种种形状和姿势的手进行摄像得到的多个图像，并分别生成该图像消除手腕区域后预先确定的图像形态(手的方向、图像的大小、图像的亮度)经过归一化的手形图像的第一归一化步骤；

进行本征空间法的解析，根据所述手形图像分别计算本征值和本征向量的解析步骤；

将所述手形图像投影至以所述本征向量为基底的本征空间，分别求得该本征空间内投影座标的第一投影步骤；

将所述输入手图像输入，生成该输入图像消除手腕区域后按与所述手形图像为同类图像形态那样经过归一化的输入手形图像的第二归一化步骤；

将所述输入手形图像投影至以所述本征向量为基底的本征空间，求得该本征空间内投影座标的第二投影步骤；

分别比较就所述手形图像求得的所述投影座标和就所述输入手形图像求得的所述投影座标，求得与所述输入手形图像最为接近的所述手形图像的比较步骤；以及

输出所述最为接近的手形图像的所述形状信息和所述姿势信息的步骤。

15.一种手形手势识别方法，为对光学读取手段所取得的手的图像(以下称为输入手图像)进行手形和手势识别的方法，其特征在于，包括：

通过群集分析分别将所述投影座标分组，求得各所述手形图像属于哪一群集和与各群集相关的统计信息的分析步骤；

分别比较就所述输入手形图像求得的所述投影座标和所述统计信息，求得最为接近的群集的判别步骤；

分别比较属于所述最近似群集的所述手形图像和所述输入手形图像，求得与该输入手形图像最为接近的所述手形图像的比较步骤；以及

16.如权利要求15所述的手形手势识别方法，其特征在于，所述比较步骤包括下列步骤：

比较属于所述判别步骤求得的群集的所述手形图像和所述第二归一化步骤生成的所述输入手形图像时，按同一群集内的同一形状对所述手形图像进行分组的步骤；

求得表现所述分组的统计量的步骤；以及

计算所述输入手形图像和所述统计量之间距离，输出属于最为接近分组的形状的步骤。

17.如权利要求15所述的手形手势识别方法，其特征在于，所述分析步骤根据针对各群集的所述手形图像和所述形状信息，分别计算用以判别各所述手形图像的部分区域，

所述比较步骤，比较属于所述判别步骤求得的群集的所述手形图像和所述第二归一化步骤生成的输入手形图像时，仅对与所述群集相对应的所述部分区域内进行比较。

18.如权利要求15所述的手形手势识别方法，其特征在于，所述输入手图像为从多个视点对识别对象手进行摄像得到的多个图像时，

所述第二归一化步骤分别就多个所述输入手图像生成所述输入手形图像，

所述第二投影步骤对于所述第二归一化步骤生成的多个所述输入手形图像，分别求得本征空间内的投影座标，

所述判别步骤比较所述第二投影步骤求得的各所述投影座标和所述统计信息，来分别求得最为接近的群集，

所述比较步骤综合所述判别步骤求得的多个所述最为接近的群集，根据属于各群集的所述手形图像的所述形状信息和所述姿势信息推定不矛盾的形状·姿势。

19.一种手形手势识别方法，为对光学读取手段所取得的进行一系列具有含义动作的连续的手的图像(以下称为手势动作图像)其含义进行识别的方法，其特征在于，包括：

将所述手势动作图像输入，从该手势动作图像的各个图像当中分别检出手区域的检出步骤；

在所述检出的手区域中分别求得所述手势动作图像的手活动，按照手活动求得手动作分节节点的分节步骤；

根据所述手势动作图像中为手动作分节节点的图像，将所述检出的手区域部分截取的截取步骤；

对从所述手势动作图像当中截取的1幅以上的手图像(以下称为手图像序列)，分别生成该手图像消除手腕区域后按与所述手形图像为同类图像形态那样经过归一化的输入手形图像的第二归一化步骤；

将所述输入手形图像投影至以所述本征向量为基底的本征空间，分别求得该本征空间内投影座标的第二投影步骤；

分别比较就所述输入手形图像求得的所述投影座标和所述统计信息，求得最为接近的群集，分别输出规定该群集的符号的判别步骤；

将所判别的所述手图像序列对应的符号(以下称为符号序列)与该手图像序列之源的所述手势动作图像的含义一起存储的步骤；以及

识别所输入的所述手势动作图像时，根据所存储的所述符号序列及其含义，输出所判别的所述符号序列相应含义的识别步骤。

20.如权利要求19所述的手形手势识别方法，其特征在于，还包括：

将所述手势动作图像输入，根据该图像动作主体的活动和位置输出候选含义的认识步骤；以及

根据具有一系列含义的动作，预先存储约束条件以限制所输入的所述手势动作图像含义的存储步骤，

所述识别步骤按照所述约束条件，并根据所存储的所述符号序列及其含义输出所判别的所述符号序列相应的含义。

21.如权利要求19所述的手形手势识别方法，其特征在于，所述检出步骤包括以下步骤：

从所输入的所述手势动作图像的各个图像当中分别截取作为候选手区域的区域的截取步骤；

从所述手势动作图像当中截取的候选手区域这一区域，增加所述屏蔽区域，接下来分别生成与计算所述本征向量时所用的手图像为同类图像形态那样经过归一化的图像的归一化步骤；

将所述候选手区域的区域经归一化的图像投影至以所述本征向量为基底的本征空间，分别求得该本征空间内投影座标的投影步骤；

分别比较所述投影座标和所述统计信息，求得最为接近的群集，分别输出一评价值以表明规定该群集的符号和比较对象群集之间接近度的判别步骤；以及

根据所述评价值，输出所述评价值最高的所述候选手区域其位置信息和其群集的确定步骤。

22.如权利要求20所述的手形手势识别方法，其特征在于，所述检出步骤包括以下步骤：

23.如权利要求15所述的手形手势识别方法，其特征在于，所述第一归一化步骤和所述第二归一化步骤分别包括以下步骤：

预先按色分布存储所输入的手图像中应提取的所述手区域的色存储步骤；

按照所述色分布，从所输入的手图像当中提取手区域的步骤；

求得手腕方向，按照该手腕方向从所述手区域当中消除手腕区域的步骤；

使消除所述手腕区域的所述手区域移动至图像上预先定义的位置的步骤；

求得旋转角使所述手区域内的手朝向预定的一定方向的步骤；

按照所述旋转角，旋转所述手区域使手朝向一定方向的步骤；以及

将旋转的所述手区域的大小归一化为预定的一定大小的步骤。

24.如权利要求16所述的手形手势识别方法，其特征在于，所述第一归一化步骤和所述第二归一化步骤分别包括以下步骤：

25.如权利要求20所述的手形手势识别方法，其特征在于，所述第一归一化步骤和所述第二归一化步骤分别包括以下步骤：

26.如权利要求15所述的手形手势识别方法，其特征在于，还包括：

分别存储所述形状信息和所述姿势信息所对应的命令的命令存储步骤；以及

将所述输出步骤所输出的所述形状信息和所述姿势信息输入，从所述命令存储步骤取得并输出该形状信息和该姿势信息所对应的命令的步骤。

27.一种记录媒体，所记录的程序用以在计算机装置中执行对光学读取手段所取得的手的图像(以下称为输入手图像)进行手形和手势识别的方法，其特征在于，所记录的程序用以在所述计算机装置上实现一工作环境，它包括下列步骤：

28.一种记录媒体，所记录的程序用以在计算机装置中执行对光学读取手段所取得的手的图像(以下称为输入手图像)进行手形和手势识别的方法，其特征在于，所记录的程序用以在所述计算机装置上实现一工作环境，它包括下列步骤：

29.如权利要求28所述的记录媒体，其特征在于，所述比较步骤包括下列步骤：

求得表现所述分组的统计量的步骤；以及

30.如权利要求28所述的记录媒体，其特征在于，所述分析步骤根据针对各群集的所述手形图像和所述形状信息，分别计算用以判别各所述手形图像的部分区域，

31.如权利要求28所述的记录媒体，其特征在于，所述输入手图像为从多个视点对识别对象手进行摄像得到的多个图像时，

32.一种记录媒体，所记录的程序用以在计算机装置中执行对光学读取手段所取得的进行一连串有含义动作的连续手图像(以下称为输入手图像)进行手形和手势识别的方法，其特征在于，所记录的程序用以在所述计算机装置上实现一工作环境，它包括下列步骤：

33.如权利要求32所述的记录媒体，其特征在于，还包括：

34.如权利要求32所述的记录媒体，其特征在于，所述检出步骤包括以下步骤：

35.如权利要求33所述的记录媒体，其特征在于，所述检出步骤包括以下步骤：

36.如权利要求28所述的记录媒体，其特征在于，所述第一归一化步骤和所述第二归一化步骤分别包括以下步骤：

37.如权利要求29所述的记录媒体，其特征在于，所述第一归一化步骤和所述第二归一化步骤分别包括以下步骤：

38.如权利要求33所述的记录媒体，其特征在于，所述第一归一化步骤和所述第二归一化步骤分别包括以下步骤：

39.如权利要求27所述的记录媒体，其特征在于，还包括：