CN104067295B

CN104067295B - 姿势识别方法、用于该方法的装置和计算机程序

Info

Publication number: CN104067295B
Application number: CN201180076261.6A
Authority: CN
Inventors: 李江伟; 汪孔桥; 徐磊
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2011-12-01
Filing date: 2011-12-01
Publication date: 2018-06-22
Anticipated expiration: 2031-12-01
Also published as: CN104067295A; EP2786312A1; US9922241B2; EP2786312A4; WO2013078657A1; US20140328516A1

Abstract

本发明涉及一种用于在装置处的基于姿势的交互的姿势识别方法。该方法包括接收对象的一个或多个图像；创建针对所接收的一个或多个图像的特征图像；确定针对所述特征图像的相应位置中的像素的二进制值并且连接二进制值以形成针对所述像素的二进制串；针对所述特征图像的每个相应像素重复之前的步骤以形成特征映射图；并且形成特征映射图的直方图表示形式。本发明还涉及装置和计算机程序。

Description

姿势识别方法、用于该方法的装置和计算机程序

技术领域

本发明总体上涉及基于姿势的交互，尤其涉及一种姿势识别方法、装置和计算机程序。

背景技术

姿势识别是一种用于对人的姿势进行解释的技术方法。姿势识别中主要领域之一是手势识别。该技术使得人们可能在不使用技术手段的情况下与计算机化的设备进行通信。作为其结果，计算机化的设备可以开始理解人的身体语言。一些用户接口被研发以根据手势进行操作。例如，移动用户接口技术正在朝着自由手势追踪并且向姿势增强的NED(近眼显示器)进行演进。然而，当前的手势追踪和识别方法并非是完全可靠的和/或识别性能严重依赖于多个且昂贵的输入设备。

因此，需要一种鲁棒且利用廉价配件的姿势识别解决方案。

发明内容

目前已经发明出了有所改进的方法以及实施用于姿势识别的方法的技术设备。本发明的各个方面包括一种方法、装置和计算机程序，其特征在于独立权利要求中所声明的内容。本发明的各个实施例在从属权利要求中有所公开。

根据第一方面，提供了一种用于在装置处的基于姿势的交互的姿势识别方法，包括接收对象的一个或多个图像，创建针对所接收的一个或多个图像的特征图像，确定针对所述特征图像的相应位置中的像素的二进制值并且连接二进制值以形成所述像素的二进制串，针对所述特征图像的每个相应像素重复之前的步骤以形成特征映射图，形成该特征映射图的直方图表示形式。

根据一个实施例，所接收的一个或多个图像由红外传感器所捕捉。

根据一个实施例，所接收的一个或多个图像由相机传感器所捕捉。

根据一个实施例，所接收的一个或多个图像是手部的图像。

根据一个实施例，该方法进一步包括使用多个特征提取器来确定对象的形状并且创建特征图像。

根据一个实施例，该方法进一步包括针对每个图像位置从至少两个特征图像获取二进制值以组成针对所讨论的图像位置的二进制串。

根据一个实施例，该方法进一步包括将每个相应像素的二进制串转换为整数值。

根据一个实施例，该方法进一步包括将特征映射图划分为分块并且针对每个分块执行直方图统计。

根据一个实施例，该方法进一步包括将所有分块的直方图连接为长的特征矢量以表示对象的图像。

根据一个实施例，所接收的图像是视频帧。

根据第二方面，提供了一种装置，其包括处理器、包括计算机程序代码的存储器，存储器和计算机程序代码被配置为利用该处理器而使得该装置至少执行：接收对象的一个或多个图像；创建针对所接收的一个或多个图像的特征图像；确定针对所述特征图像的相应位置中的像素确定二进制值并且连接二进制值以形成针对所述像素的二进制串；针对所述特征图像的每个相应像素重复之前的步骤以形成特征映射图；形成所述特征映射图的直方图表示形式。

根据一个实施例，该装置包括被配置为捕捉所述一个或多个图像的红外传感器。

根据一个实施例，该装置包括被配置为捕捉所述一个或多个图像的相机传感器。

根据一个实施例，所接收的一个或多个图像是手部的图像。

根据一个实施例，所述计算机程序代码进一步被配置为利用所述处理器而使得所述装置执行：使用多个特征提取器来确定对象的性质并且创建特征图像。

根据一个实施例，所述计算机程序代码进一步被配置为利用所述处理器而使得所述装置执行：针对每个图像位置从至少两个特征图像获取二进制值以组成针对所讨论的图像位置的二进制串。

根据一个实施例，所述计算机程序代码进一步被配置为利用所述处理器而使得所述装置执行：将每个相应像素的二进制串转换为整数值。

根据一个实施例，所述计算机程序代码进一步被配置为利用所述处理器而使得所述装置执行：将特征映射图划分为分块并且针对每个分块执行直方图统计。

根据一个实施例，所述计算机程序代码进一步被配置为利用所述处理器而使得所述装置执行：将所有分块的直方图连接为长的特征矢量以表示对象的图像。

根据一个实施例，所述计算机程序代码进一步被配置为利用所述处理器而使得所述装置执行：所接收的图像是视频帧。

根据第三方面，提供了一种装置，其包括处理部件、包括计算机程序代码的存储器部件，该装置进一步包括接收部件，被配置为接收对象的一个或多个图像；创建部件，被配置为创建针对所接收的一个或多个图像的特征图像；确定部件，被配置为确定针对所述特征图像的相应位置中的像素的二进制值并且连接二进制值以形成针对所述像素的二进制串；重复部件，被配置为针对所述特征图像的每个相应像素重复之前的步骤以形成特征映射图；形成部件，被配置为形成所述特征映射图的直方图表示形式。

根据第四方面，提供了一种在非瞬时性计算机可读介质上实现的计算机程序，该计算机程序包括指令，所述指令当在至少一个处理器上执行时使得至少一个装置：接收对象的一个或多个图像；之间针对所接收的一个或多个图像的特征图像；确定针对所述特征图像的相应位置中的像素的二进制值并且连接二进制值以形成针对所述像素的二进制串；针对所述特征图像的每个相应像素重复之前的步骤以形成特征映射图；形成所述特征映射图的直方图表示形式。

附图说明

在下文中，将参考附图对本发明的各个实施例进行更为详细的描述，在附图中：

图1A示出了由红外传感器所捕捉的一系列手掌图像；

图1B示出了由红外传感器所捕捉的一系列背景图像；

图2示出了根据本发明的姿势识别方法的实施例；

图3示出了涉及姿势识别方法的特征提取的实施例；

图4示出了涉及姿势识别方法的特征图像的二进制编码的实施例；

图5A示出了具有HOG特征的测试结果；

图5B示出了具有SCFE特征的测试结果；以及

图6示出了电子设备的示例。

具体实施方式

在下文中，将以(例如，在动力学游戏控制器中所使用的)家庭电视姿势用户接口为背景对本发明的若干实施例进行描述。然而，要注意的是，本发明并不局限于家庭电视姿势用户接口。实际上，不同实施例在其中需要姿势识别技术的任意环境中具有广泛应用。各种应用的示例包括手持投影仪(也称作微型投影仪嵌入式设备)、近眼显示器(NED)和移动设备中采用姿势识别进行交互的用户接口。

所认识到的是，自由手部识别具有若干有待克服的挑战。例如，当利用低功率的红外传感器进行捕捉时，大多数手掌图像(随后称作“掌部图像”)具有低对比度和不良的纹理。图1A和1B分别示出了由IR传感器所取得的掌部和背景图像的示例。图1A图示了一系列掌部图像，并且图1B图示了一系列背景图像。从图1A的图像意识到，掌部(具有手指的手部)是非刚性且关节型的对象，其包含丰富的面内和面外旋转。此外，在掌部边缘存在噪声。另外，一些背景图像的外观(参见图1B)与掌部(图1A)的外观十分相似。由于这些挑战，实现高性能的掌部识别比其它对象识别更为困难。

当前解决方案旨在为提供一种用于自由姿势交互的快速但准确的多手掌追踪方法。该解决方案提出了用于通过特征提取器的结构编码(SCFE)的鲁棒的局部形状描述器以对掌部进行描述。这可以采用三级架构来推导二进制代码以对边缘原子进行编码：1)针对各种形状结构提取设计具有低计算成本的形状特征提取器；2)可以通过沿如下特征图像连接所有二进制位来计算基于张量的二进制串特征，该特征图像通过对原始掌部图像应用所选择的特征提取器而获取；3)直方图模型被配置为针对差别手部追踪而对掌部空间分布进行编码。

SCFE与其它特征提取方法相比更为有利，原因在于其支持非常灵活的二进制编码并且能够实现强的形状或纹理描述。除了手掌追踪之外，SCFE还能够针对其它对象的检测或识别而普遍化。因此，当前解决方案并不仅局限于手势识别方法。

根据该解决方案的用于掌部检测和追踪的算法足够快速以便在移动平台上运行并且还在各种条件下具有鲁棒的性能。由于一些图像可能对比度低并且具有薄弱的微观纹理(如图1所示)，所以该算法针对高性能检测而需要集中于提取宏观纹理，诸如边缘。

图2中示出了根据一个实施例的方法的概况，其图示了基于SCFE特征的手掌追踪。首先，接收一个或多个掌部图像(200)。除了静止图像之外，“图像”可以指代视频帧，由此每个视频帧能够根据该解决方案进行处理。掌部图像可以利用常规的、低价IR相机来被捕捉。在此之后，收集大规模的特征提取器以形成池(210)并且每个特征提取器能够提取一些边缘原子。随后从池中选择相对小的提取器集合并且将其应用于掌部图像以便进行二进制编码。这生成了多个特征图像。特征图像被一起放在三维空间之中，并且相同二维位置中的特征被连接以形成SCFE二进制串(220)。所使用的特征图像的数量可以从两个特征图像变为所有特征图像，但是最优结果能够利用6-12个特征图像而实现。最终，采用直方图表示形式(230)对空间信息进行编码以便进行更好的掌部追踪。

在下文中，以更为详细的方式对掌部追踪方法的步骤(210-230)进行描述。

利用指定提取器池的形状描述(图2：210)

已经由红外传感器所捕捉的掌部图像通常并没有足够多的微观纹理。掌部图像内最为有用的差别信息是宏观结构，诸如边缘。提取器池的用途是收集所有类型且尽可能多的局部结构提取器，从而能够完全获得形状或其它纹理。

图3是用于从掌部图像(300)进行掌部特征提取的特征提取器池的表示形式。该池可以包含各种类型的图像过滤器，例如类Harr、Gabor等，或者出于采集掌部的具体形状轮廓的目的而设计的任意其它过滤器。图3仅列出了来自池中的七个提取器，其中每一个都能够提取具体信息通道内的特征。该提取器可以将被红色矩形所标记的图像分块(图3中被填充的分块)的灰度和与蓝色所标记的那些(图3中的未填充分块)进行比较，并且相应地基于其相对量级而返回1或0的二进制位。合格特征提取器的一般要求为：

1)应当在图像分块上计算提取器以避免生成噪声特征。图像质量非常低并且没有随掌部内的掌纹的精巧结构，因此形状信息对于掌部检测而言最具价值。基于图像分块的过滤器满足检测形状结构的要求。

2)提取器应当具有微分形式而作为边缘过滤器。例如，如果多个红色分块(图3中被填充的分块)和蓝色分块(图3中未填充的分块)的数目并不相等，如在特征计算中的两者的和的比较中，则它们二者应当被乘以适当系数以满足微分计算的要求。例如，图3中的第二提取器(310)是非对称算子。有一个红色(被填充)分块A和两个蓝色(未填充)分块B和C。利用该提取器进行的微分计算是T(H₁*A-H₂*B-H₃*C≥0)，其中T(·)是布尔算子并且H₁＝H₂+H₃。

利用具有对称或非对称形式的特征提取器的池，能够如图3所示生成多个特征图像(380)。它们中的每一个图示了独特的边缘结构。直观地，特征映射图中的边缘是互补的并且它们的组合应当有助于提高低质量图像中的掌部检测的准确性。

从特征图像进行基于张量的特征编码

任何掌部图像(400)内的每个像素(401)可以包含边缘信息，并且特征提取器池的设计可以充分提供它们。任何所生成的特征图像对1和0二进制值所表示的独特的边缘分布进行编码，其指示周围区域内的相应边缘结构。预见到所有这样的结构的组合有助于手掌检测。这里，基于张量的策略被用来有效地对所有特征映射图进行编码。

如图4所示，在三维空间(410)中顺序列出特征图像，并且它们全部都利用相同的X和Y坐标但是不同的Z坐标进行部署。该操作形成张量并且Z轴的高度由图3的特征提取器方法所产生的特征图像(415)的数量所确定。针对每个图像位置(X,Y)，逐一从所有特征图像(415)获取二进制值以组成二进制串。在图4中，假设从第一特征图像至第九特征图像(415)的(X,Y)处的二进制特征(420)分别为“1,1,1,1,0,0,1,0,1”，因此其形成二进制串“111100101”(420)，其随后可以为了更好的特征表示形式的目的而被转换为整数“485”。由于对于每个像素而言，能够获得相应的二进制串及其整数表示形式，所以其能够包括如图4所示的新的特征映射图(450)，并且其外观与真实的掌部具有一些相似性。主要的差异在于最终的特征映射图使得能够从原始掌部图像中去除噪声和高频分量并且仅保留对于区分有用的边缘结构。

基于张量的二进制串编码的机制能够从不同角度进行解释。如图4所示，由于通过在原始图像上应用一个特征提取器而获取二进制值，能够通过利用相同图像位置上所选择的特征提取器逐一地进行二进制位计算而实现二进制串特征的提取。能够生成与基于张量的计算相同的最终特征映射图。

二进制串的长度及其整数表示形式通过有多少特征提取器被用于掌部编码而被确定。如果所选择特征提取器的数量过少，则无法尽可能充分地提供宏观结构。并且，如果该数量过大，则将对过多的冗余信息进行编码并且导致非常稀疏的特征分布。在掌部检测中，应用6-12个特征提取器对于实现令人满意的性能而言是良好的。

直方图表示形式及其性能

虽然SCFE能够从手部提取宏观结构，但是使用直方图统计来进一步提高容忍噪声和部分校准误差的能力将会更好。另外，为了使用空间信息，最终特征映射图可以被划分为J个分块，并且对于每个分块p_j(1<j<J)，可以在其中执行直方图统计对每个出现的SCFE模式进行计数，从而能够生成直方图特征h_j。随后，所有分块的直方图都能够被连接为长的特征矢量H_i＝{h₁,h₂,…,h_J}以表示掌部图像。在手掌检测中，将所有候选与事先存储的模板进行比较，并且如果当前窗口与任意模板之间的距离足够小，其就将被归类为掌部，否则其将被归类为背景图像。

图5A-5B图示了对通过应用HOG(方向梯度直方图)(图5A)和SCFE(图5B)的两种不同特征提取方法所得到的距离得分分布的比较。实验数据库由1000个肯定的手掌和1000个否定的背景补丁所组成，并且它们中的一些已经在图1中被示出。图库中进存储一个手掌模块用于相似度评估。在图5A-5B中，第一线条(510)表示肯定样本的距离概率分布，而第二线条(520)则表示否定样本的距离概率分布。显然，图5B所描绘的SCFE的区分性能远好于描绘HOG的图5A。在图5B中，两条概率曲线之间存在非常少的重叠，这意味着掌部和背景的分类在给定适当参数的情况下是容易的。能够对K-L(Kullback-Leibler)发散性进行计算以对两个概率分布之间的相似度进行评估。两种情形的K-L发散性值分别是0.5973和0.2253。这证明SCFE特征与HOG相比具有更强的分类能力。另外，由于SCFE特征的计算仅涉及利用基于分块的特征提取器进行图像过滤运算，所以其应当通过使用积分图像技术而甚至在移动平台上非常快速地执行。

所意识到的是，SCFE能够针对差别手部追踪而对诸如掌部边缘之类的宏观结构进行编码。利用另一选择的特征提取器，这使得还能够对如皮肤纹理之类的围观结构进行检测。利用基于分块的特征提取器，SCFE特征提取甚至在移动平台上都能够非常快速地执行。该方法能够为了鲁棒且快速的检测和追踪而针对其它对象类别进行普遍化。

图6示出了用于执行姿势识别方法的装置的示例。如图6所示，装置1151包含存储器1152，至少一个处理器1153和1156，以及驻留在存储器1152中的计算机程序代码1154。该装置还可以具有一个或多个用于捕捉例如立体视频的图像数据的相机1155和1159。该装置还可以包含一个、两个或更多用于捕捉声音的麦克风1157和1158。该装置还可以包括显示器1160。装置1151还可以包括接口部件(例如，用户接口)，其可以允许用户与设备进行交互。用户接口部件可以使用显示器1160、键盘1161、语音控制、姿势识别或其它结构来实施。该装置还可以例如利用能够接收和/或传送数据的通信块(图6中未示出)而连接至另一设备。需要理解的是，该装置的不同实施例允许不同部分在不同部件中执行。本发明的各个实施例可以借助于驻留在存储器中的计算机程序代码而实施并且使得相关装置实施本发明。例如，设备可以包括用于处理、接收和传送数据的电路和电子器件、存储器中的计算机程序代码，以及在运行该计算机程序代码时使得该设备执行实施例的特征的处理器。

换句话说，该装置的各个部件包括处理部件以及包括计算机程序代码的存储器部件。该装置进一步包括接收部件，其被配置为接收对象的图像；创建部件，其被配置为创建针对所接收的图像的多个特征图像；确定部件，其被配置为确定针对所述特征图像的相应位置中的像素的二进制值并且连接二进制值以形成所述像素的二进制串；重复部件，其被配置为针对所述特征图像的每个相应像素重复之前的步骤以形成特征映射图；和形成部件，其被配置为形成该特征映射图的直方图表示形式。

类似地，该装置包括用于使用多个特征提取器来确定对象形状并且创建多个特征图像的部件。类似地，该装置包括针对每个图像位置从所有特征图像获取二进制值以组成所讨论图像位置的二进制串的部件。进一步地，该装置包括用于将每个相应像素的二进制串转换为整数值的部件。再进一步地，该装置包括用于将特征映射图划分为分块并且对每个分块执行直方图统计的部件。再进一步地，该装置包括用于将所有分块的直方图连接为长的特征矢量以表示对象的图像的部件。

多种手掌追踪方法由于其快捷性和准确性而代表了姿势识别技术中的显著发展。该解决方案针对通过特征提取器的结构编码(SCFE)而采用了鲁棒的局部形状描述器以对掌部进行描述。该解决方案还提供了三级架构来推导二进制代码以对边缘原子进行编码。收集大规模的特征提取器以形成池。从该池中选择相对小的提取器集合并且将其应用于掌部图像以便进行二进制编码而得到多个特征图像。所有这些特征图像被一起放在三维空间之中，并且相同二维位置中的特征被连接以形成SCFE二进制串。最后，采用直方图表示形式对空间信息进行编码以便进行更好的掌部追踪。

本发明显然并不仅被局限于以上所给出的实施例，而是能够在所附权利要求的范围内进行修改。

Claims

1.一种用于在装置处的基于姿势的交互的姿势识别方法，包括：

-接收对象的一个或多个图像；

-通过将基于所选分块集合的特征提取器应用到所述一个或多个图像以用于从所述一个或多个图像检测具体形状，生成针对所接收的一个或多个图像的特征图像；

-确定图像分块的相对量级并且根据所确定的所述相对量级返回针对每个分块的二进制值；

-确定针对所述特征图像的相应位置中的像素的二进制值并且连接所述二进制值以形成针对所述像素的二进制串；

-针对所述特征图像的每个相应像素重复之前的步骤以形成特征映射图；

-形成所述特征映射图的直方图表示形式。

2.根据权利要求1所述的方法，其中所接收的一个或多个图像由红外传感器所捕捉。

3.根据权利要求1所述的方法，其中所接收的一个或多个图像由相机传感器所捕捉。

4.根据权利要求1或2或3所述的方法，其中所接收的一个或多个图像是手部的图像。

5.根据前述权利要求1至3中任一项所述的方法，进一步包括：

-使用多个特征提取器以用于确定所述对象的形状并且用于创建所述特征图像。

6.根据前述权利要求1至3中任一项所述的方法，进一步包括：

-针对每个图像位置从至少两个特征图像获取二进制值以组成针对所讨论的所述图像位置的二进制串。

7.根据前述权利要求1至3中任一项所述的方法，进一步包括：

-将每个相应像素的所述二进制串转换为整数值。

8.根据前述权利要求1至3中任一项所述的方法，进一步包括：

-将所述特征映射图划分为分块并且针对每个分块执行直方图统计。

9.根据权利要求8所述的方法，进一步包括：

-将所有分块的直方图连接为长的特征矢量以表示所述对象的图像。

10.根据前述权利要求1至3中任一项所述的方法，其中所接收的图像是视频帧。

11.一种电子装置，包括处理器、包括计算机程序代码的存储器，所述存储器和所述计算机程序代码被配置为利用所述处理器而使得所述装置至少执行：

-接收对象的一个或多个图像；

-形成所述特征映射图的直方图表示形式。

12.根据权利要求11所述的装置，包括被配置为捕捉所述一个或多个图像的红外传感器。

13.根据权利要求11所述的装置，包括被配置为捕捉所述一个或多个图像的相机传感器。

14.根据权利要求11或12或13所述的装置，其中所接收的一个或多个图像是手部的图像。

15.根据前述权利要求11至13中任一项所述的装置，其中所述计算机程序代码进一步被配置为利用所述处理器而使得所述装置执行：

16.根据前述权利要求11至13中任一项所述的装置，其中所述计算机程序代码进一步被配置为利用所述处理器而使得所述装置执行：

17.根据前述权利要求11至13中任一项所述的装置，其中所述计算机程序代码进一步被配置为利用所述处理器而使得所述装置执行：

-将每个相应像素的所述二进制串转换为整数值。

18.根据前述权利要求11至13中任一项所述的装置，其中所述计算机程序代码进一步被配置为利用所述处理器而使得所述装置执行：

19.根据权利要求18所述的装置，其中所述计算机程序代码进一步被配置为利用所述处理器而使得所述装置执行：

20.根据前述权利要求11至13中任一项所述的装置，其中所接收的图像是视频帧。

21.一种姿势识别装置，包括处理部件、包括计算机程序代码的存储器部件，该装置进一步包括：

-接收部件，被配置为接收对象的一个或多个图像；

-生成部件，被配置为通过将基于所选分块集合的特征提取器应用到所述一个或多个图像以用于从所述一个或多个图像检测具体形状来生成针对所接收的一个或多个图像的特征图像；

-确定部件，被配置为确定图像分块的相对量级并且根据所确定的所述相对量级返回针对每个分块的二进制值，并且确定针对所述特征图像的相应位置中的像素的二进制值并且连接所述二进制值以形成针对所述像素的二进制串；

-重复部件，被配置为针对所述特征图像的每个相应像素重复之前的步骤以形成特征映射图；

-形成部件，被配置为形成所述特征映射图的直方图表示形式。