CN103477352A

CN103477352A - 使用深度图像的姿势识别

Info

Publication number: CN103477352A
Application number: CN2011800700003A
Authority: CN
Inventors: X·童; D·丁; W·李; Y·张
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2011-04-11
Filing date: 2011-04-11
Publication date: 2013-12-25
Also published as: WO2012139268A1; US20140300539A1; EP2697743A1; EP2697743A4; TW201250609A; US8718327B2; TWI512645B; US20140037134A1

Abstract

此处公开了与使用深度图像的姿势识别相关联的方法、装置和制品。在各种实施例中，装置可以包括被配置为确定面部是否存在于由深度相机所生成的相应图像帧的一个或多个灰度图像中的面部检测引擎，和被配置为在由深度相机所生成的一个或多个深度图像中跟踪手部的手部跟踪引擎。装置还可以包括被配置为基于手部跟踪引擎的跟踪结果提取特征并至少部分地基于所提取的特征推断手部姿势的特征提取和姿势推断引擎。还公开和声明了其它实施例。

Description

使用深度图像的姿势识别

技术领域

本公开的实施例涉及数据处理的领域，特别是与姿势识别相关联的方法、装置和制品。

背景技术

除非另外指明，本节中所描述的材料不是本申请中的权利要求书的现有技术且不因为被包括在本节中而被承认为是现有技术。

随着智能电视、智能电话和平板机的迅速发展，存在着创造发明性的特征/使用模型以便基于更高的计算能力、更大带宽和更丰富的内容向顾客提供更好的个人化服务、社交网络和增值服务（added value service，AVS）的迫切需求。用户交互在用户体验中扮演重要角色。在已有的用户接口技术中，通常采用键盘、鼠标、跟踪球和其它点击设备。姿势是一种自然的交互方法，而且已经在现实的日常生活中广泛利用。大多数已有的姿势识别系统利用依赖于光线、照明和其它环境条件的公共网络相机。结果是，当前的姿势识别系统通常是不稳定或低效的。

附图说明

作为示例实施例而非限制，在附图中呈现了本公开的各实施例，附图中相同的标记指示相似的元素，附图中：

图1根据本公开的各种实施例示出了姿势识别布置的概述；

图2根据本公开的各种实施例更详尽地示出了图1的基于姿势的输入服务；

图3根据本公开的各种实施例示出了姿势识别方法；

图4根据本公开的各种实施例示出了示例深度图像；

图5根据本公开的各实施例示出了适合用来实践图1的计算装置的示例计算机系统；以及

图6根据本公开的各实施例示出了具有被配置为使装置实践图3的方法的一些或全部方面的编程指令的制品。

具体实施方式

此处公开了与使用深度图像的姿势识别相关联的方法、装置和制品。在各种实施例中，装置可以包括被配置为确定面部是否存在于由深度相机所生成的相应图像帧的一个或多个灰度图像中的面部检测引擎，和被配置为在由深度相机所生成的一个或多个深度图像中跟踪手部的手部跟踪引擎。装置还可以包括被配置为基于手部跟踪引擎的跟踪结果提取特征并至少部分地基于所提取的特征推断手部姿势的特征提取和姿势推断引擎。

在各种实施例中，可以将面部检测引擎配置为使用例如Haar-Cascade模型来分析灰度图像以确定面部是否存在于一个或多个灰度图像中。而且，可以将面部检测引擎或手部跟踪引擎配置为使用一个或多个深度图像来确定面部和相机之间的距离测量。

在各种实施例中，还可以将手部跟踪引擎配置为选择在大小方面比所述一个或多个深度图像小的深度图像的相应区域，以便至少部分地基于所确定的面部和相机之间的距离来检测和跟踪手部。还可以将手部跟踪引擎配置为确定手部的位置测量。可以将手部跟踪引擎配置为，使用借助概率密度梯度的均值偏移过滤，对一个或多个深度图像中的相应图像以手部中心的（x,y）坐标对来确定位置测量。

在各种实施例中，可以将特征提取和姿势推断引擎配置为提取偏心率测量、紧致度测量、方向测量、矩形测量、水平中心测量、垂直中心测量、最小边界框角度测量或最小边界框宽高比测量、左右测量差或上下测量差中的一个或多个。而且，可以将特征提取和姿势推断引擎配置为基于所提取的特征推断张开的手部姿势、闭起的手部拳头姿势、大拇指朝上的姿势、大拇指朝下的姿势、大拇指朝左的姿势或大拇指朝右的姿势中的一个。另外，还可以将特征提取和姿势推断引擎配置为通知应用关于所推断的手部姿势。

在各种实施例中，装置还可以包括相机。装置可以是从台式计算机、膝上型计算机、平板计算机、服务器、智能手机、个人数字助理、游戏控制台或机顶盒中选择的一个。

在各种实施例中，第一方法可以包括由计算装置在由深度相机所生成的一个或多个深度图像的所选相应区域中跟踪手部，其中所选相应区域在大小方面比所述相应的一个或多个深度图像小。第一方法还可以包括由计算设备至少部分地基于跟踪的结果推断手部姿势。

在各种实施例中，第二方法可以包括由计算装置从由深度相机所生成的图像帧的深度图像的相应区域中提取一个或多个特征。第二方法还可以包括由计算装置至少部分地基于从深度图像所提取的一个或多个特征来推断姿势。

现在将使用由本领域技术人员为将其工作的实质传达给本领域其他技术人员而普遍采用的术语进一步描述说明性实施例的各种方面。然而对于那些本领域技术人员显而易见的是，可以将替代实施例实践为所述方面的仅仅一部分。为了解释的目的，叙述了具体数字、材料和配置以提供对说明性实施例的全面理解。然而对于本领域技术人员显而易见的是，没有这些具体细节也可以实践各替代实施例。在其它实例中，省略或简化了公知的特征以便不阻碍说明性实施例。

还以最有助于理解说明性实施例的方式将各种操作进而描述为多个具体操作；然而描述的顺序不应被解释为暗示这些操作必然是依赖顺序的。特别是，这些操作不必以呈现的顺序被执行。以括号的格式描述的特征指示所述特征为可选特征，例如，“应用服务的（分区的）实例”指示所述应用服务可为/可不为“分区的”。

重复使用了短语“在一实施例中”。此短语通常不指同一实施例；但可指。除非上下文另外指明，术语“包含”、“具有”和“包括”是同义的。短语“A/B”意味着“A或B”。短语“A和/或B”意味着“（A）、（B)或（A和B）”。短语“A、B和C中的至少一个”意味着“（A）、（B）、（C）、（A和B）、（A和C）、（B和C）或（A、B和C）”。短语“（A)B”意味着“（B)或（AB）”，即A是可选的。

图1根据本公开的各种实施例示出了姿势识别布置的概述。如所示的，对于各实施例，计算装置102结合基于姿势的输入服务114，可以耦合于具有深度特征的相机106以便使人员104能够使用姿势，特别是手部姿势，向在装置102上操作的应用112提供输入。

除了基于姿势的输入服务（以下为GBIS）114之外，计算装置102可以是本领域内已知的多个计算设备中的任何一个。这样的计算设备的示例包括但不限于台式计算机、膝上型计算机、平板计算机、智能电话、个人数字助理、游戏控制台和/或机顶盒。同样，除了可以通过由GBIS114提供的服务接收姿势输入之外，应用112可以是得益于姿势输入的多个应用（例如游戏、媒体播放器、视频应用等）中的任何一个。对于各实施例，除了应用112和GBIS114之外，装置102还可以包括系统服务116以用来提供各种各样的系统服务，包括但不限于对应用112和GBIS114的通信服务和对相机106的外设服务。计算装置102和相机106之间的耦合可以是有线或无线的。对于各实施例，还可以将系统服务116配置为支持通过计算装置102对网络的访问。网络可以是有线或无线的、局域或广域的、私有或公共的，包括例如因特网（Internet）。

相机106可以是本领域内已知的被配置为捕捉和输出图像帧，包括确定目标物体与相机的距离、输出各种图像帧的深度图像和灰度图像的任何深度相机。适用相机的示例可以是DImager，可从日本的松下（Panasonic）获得。DImager被配置为通过测量近红外线的“飞行时间”（Time-of-Flight）来计算到目标物体的距离。DImager的水平视野是60度左右且其垂直视野是44度左右。分辨率是160×120像素左右。操作范围从1.2到9.0米。它同时输出范围（深度）图像和红外灰度图像。过程速度可达到30帧/秒（fps）。也可以采用具有生成深度和灰度图像的能力的其它深度相机来代替实践本公开。

所支持的姿势可以是依赖于应用的。在各种实施例中，所支持的姿势可以基于所提取的特征包括张开的手部姿势、闭起的手部拳头姿势、大拇指朝上的姿势、大拇指朝下的姿势、大拇指朝左的姿势或大拇指朝右的姿势。

图2根据本公开的各种实施例更详尽地示出了图1的基于姿势的输入服务。如所示的，对于各实施例，GBIS114可以包括互相操作地相耦合的面部检测引擎202、手部跟踪引擎204、特征提取和姿势推断引擎206和手部数据队列212。可以将面部检测引擎202配置为使用由相机106所生成的图像帧的灰度图像来确定面部是否存在于图像帧中。可以将手部跟踪引擎204配置为使用图像帧的深度图像跟踪手部，并将手部跟踪数据的结果输出到手部数据队列212。可以将特征提取和姿势推断引擎206配置为处理手部跟踪数据、从手部跟踪数据提取特征和至少部分地基于所提取的特征来推断手部姿势。

在各种实施例中，可以将面部检测引擎202配置为使用灰度图像和各种面部检测技术例如Haar-Cascade模型来确定面部是否存在于图像帧中。而且，对于各实施例，可以将面部检测引擎202配置为使用一个或多个深度图像来确定面部和相机之间的距离测量。在替换性实施例中，相反，可以将手部跟踪引擎204配置为使用一个或多个深度图像来确定面部和相机之间的距离测量。

在各种实施例中，可以将手部跟踪引擎204配置为，仅在面部检测引擎202已确定了面部存在于图像帧的灰度图像中之后执行手部检测和跟踪。在各种实施例中，可以将手部跟踪引擎204配置为当手部数据队列212为空时或每N帧执行手部检测。N可等于例如10。检测到手部之后，手部跟踪引擎204可以跟踪手部并将手部跟踪数据输出到手部数据队列212，直到手部已在预定数量个图像帧中停止出现。手部跟踪数据可以包括位置测量，诸如手的地点、大小和深度，以下将更全面的描述。检测和跟踪的有条件配置可以降低计算资源的消耗。

而且，在各种实施例中，可以将手部跟踪引擎204配置为选择在大小方面比所述一个或多个深度图像小的深度图像的相应区域，以便至少部分地基于所确定的面部和相机之间的距离来以跟踪手部。更具体地，可以将手部跟踪引擎204配置为选择深度图像的表示捕捉人的比其身体离相机更近的部分（手部）的地区的相应区域。通常，可期望用户通常用其身体前面的手来做手部姿势，即，比所确定的面部距离到相机更近的距离或深度。

在各种实施例中，还可以将手部跟踪引擎204配置为在跟踪区域以内确定手部的位置测量。可以将手部跟踪引擎204配置为，使用借助概率密度梯度的均值偏移过滤，对一个或多个深度图像中的相应图像以手部中心的（x,y）坐标对来确定地点位置测量。更具体地，可以将手部跟踪引擎204配置为使用以下公式来确定中心的(x,y)坐标：

x^{'} = \frac{\underset{(x, y) &Element; ROI}{Σ} p (x, y) x}{\underset{(x, y) &Element; ROI}{&Sum;} p (x, y)} . . . (1)

y^{'} = \frac{\underset{(x, y) &Element; ROI}{Σ} p (x, y) y}{\underset{(x, y) &Element; ROI}{Σ} p (x, y)} . . . (2)

其中p(x,y)通常是概率密度，此处具体指深度信息；ROI表示感兴趣的区域；且x’和y’是估计的手部中心的（x,y）坐标。如较早描述的，可以将手部跟踪引擎204配置为还确定手部的大小测量。

在各种实施例中，还可以将手部跟踪引擎204配置为使用深度、形状和大小信息执行验证以确认手部区域是否有效。在确定了任何手部跟踪结果是有效还是不可靠之后，可以将手部跟踪结果或多个结果从手部数据队列212中删除。

在各种实施例中，可以将特征提取和姿势推断引擎206配置为，对各种深度图像，从手部跟踪数据中提取偏心率测量、紧致度测量、方向测量、矩形测量、水平中心测量、垂直中心测量、最小边界框角度测量、最小边界框宽高比测量、左右测量差或上下测量差中的一个或多个。而且，可以将特征提取和姿势推断引擎206配置为基于所提取的特征推断张开的手部姿势、闭起的手部拳头姿势、大拇指朝上的姿势、大拇指朝下的姿势、大拇指朝左的姿势或大拇指朝右的姿势中的一个，214。另外，还可以将特征提取和姿势推断引擎206配置为经由例如系统服务116通知应用例如应用112关于所推断的手部姿势。

在各种实施例中，可以使用有多层感知（multi-layer perception,MLP）的分类器来实现推断逻辑。MLP分类器使用线性计算操作来提高计算效率。而且，可以使用已知样本训练分类器。在各种实施例中，为了使推断结果平滑，可以采用包含在当前时间戳之前流失的数个帧的时间滑窗来对推断结果投票，并可以输出有最多投票的推断结果。

图3根据本公开的各种实施例示出了姿势识别方法。如所示的，对于各实施例，方法300可以从块302开始，其中有深度信息的图像帧被接收。方法可以从块302前进到块304，其中使用例如面部检测技术和灰度图像来确定人员特别是面部是否存在于图像帧中。

方法可以从块304前进到块306，其中可以使用深度图像检测并跟踪人员的手部。方法可以从块306前进到块308，其中可以至少部分地基于手部跟踪数据推断手部姿势。方法可以从块308前进到块310，其中消息可以被送到系统服务以便路由到有兴趣的应用，通知应用关于所推断的手部姿势。

方法可以从块310前进到块312，其中系统服务可以将消息路由到有兴趣的应用，通知应用关于所推断的手部姿势。方法可以从块312前进到块314，其中应用可以对作为输入的对所推断的手部姿势的接收进行响应。

图4根据本公开的各种实施例示出了示例深度图像。灰度级的更高密度（更暗）表示特征到相机的距离更远。

如所示的，在各种实施例中，为了计算效率起见，用于确定人员的存在的面部检测技术的应用可以聚焦于深度图像402的面部区域404。类似地，如较早描述的，为了计算效率起见，手部跟踪可以聚焦于其中区域以内的物体离相机更近的在大小方面较小的区域。仅为了说明性的目的，由于示例的灰度级，有意将区域404和406保持得分别比面部和手部小。实际上区域404和406通常比所示出的区域大，分别涵盖面部和手部，尽管公开的实践可以用如所示的较小区域来实践。

图5根据本公开的各种实施例示出了适合用来实践图1的计算装置的示例计算机系统。如所示的，计算系统500可以包括多个处理器或处理器核502，和系统存储器504。为了本申请包括权利要求书起见，除非上下文清楚地另外要求，认为术语“处理器”和“处理器核”为同义的。另外，计算系统500可以包括大容量存储设备506（诸如盘、硬盘驱动器、紧致盘只读存储器（CDROM）等）、输入/输出设备508（诸如显示器、键盘、光标控制等）和通信接口510（诸如网络接口卡、调制解调器等）。这些元素可以经由表示一个或多个总线的系统总线512互相耦合。在多个总线的情况下，它们可以由一个或多个总线桥（未示出）桥接。

这些元素中的每一个执行其本领域内已知的常规功能。特别是，可以采用系统存储器504和大容量存储506来存储实现GBIS114和相关功能的编程指令的工作备份和永久备份，此处共同表示为计算逻辑522。功能的各种组件、模块或例程可以由处理器502支持的汇编程序指令或能被编译进这样的指令的诸如C的高级语言来实现。

编程指令的永久备份可以通过例如诸如紧致盘（CD)的分布介质（未示出）或通过通信接口510（从分布服务器（未示出））在工厂中或在现场放入永久存储506中。即，可以采用具有代理程序实现的一个或多个分布介质来分布代理和为各种计算设备编程。

这些元素502-512的构成是已知的，因此不做进一步描述。

图6根据本公开的实施例示出了具有被配置为使装置能够实践基于面部识别的控制方法和装置的编程指令的制品。如所示的，制品600可以包括计算机可读非瞬态存储介质602。存储介质602可以包括被配置为实现图1的GBIS114的编程指令604。

存储介质602表示各种各样本领域内已知的持久存储介质，包括但不限于闪存、光盘或磁盘。特别是，编程指令604可以响应于装置对其的执行使装置能够执行包括如下的操作：

由计算装置在由深度相机所生成的一个或多个深度图像的所选相应区域中跟踪手部，其中所选相应区域在大小方面比相应的一个或多个深度图像小；以及

由所述计算设备至少部分地基于所述跟踪的结果推断手部姿势。

在替换性实施例中，特别是编程指令604可以响应于装置对其的执行使装置能够执行包括如下的操作：

由计算装置从由深度相机所生成的图像帧的深度图像的相应区域中提取一个或多个特征；以及

由所述计算装置至少部分地基于从所述深度图像所提取的一个或多个特征推断姿势。

尽管此处说明并描述了具体实施例，但本领域技术人员可以理解，可以用各种替换和/或等价实现来替换所示出并描述的具体实施例而不背离本发明的实施例的范围。本申请旨在覆盖此处讨论的实施例的任何改编或变型。因此，本发明的实施例明白地旨在仅由权利要求书及其等效方案来限制。

Claims

1.一种装置，所述装置包括：

被配置为确定面部是否存在于由深度相机所生成的相应图像帧的一个或多个灰度图像中的面部检测引擎；

耦合于所述面部检测引擎的手部跟踪引擎，所述手部跟踪引擎被配置为在所述面部检测引擎确定面部存在于所述一个或多个灰度图像中之后在由所述深度相机所生成的一个或多个深度图像中跟踪手部；以及

耦合于所述手部跟踪引擎的特征提取和姿势推断引擎，所述特征提取和姿势推断引擎被配置为基于所述手部跟踪引擎的跟踪结果提取特征并至少部分地基于所提取的特征推断手部姿势。

2.如权利要求1所述的装置，其中所述面部检测引擎被配置为使用Haar-Cascade模型分析所述灰度图像以确定面部是否存在于所述一个或多个灰度图像中。

3.如权利要求1所述的装置，其中所述面部检测引擎或所述手部跟踪引擎还被配置为使用所述一个或多个深度图像确定所述面部和所述相机之间的距离测量。

4.如权利要求1所述的装置，其中所述手部跟踪引擎还被配置为选择在大小方面比所述一个或多个深度图像小的深度图像的相应区域，以便至少部分地基于所述确定的面部和相机之间的距离跟踪手部。

5.如权利要求4所述的装置，其中所述手部跟踪引擎还被配置为确定所述手部的位置测量。

6.如权利要求5所述的装置，其中所述手部跟踪引擎被配置为，使用借助概率密度梯度的均值偏移过滤，对所述一个或多个深度图像中的相应图像以所述手部中心的（x,y）坐标对来确定所述位置测量。

7.如权利要求1所述的装置，其中所述特征提取和姿势推断引擎被配置为提取偏心率测量、紧致度测量、方向测量、矩形测量、水平中心测量、垂直中心测量、最小边界框角度测量、最小边界框宽高比测量、左右测量差或上下测量差中的一个或多个。

8.如权利要求1所述的装置，其中所述特征提取和姿势推断引擎被配置为基于所提取的特征推断张开的手部姿势、闭起的手部拳头姿势、大拇指朝上的姿势、大拇指朝下的姿势、大拇指朝左的姿势或大拇指朝右的姿势中的一个。

9.如权利要求1所述的装置，其中所述特征提取和姿势推断引擎还被配置为通知应用关于所推断的手部姿势。

10.如权利要求1所述的装置，其特征在于，还包括相机。

11.如权利要求1所述的装置，其中装所述置是从台式计算机、膝上型计算机、平板计算机、服务器、智能电话、个人数字助理、游戏控制台或机顶盒中选择的一个。

12.一种方法，所述方法包括：

13.如权利要求12所述的方法，其中跟踪包括对所述深度图像确定所述手部的位置测量。

14.如权利要求13所述的方法，其中对所述深度图像确定所述手部的位置测量包括使用借助概率密度梯度的均值偏移过滤确定所述手部中心的（x,y）坐标对。

15.如权利要求12所述的方法，其中推断包括至少部分地基于所述跟踪的结果从所选相应区域中提取一个或多个特征，以及至少部分地基于所提取的一个或多个特征推断手部姿势。

16.如权利要求15所述的方法，其中提取一个或多个特征包括提取偏心率测量、紧致度测量、方向测量、矩形测量、水平中心测量、垂直中心测量、最小边界框角度测量、最小边界框宽高比测量、左右测量差或上下测量差中的一个或多个。

17.如权利要求12所述的方法，其中推断姿势包括推断张开姿势、拳头姿势、大拇指朝上的姿势、大拇指朝下的姿势、大拇指朝左的姿势或大拇指朝右的姿势中的一个。

18.一种方法，所述方法包括：

19.如权利要求18所述的方法，其中提取一个或多个特征包括提取偏心率测量、紧致度测量、方向测量、矩形测量、水平中心测量、垂直中心测量、最小边界框角度测量、最小边界框宽高比测量、左右测量差或上下测量差中的一个或多个。

20.如权利要求18所述的方法，其中从深度图像的相应区域中提取一个或多个特征包括从被表示为包含手部的深度图像的相应区域中提取一个或多个特征。

21.如权利要求18所述的方法，其中推断姿势包括推断张开姿势、拳头姿势、大拇指朝上的姿势、大拇指朝下的姿势、大拇指朝左的姿势或大拇指朝右的姿势中的一个。

22.计算机可读非瞬态存储介质，所述存储介质包括：

存储在所述存储介质中并被配置为响应于所述装置对编程指令的执行而使装置执行包括以下操作的多个编程指令：

在由深度相机所生成的一个或多个深度图像的所选相应区域中跟踪手部，其中所选相应区域在大小方面比所述相应的一个或多个深度图像小；以及

至少部分地基于所述跟踪的结果推断手部姿势。

23.如权利要求22所述的存储介质，其中跟踪包括对所述深度图像确定所述手部的位置测量。

24.如权利要求23所述的存储介质，其中对所述深度图像确定所述手部的位置测量包括使用借助概率密度梯度的均值偏移过滤确定所述手部中心的（x,y）坐标对。

25.如权利要求22所述的存储介质，其中推断包括至少部分地基于所述跟踪的结果提取所选相应区域的一个或多个特征，以及至少部分地基于所提取的一个或多个特征推断手部姿势。

26.如权利要求25所述的存储介质，其中提取一个或多个特征包括提取偏心率测量、紧致度测量、方向测量、矩形测量、水平中心测量、垂直中心测量、最小边界框角度测量、最小边界框宽高比测量、左右测量差或上下测量差中的一个或多个。

27.如权利要求22所述的存储介质，其中推断姿势包括推断张开姿势、拳头姿势、大拇指朝上的姿势、大拇指朝下的姿势、大拇指朝左的姿势或大拇指朝右的姿势中的一个。

28.如权利要求22所述的存储介质，其中所述操作还包括确定面部是否存在于相对应于由深度相机所生成的相应图像帧的一个或多个灰度图像的所述一个或多个深度图像中。

29.如权利要求28所述的存储介质，其中确定面部是否存在包括使用Haar-Cascade模型分析所述一个或多个灰度图像。

30.如权利要求28所述的存储介质，其中所述操作还包括使用所述一个或多个深度图像确定所述面部和所述相机之间的距离测量。