CN106030610A

CN106030610A - 移动设备的实时3d姿势识别和跟踪系统

Info

Publication number: CN106030610A
Application number: CN201480074558.2A
Authority: CN
Inventors: S·优素菲; H·李; F·阿卜丹孔多瑞
Original assignee: Ma Lo Gesture AG
Current assignee: Ma Lo Gesture AG
Priority date: 2014-01-05
Filing date: 2014-12-22
Publication date: 2016-10-12
Anticipated expiration: 2034-12-22
Also published as: KR102285915B1; JP2017505965A; WO2015102527A1; EP3090382A1; US20160334877A1; KR20160129000A; US10108270B2; EP3090382B1; JP6571108B2; CN106030610B

Abstract

本公开涉及用于识别3D姿势的设备和该设备中的方法。该设备连接至传感器并且能访问姿势图像的数据库，该数据库包括经标准化的姿势图像的可索引特征。可索引特征包括经标准化的姿势图像的边缘图像的每个像素的位置和方向。该方法包括：经由传感器捕捉(110)3D姿势的图像、对捕捉图像进行标准化(120)、从经标准化的已捕捉图像中导出(130)可索引特征、以及使用相似性函数将所导出的可索引特征与数据库的可索引特征进行比较(140)。该方法还包括基于该比较来确定(150)数据库中与3D姿势匹配的姿势图像。

Description

移动设备的实时3D姿势识别和跟踪系统

技术领域

本公开涉及姿势识别，且更具体地涉及用于识别3D姿势的设备和方法。

背景

人手有27个自由度(DoF)：每个手指有四个自由度，其中三个自由度用于伸直和屈曲、一个自由度用于外展和内收；拇指更复杂并且有五个DOF，剩下六个DOF用于手腕的转动和平移。由于手的运动学的大量DoF，在视频序列中捕捉手和手指运动是高度挑战性的任务。由于受限的功率和昂贵的计算，该过程在手持式智能设备上甚至更复杂。

基本上，常见的现有解决方案遵循图1所示的步骤。一个/多个传感器所捕捉到的查询图像序列将被分析以便对用户的手/手指分段。诸如背景移除、分类、特征检测等图像分析算法被利用来检测手/手指。实际上，手部跟踪和姿势识别的现有算法可以被分组为两类：基于外观的方法以及基于3D手部模型的方法(US2010053151A1、US2010159981A1、WO2012135545A1、以及US2012062558A1)。前者是基于手部姿势与2D图像特征的直接比较。用于检测人类姿势的常用图像特征包括手部色彩和形状、局部手部特征等等。基于特征的方法的缺点在于为了提取手部特征一般要求干净的图像分段。例如在背景杂乱时这不是容易的任务。而且，人手是高度枢接的。通常由于自遮挡而难以找到局部的手部特征，且需要某些种类的试探法来处理各种各样的手部姿势。取代采用2D图像特征来直接表示手部，基于3D手部模型的方法使用3D运动学手部模型来呈现手部姿态。综合分析(ABS)策略被采用来通过将3D手部模型投射的外观与从相机观察到的图像对准来恢复手部运动参数。一般而言，由于较简单的2D图像特征，用基于外观的方法来实现实时性能更容易。然而，此类方法仅可以处理简单的手部姿势，如指尖的检测和跟踪。相反，基于3D手部模型的方法提供了丰富描述，该丰富描述潜在地允许广泛类别的手部姿势。主要难题在于3D的手部是复杂的27个自由度的可变形模型。为了覆盖不同视图情况下的全部特征手部图像，因此需要非常大的数据库。将来自视频输入的查询图像与数据库中的全部手部图像匹配是耗时的并且是计算上昂贵的。这就是为什么大多数现有的基于3D手部模型的方法都着眼于以受限的照明和背景条件对全局手部运动进行实时跟踪。

概述

一个目的是解决以上提出的问题中的一些问题，并且为计算高效的实时姿势识别提供解决方案。该目的及其他目的通过根据独立权利要求所述的方法和设备并且通过根据从属权利要求的实施例来实现。

按照第一方面，提供了一种用于识别3D姿势的方法。该方法在能访问姿势图像数据库的设备中执行。该设备与适于捕捉3D姿势的图像的传感器通信。姿势图像数据库包括标准化姿势图像的可索引特征。可索引特征包括标准化姿势图像的边缘图像的每个像素的位置和方向。该方法包括：经由传感器捕捉3D姿势的图像、以及按照数据库中的标准化姿势图像对捕捉图像进行标准化。该方法还包括从标准化的捕捉图像中导出可索引特征。可索引特征包括标准化的捕捉图像的边缘图像的每个像素的位置和方向。该方法还包括：使用相似性函数对所导出的可索引特征与数据库的可索引特征进行比较，以及基于该比较来确定数据库中与3D姿势匹配的姿势图像姿势。

按照第二方面，提供了一种用于识别3D姿势的设备。该设备被配置成能访问姿势图像数据库，该数据库包括标准化姿势图像的可索引特征。可索引特征包括标准化姿势图像的边缘图像的每个像素的位置和方向。该设备可连接至适于捕捉3D姿势的图像的传感器。该设备包括处理单元。处理单元适于经由传感器来捕捉3D姿势的图像、按照数据库的标准化姿势图像来对捕捉到的图像进行标准化、以及从标准化的捕捉图像中导出可索引特征。可索引特征包括标准化的捕捉图像的边缘图像的每个像素的位置和方向。处理单元还适于使用相似性函数将所导出的可索引特征与数据库的可索引特征进行比较。处理单元还适于基于该比较来确定数据库中与3D姿势匹配的姿势图像。

各实施例的优点在于，以较少的计算资源使得高分辨率姿势识别变得实时可行。

各实施例的其他目的、优点和特征将在以下结合附图和权利要求书考虑的详细描述中说明。

附图简述

图1是示意性地图示根据现有技术的用于姿势跟踪和识别的方法的流程图。

图2A是按照本发明的各实施例的移动平台中的3D用户界面系统的示意性图画说明。

图2B是按照本发明的各实施例的采用可穿戴设备的3D用户界面的示意性图画说明。

图2C是按照本发明的各实施例的固定平台中的3D用户界面的示意性图画说明。

图3示意性地图示根据本发明的各实施例的方法和系统。

图4是示意性地图示根据本发明的各实施例的用于将姿势条目存储于数据库中的方法的流程图。

图5是示意性地图示根据本发明的各实施例的用于搜索姿势条目并且查找查询输入的匹配的方法的流程图。

图6是示意性地图示根据本发明的各实施例的用于图像查询处理的方法的流程图。

图7示意性地图示根据本发明的各实施例的用于界面层的方法。

图8示意性地图示根据各实施例的图2A所示的移动设备20。

图9示意性地图示根据各实施例的图2B所示的可穿戴设备20。

图10示意性地图示根据各实施例的图2C所示的固定设备20。

图11a-11b示意性地图示根据各实施例的由设备执行的方法。

图12示意性地图示根据各实施例的设备。

详细描述

概览

3D姿势识别是人和将来移动设备之间的交互设计中高度期望的特征。具体而言，在虚拟或增强现实环境中，与物理世界的直觉交互看上去不可避免，并且3D姿势交互可能是诸如跟踪垫和触摸屏之类的当前输入设施的最有效的替代品。在本发明的各实施例中，提供了用于3D姿势识别和跟踪的解决方案。所提出的方法和系统基于极大的姿势数据库中的匹配查找。该数据库包括关于在转动和定位以及相应的位置/方向参数方面具有所有可能的变化的各种类型的手部姿势的捕捉的条目。执行查询输入与数据库条目之间的属性的相似性分析。该系统检索包括数据库条目以及所获得的查询输入的经注释信息在内的匹配。

不像要求大量功率、计算和存储器的典型计算机视觉方法，一种新的框架被定义来解决相同的问题但使用完全不同的方法。所提出的技术可以用大规模搜索框架来处理例如高DoF手部运动的复杂度，而当前技术受限于低分辨率的姿势识别和跟踪。

对于一般的移动设备应用，需要覆盖完全范围的手部/身体姿势。为了处理高维度人类姿势空间中有挑战性的穷尽性搜索问题，提出了用于对姿势图像的大规模搜索的高效索引算法。所公开的系统的优点是对巨量数据库图像的极快检索，它能在存在噪声和杂乱的情况下，在各种照明条件下处理高DoF的手部运动。该解决方案适于对移动应用的特殊要求，如实时、低复杂度和稳健性以及高分辨率跟踪和准确性。

根据本发明的各实施例，使得配备有视觉传感器或其他类型的传感器的任何移动、可穿戴或静止的设备能够确定或识别3D空间中的人类姿势，例如手部、头部或身体姿势，其中传感器为诸如移动相机、网络相机、深度传感器或超声传感器。姿势跟踪使用查询输入序列中的所确定的或所识别的姿势来执行。识别和跟踪是基于在所注释的姿势条目的极大数据库(DB)中的高级搜索系统搜索。数据库包括具有3D空间中的全部变形和变化的全部可能的手部姿势，这可能对应于上百万个条目。在每一时刻，对于任何查询姿势，所提出的系统自动地搜索数据库并且检索最佳匹配。这会导致实时的3D姿势跟踪。该技术促成其中可使用直觉3D交互的实时应用中的用户－设备交互。本发明的各实施例被设计成支持诸如智能电话和增强现实眼镜这样的移动/可穿戴设备上的交互。它也可以用于固定的、移动的及其他数字设备。

图3图示本发明的一实施例，包括可应用于智能电话、移动设备、可穿戴智能设备、固定系统和数字小工具的方法和系统。它包括四个主要组成部分：预处理的经注释和索引的姿势数据库50；接收查询姿势的图像查询处理单元30；实时姿势搜索引擎70，它接收查询姿势并且自动从姿势数据库检索最佳匹配；以及最后是界面层90，它接收搜索引擎的输出并将该输出应用于正在进行的应用。所要求的硬件平台是任何数字设备。

系统描述

图2A是按照本发明的一实施例的3D用户界面系统200A的示意性图示。用户界面基于配备有一个/多个任何类型的传感器34(例如，2D/3D相机、超声、3D深度相机、IR相机)的任何种类(移动、固定、可穿戴等等)的智能设备20，所述传感器捕捉在设备20后面、前面和/或周围的3D场景信息，所述3D场景信息包括人类用户10的姿势32，例如手部、头部或身体姿势。为了检测/识别姿势32(手部/头部/身体姿势)，智能设备20捕捉具有足够分辨率的姿势图像来允许提取姿势32(手部/头部/身体姿势)及其具体的位置和方向。位置表示图像中的姿势中心(x,y)加上姿势尺度(在z中距传感器的距离)的空间坐标，方向是手部姿势相对于传感器的3D坐标(x,y,z)的相对方向。除了姿势32(手部/头部/身体姿势)以外，捕捉图像或查询图像33一般还包括其他身体部位和/杂乱的背景。

在图2A中，系统200A捕捉和处理包含用户的姿势32(手部/头部/身体姿势)的查询图像33的序列。在用户10执行姿势32(手部/头部/身体姿势)时，系统200A通过查询图像33的序列跟踪用户的姿势32(手部/头部/身体姿势)。在设备20的处理单元24和/或捕捉传感器34上运行的软件处理该图像序列以检索每个查询图像33中的用户姿势32的可索引特征36，如本文中以下详细解释的。软件将所提取的可索引特征36与大规模经索引特征词汇表72相匹配以便为查询图像33找到最佳匹配，如本文中以下详细解释的。大规模词汇表是来自数据库图像的可索引特征的大规模矩阵。

数据库52包括数百万个手部姿势图像。手部姿势图像用具体的3D运动参数(三个位置参数和三个方向参数)58来注释，如本文中以下详细解释的。在数据库52中为查询输入33寻找最佳手部姿势图像提供查询输入33的3D运动参数。

图5图示的方法还通过序列中的多个帧分析姿势图73以便优化并加速搜索过程，如本文中以下描述的。

该系统还可以包括运动跟踪功能以便通过查询输入33的序列跟踪用户姿势32，以使图5所示的方法可任选地每两个(或更多个)帧仅执行一次。

一个/多个检测到的/识别到的输出(动作/姿势/3D运动、所注释的图像、…)92经由应用编程接口(API)被提供给在设备20上运行的应用程序。该程序可以例如响应于一个/多个执行的姿势32而移动和修改显示器100上呈现的图像、3D对象或其他2D/3D视觉内容94。

作为替代，这些处理功能中的全部或一些可由与任何其他计算机化设备集成的适当处理器实现，任何其他计算机化设备为诸如游戏控制台、媒体播放器、智能TV等。配备有捕捉传感器34(2D/3D相机、IR传感器、超声等)、存储单元22和处理单元24的任何计算机化装置可利用上述功能中的至少一些来提供较佳的用户界面系统。

提供姿势图像数据库

图4是用于形成经注释姿势图像数据库52的可索引特征54的方法50的示意图。数据库包含在方向、定位和尺度方面全部都有可能变化的手部姿势条目的一大组不同的实时图像56。它也可以包括由3D枢接的手部模型/3D图形模型等用已知的位置和方向参数合成的全部手部姿势图形57。

除了查询输入33和数据库之间的匹配以外，旨在实现的一个重要特征是从查询输入33中检索3D运动参数(对应于三个维度的三个位置参数和三个方向参数)。由于查询输入33不包含3D运动参数(三个方向和三个位置参数)，最佳解决方案是将查询输入33的3D运动参数(三个方向和三个位置参数)与从数据库中检索到的最佳匹配相关联。为此，数据库条目用它们的地面实况3D运动参数(三个方向和三个位置参数)58来标记。这可以通过任何运动捕捉系统来完成，如基于视觉的系统、磁性传感器、IMU等。其他姿势条目源59也被用来扩展数据库。通过将3D运动参数(三个方向和三个位置参数)标记至手部姿势图像，形成经注释姿势图像数据库52。经注释姿势图像数据库52中的每个条目表示纯姿势条目(无背景和噪声)。方法50提取经注释姿势图像数据库52中的每个条目的可索引特征54。可索引特征54包括低级边缘方向属性，所述低级边缘方向属性包括从经注释姿势图像数据库52中的条目中导出的边缘像素的确切位置和方向。如果每一单个边缘像素被认为是2D图像坐标上的细线，则边缘像素的方向是该细线相对于图像坐标原点的角度。技术上，它可以从图像相对于x和y方向的梯度中计算。

为了提取可索引特征54，经注释姿势图像数据库52中的全部条目将被标准化，且其相应的边缘图像被计算。边缘图像可以通过对姿势图像进行滤波来计算。不同的边缘检测器在计算机视觉领域中已知并且也可以被使用。每一单个边缘像素将由其位置和方向来表示。为了形成低级边缘方向特征的全局结构，大规模词汇表72被形成以表示每个边缘特征可能发生的全部可能的情况。考虑与边缘的位置和方向有关的整个数据库，大规模词汇表72可以用边缘像素格式表示手势的整个词汇表。边缘像素格式是边缘图像的每个像素根据其位置和方向的表示。

图像查询处理

图6是示意性地图示用于图像查询处理的方法30的示意图。查询输入33用一个/多个传感器34(2D/3D相机、IR传感器、超声等等)捕捉到的用户10的姿势32(手部/头部/身体姿势)的具体的三个位置和三个方向参数来表征该姿势32。一个/多个传感器34捕捉设备20后面或前面的3D场景信息。智能设备20捕捉查询输入33的序列并且处理它们以检索可索引特征36。方法30从查询输入33中提取可索引特征36。可索引特征36包括低级边缘方向属性，所述低级边缘方向属性包括从查询输入33导出的边缘像素的确切位置和方向。

为了提取可索引特征36，查询输入33将被标准化，并且其相应的边缘图像被计算。每一单个边缘像素将由其位置和方向来表示。

基本上，捕捉用户姿势32(手部/头部/身体姿势)的查询输入33包含由不相关的对象、环境噪声等引起的杂乱背景，因此根据查询输入33检索到的可索引特征36包含来自姿势32的特征和来自有噪背景的特征两者。另一方面，经注释姿势图像数据库52中的每个条目表示纯姿势条目(无背景和噪声)，因此从经注释姿势图像数据库52中的每个条目中检索到的可索引特征54仅表示来自纯姿势的特征。因此，查询图像的边缘图像无法被定义得与数据库图像中的边缘图像一样精确。

姿势搜索引擎

图5图示了用于姿势搜索引擎70的方法。经注释姿势图像数据库52中的每个条目的所提取可索引特征54构建姿势搜索引擎70中的大规模可索引特征词汇表72。

大规模经索引特征词汇表72被形成以表示每个边缘特征可能发生的所有可能情况。考虑与边缘的位置和方向有关的整个数据库，大规模词汇表72可以用边缘像素格式表示姿势的整个词汇表。例如，对于为p*q像素的图像尺寸、以及L边缘方向表示，对于具有N个姿势图像的数据库，词汇表72将具有p*q*L个列和N个行。因此，词汇表72用具有具体的行和列处的特征的所有数据库图像52的索引来填充。词汇表72从整个数据库52收集所需的信息，这在用于姿势搜索引擎70的方法中是必要的。

为了检测/识别查询图像33中的用户姿势32，大规模搜索表72以及每个查询图像33的所检索的可索引特征被直接相似性分析函数75用来在经注释姿势图像数据库52中选择前m个第一级匹配。

采用边缘像素格式的每个查询输入33包含一组边缘点，该组边缘点可由行-列位置和具体方向来表示。直接相似性函数分析75基于全部边缘特征的位置和具体方向来计算查询输入33的所检索的可索引特征36与大规模经索引特征词汇表72之间的相似性。直接相似性分析函数是向一对数据值分配分数的函数，其中该分数指示查询的经索引特征与数据库中的每个条目的经索引特征的相似性。如果查询输入33中的检索到的可索引特征36以及经注释的姿势图像数据库52的检索到的可索引特征54满足特定条件，则直接相似性分析函数75向具有在那些具体行-列位置处都有相似方向的边缘的全部数据库图像52分配+K1个点。直接相似性分析函数75对查询输入33的每一单个边缘像素格式执行上述过程。

直接相似性分析函数75的第一步满足其中来自查询输入33以及数据库图像52的两个边缘图案正好彼此覆盖的情况，而在大多数实际情况中，两个相似图案在位置上彼此极接近，但在它们之间没有大的重叠。对于常规发生的这些情况，直接相似性分析函数75基于第一级和第二级邻居像素来分配额外的点。

非常可能的情况是在两个极相似的图案不重叠但却落在彼此的相邻像素上时。为了考虑这些情况，除了直接相似性分析函数75的第一步以外，对于任何单个像素而言，为了分配额外的点应当考虑数据库图像中的第一级8个相邻像素以及第二级16个相邻像素。任一单个像素的第一级8个相邻像素是围绕该单个像素的像素。第二级邻居包括围绕第一级8个相邻像素的16个像素。具有在第一级邻居和第二级邻居中都有相同方向的边缘的全部数据库图像52分别接收+K2个点以及+K3个点。简言之，针对在三个级别有不同权重的数据库图像的相似性，对于查询中的全部边缘像素执行直接相似性分析75。最后，每个数据库图像的累积分数被计算和标准化，并且最大分数被选择作为前m个第一级匹配。

为了在前m个第一级匹配中查找最接近的匹配，逆相似性分析76被执行。逆相似性分析76意指除了查找查询姿势32与经注释姿势图像数据库52中的条目的相似性以外，还应当计算经注释姿势图像数据库52中所选择的前m个条目与查询姿势32的逆相似性(reverse similarity)。出于准确性原因而使用逆相似性函数。不使用逆相似性分析会得到较低的检索准确度，但降低复杂度。

逆相似性分析76为给定用户姿势32从经注释图像数据库52中返回n个最佳匹配(n<m)。直接相似性分析75与逆相似性分析76函数的组合为查询输入33从经注释姿势图像数据库52中返回最佳匹配。

姿势搜索引擎70中的另一任选步骤是通过采用姿势邻域分析函数77的姿势搜索的平滑。平滑意指3D姿势交互序列中的检索到的最佳匹配应当表示平滑运动。为了执行平滑检索，分析经注释姿势图像数据库52中的条目并将所述条目映射至高维度空间以检测姿势图73。姿势图73指示哪些姿势彼此更靠近并且落在高维度的同一邻域中。因此，对于序列中的查询输入33，在执行直接相似性分析函数75之后，逆相似性将由逆相似性分析函数76计算，并且将选择最高匹配。此后，方法70搜索姿势图73以检查这些最高匹配中的哪个匹配较接近于前一个帧匹配，并且将选择经注释图像数据库52中的最接近的条目作为最终的最佳匹配。此后，可以立即使用对最佳匹配的已标记的3D运动参数(三个位置和三个方向参数)58来促成在显示器100上运行的各种应用场景。

界面

图7是示意性地图示界面层90的接收搜索引擎70的检测/识别输出(动作/姿势/3D运动、经注释图像等等)92的方法的流程图。所检测的/所识别的参数(动作/姿势/3D运动、经注释的图像等)92经由应用编程接口(API)被提供给设备20上运行的应用。应用可以包括显示器100上呈现的2D/3D视频游戏、2D/3D对象建模/渲染、照片浏览、地图、导航等。用户10感知显示器100上的响应于用户姿势32性能被连续修改的输出视觉内容(2D/3D)94。

设备的详细描述

图8图示图2A所示的移动设备20。移动设备20由存储单元22、处理单元24、传感器34(例如，2D/3D相机、IR传感器、超声等)和显示器100组成。传感器34捕捉设备20前面的3D场景信息。移动设备20也可以包括后传感器34(例如，2D/3D相机、IR传感器、超声等等)，所述后传感器34捕捉移动设备20后面的3D场景信息。移动设备20捕捉查询输入33的序列并且处理它们以检索可索引特征36。存储单元22存储经注释姿势图像数据库52、大规模经索引特征词汇表72、以及姿势图73。处理单元24执行用于图像查询处理的方法30、以及用于搜索引擎70的方法。处理单元24还响应于用户姿势32性能来修改显示器100上呈现的输出视觉内容(2D/3D)94。显示器100显示移动设备20上运行的应用。应用可以包括显示器100上呈现的2D/3D视频游戏、2D/3D对象建模/渲染、照片浏览、地图、导航等。用户10感知显示器100上的响应于用户姿势32性能被连续修改的输出视觉内容(2D/3D)94。图9图示图2B所示的可穿戴设备20。可穿戴设备20由存储单元22、处理单元24、传感器34(例如，2D/3D相机、IR传感器、超声等)和显示器100组成。传感器34捕捉可穿戴设备20前面的3D场景信息。可穿戴设备20捕捉查询输入33的序列并且处理它们以检索可索引特征36。存储单元22存储经注释姿势图像数据库52、大规模经索引特征词汇表72、以及姿势图73。处理单元24执行用于图像查询处理的方法30、以及用于搜索引擎70的方法。处理单元24还响应于用户姿势32性能来修改显示器100上呈现的输出视觉内容(2D/3D)94。显示器100显示可穿戴设备20上运行的应用。应用可以包括显示器100上呈现的2D/3D视频游戏、2D/3D对象建模/呈现、照片浏览、地图、导航等。用户10感知显示器100上的响应于用户姿势32性能被连续修改的输出视觉内容(2D/3D)94。

图10图示了图2C示出的固定设备20。固定设备20由存储单元22、处理单元24、传感器34(例如，2D/3D相机、IR传感器、超声等)和显示器100组成。传感器34捕捉固定设备20前面的3D场景信息。固定设备20捕捉查询输入33的序列并且处理它们以检索可索引特征36。存储单元22存储经注释姿势图像数据库52、大规模经索引特征词汇表72、以及姿势图73。处理单元24执行用于图像查询处理的方法30、以及用于搜索引擎70的方法。处理单元24还响应于用户姿势32性能来修改显示器100上呈现的输出视觉内容(2D/3D)94。显示器100显示固定设备20上运行的应用。

应用可以包括显示器100上呈现的2D/3D视频游戏、2D/3D对象建模/渲染、照片浏览、地图、导航等。用户10感知显示器100上的响应于用户姿势32性能被连续修改的输出视觉内容(2D/3D)94。

根据各实施例的方法和设备

在本发明的各实施例中解决了用于实时姿势识别的设备中的资源需求计算以及受限功率的问题。图11a是图示根据各实施例的用于识别3D姿势的方法的流程图。该方法在设备20中执行，设备20能访问姿势图像数据库52并且与传感器34通信。传感器34适于捕捉3D姿势的图像33。传感器可以是设备的一个集成部分，或者它可以是可连接至设备的单独传感器。姿势图像数据库52包括经标准化的姿势图像的可索引特征54，所述可索引特征包括经标准化的姿势图像的边缘图像的每个像素的位置和方向。设备可以包括用于存储数据库52的存储单元22，或者它可以包括用于经由存储数据库52的远程数据库节点例如经由互联网进行通信的接口单元。该方法包括：

·110:经由传感器34捕捉3D姿势的图像33。在各实施例中，捕捉图像可以包括捕捉3D姿势的图像序列。图像序列可用于细化对匹配数据库图像的确定，如以下将详述的。

·120:对捕捉图像进行标准化。标准化可以按照数据库中的经标准化的姿势图像来完成以允许比较。标准化可以包括将捕捉图像的尺寸重新调整为数据库图像的尺寸。数据库条目一般被标准化为标准的图像尺寸，诸如320*240像素或640*480像素，因此捕捉图像可以被标准化为数据库条目的特定尺寸。

·130:从经标准化的捕捉图像33中导出可索引特征36。可索引特征36包括经标准化的捕捉图像的边缘图像的每个像素的位置和方向。

·140:使用相似性函数将所导出的可索引特征36与从数据库导出的可索引特征54进行比较。

·150:基于该比较来确定数据库52中与3D姿势匹配的姿势图像。

使用包括经标准化的已捕捉图像的边缘图像的每个像素的位置和方向的可索引特征的一个优点在于：它允许识别3D姿势的计算上高效的方式。

图11b是根据另一实施例的设备中的方法的流程图。该方法包括以上参照图11a所述的步骤。然而，对所导出的可索引特征36进行比较140的步骤进一步包括：

·141:使用直接相似性分析来确定数据库中与捕捉图像匹配的多个姿势图像；以及

·142:使用对多个姿势图像的逆相似性分析来确定与捕捉图像匹配的多个姿势图像的子集。

在该实施例中，数据库52中与3D姿势匹配的姿势图像被确定150为是所述多个姿势图像的子集中的一个姿势图像。然而，如之前已描述的，使用逆相似性分析的步骤142是任选的。在不执行逆相似性分析时，数据库52中与3D姿势匹配的姿势图像被确定150为是通过直接相似性分析确定的多个姿势图像之一。直接相似性分析和逆相似性分析在以上子章节“姿势搜索引擎”中进一步描述。逆相似性分析76可出于准确性原因被使用。然而，尽管不使用逆相似性分析会得到较低的检索准确度，但好处是它降低了复杂度。

图11b中的流程图也图示了该方法还可以包括使用160所确定的与3D姿势匹配的姿势图像来修改显示器上呈现的视觉内容，如以上在例如章节“接口”中已经例示的。

两个非常相似的姿势图像可能不具有重叠的边缘像素，但可以落在彼此的相邻像素上。为了考虑这些情况，除了直接相似性分析函数75的第一步骤以外，在与所捕捉的图像进行比较时可以考虑数据库图像中的第一级的8个相邻像素以及第二级的16个相邻像素。因此，在各实施例中，由该设备执行的方法还可以包括：

-导出附加的可索引特征，所述附加的可索引特征包括来自经标准化的已捕捉图像的边缘图像的每个像素的相邻像素的位置和方向；以及

－使用相似性函数将所导出的附加可索引特征与数据库的附加可索引特征进行比较。

然后，也可以基于附加可索引特征的比较来确定数据库52中与3D姿势匹配的姿势图像。

而且，与3D姿势匹配的姿势图像可以基于姿势图来确定，所述姿势图指示姿势图像序列中彼此接近的各姿势图像。设备中的方法还可以包括基于图像序列来跟踪用户姿势、且数据库中与3D姿势匹配的姿势图像可还基于所跟踪的用户姿势来确定。

在上述实施例的任一个中，姿势图像数据库52中的每个条目可以用包括三个方向和三个位置参数的相关联的3D运动参数来标记。因此，该方法还可以包括从数据库中检索和与3D姿势相匹配的所确定的姿势图像相关联的3D运动参数。

图12是示意性地图示根据各实施例的用于识别3D姿势的设备20的框图。设备20被配置成能访问姿势图像的数据库52，该数据库52包括标准化姿势图像的可索引特征54。可索引特征包括标准化姿势图像的边缘图像的每个像素的位置和方向。该设备可连接至适于捕捉3D姿势的图像33的传感器34。传感器34可被包括在设备20中，或者它可以与该设备分开。设备20包括处理单元24，所述处理单元24适于经由传感器捕捉3D姿势的图像33、对所捕捉的图像进行标准化、以及从经标准化的已捕捉图像33中导出可索引特征36。可索引特征包括经标准化的所捕捉图像的边缘图像的每个像素的位置和方向。处理单元24还适于：使用相似性函数将所导出的可索引特征36与数据库的可索引特征54进行比较，以及基于该比较来确定数据库52中与3D姿势匹配的姿势图像。

处理单元24还可以适于通过使用相似性分析对所导出的可索引特征进行比较来确定数据库中与所捕捉的图像相匹配的多个姿势图像、并确定数据库52中与3D姿势相匹配的姿势图像是多个姿势图像之一。

此外，处理单元24可进一步适于通过使用对多个姿势图像的逆相似性分析来对所导出的可索引特征进行比较，以确定与所捕捉的图像匹配的多个姿势图像的子集、并确定数据库52中与3D姿势匹配的姿势图像为多个姿势图像的子集中的一个姿势图像。

在各实施例中，处理单元24还可以适于从经标准化的已捕捉图像中导出包括边缘图像的每个像素的相邻像素的位置和方向的附加可索引特征。处理单元24还可适于：使用相似性函数将所导出的附加可索引特征与数据库的附加可索引特征进行比较，以及基于附加可索引特征的比较来确定数据库52中与3D姿势匹配的姿势图像。

处理单元24还可适于基于姿势图来确定与3D姿势匹配的姿势图像，所述姿势图指示姿势图像序列中彼此接近的姿势图像。处理单元24可适于经由传感器34来捕捉3D姿势的图像序列。在该实施例中，处理单元还可适于基于图像序列来跟踪用户姿势、并且还基于所跟踪的用户姿势来确定数据库52中与3D姿势匹配的姿势图像。

处理单元24还可适于使用所确定的与3D姿势匹配的姿势图像来修改显示器上呈现的视觉内容。此外，姿势图像数据库52中的每个条目可以用包括三个方向参数和三个位置参数的相关联的3D运动参数来标记，且处理单元24还可适于从数据库52中检索与所确定的和3D姿势匹配的姿势图像相关联的3D运动参数。

在各实施例中，设备20可以包括存储器，该存储器包含可由所述处理单元24执行的指令，借此该设备可用于经由传感器捕捉3D姿势的图像、按照数据库的经标准化的姿势图像对所捕捉的图像进行标准化、从经标准化的已捕捉图像中导出可索引特征、使用相似性函数将所导出的可索引特征与数据库的可索引特征进行比较、以及基于该比较来确定数据库中与3D姿势匹配的姿势图像。设备20也可以包括接口电路，该接口电路连接至处理单元24并且被配置成与传感器34和/或数据库52通信。

在描述图12的实施例的一种替代方式中，设备20可以包括：用于经由传感器捕捉3D姿势的图像的装置、用于按照该数据库的经标准化的姿势图像对所捕捉的图像进行标准化的装置、用于从经标准化的已捕捉图像导出可索引特征的装置、用于使用相似性函数将所导出的可索引特征与数据库的可索引特征进行比较的装置、以及基于该比较来确定数据库中与3D姿势匹配的姿势图像的装置。上述装置是可以用硬件、软件、固件或者它们的任意组合来实现的功能单元。在一实施例中，所述装置被实现为处理器上运行的计算机程序。

在描述图12的实施例的另一种替代方式中，设备20可以包括中央处理单元(CPU)，该中央处理单元(CPU)可以是单个单元或多个单元。此外，设备20可以包括至少一个计算机程序产品(CPP)，该至少一个计算机程序产品(CPP)采用非易失性存储器(例如，EEPROM(电可擦除可编程只读存储器))、闪存或者磁盘驱动器的形式。CPP可以包括计算机程序，计算机程序包括在设备20的CPU上运行时使设备20执行以前结合图11a-b描述的方法的代码装置。换言之，当所述代码装置在CPU上运行时，它们对应于图12中的处理单元24。

以上提及且描述的实施例仅作为示例给出，而不应当是限制性的。在所附专利权利要求书的范围内的其他解决方案、用途、目标及功能也可能是可行的。

Claims

1.一种用于识别三维3D姿势的方法，所述方法在能访问姿势图像数据库(52)的设备(20)中执行，所述设备与适于捕捉所述3D姿势的图像(33)的传感器(34)通信，其中所述姿势图像数据库(52)包括经标准化的姿势图像的可索引特征(54)，所述可索引特征包括经标准化的姿势图像的边缘图像的每个像素的位置和方向，所述方法包括：

-经由所述传感器捕捉(110)所述3D姿势的图像(33)，

-按照所述数据库(52)的经标准化的姿势图像对已捕捉图像进行标准化(120)，

-从经标准化的已捕捉图像(33)中导出(130)可索引特征(36)，所述可索引特征(36)包括所述经标准化的已捕捉图像的边缘图像的每个像素的位置和方向，

-使用相似性函数将所导出的可索引特征(36)与所述数据库的可索引特征(54)进行比较，以及

-基于所述比较来确定(150)所述数据库(52)中与所述3D姿势匹配的姿势图像。

2.根据权利要求1所述的方法，其特征在于，将所导出的可索引特征进行比较(140)进行包括：

-使用(141)直接相似性分析来确定所述数据库中与捕捉图像匹配的多个姿势图像，

并且其中所述数据库(52)中与所述3D姿势匹配的姿势图像被确定(150)为是所述多个姿势图像之一。

3.根据权利要求2所述的方法，其特征在于，将所导出的可索引特征进行比较(140)进一步包括：

-使用(142)对所述多个姿势图像的逆相似性分析来确定与捕捉图像匹配的所述多个姿势图像的子集，

且其中所述数据库(52)中与3D姿势匹配的姿势图像被确定(150)为是所述多个姿势图像的所述子集中的一个姿势图像。

4.根据前述权利要求中的任一项所述的方法，其特征在于，进一步包括：

-导出附加的可索引特征，所述附加的可索引特征包括来自经标准化的已捕捉图像的边缘图像的每个像素的相邻像素的位置和方向，

-使用所述相似性函数将所导出的附加可索引特征与所述数据库的附加可索引特征进行比较，

并且其中，所述数据库(52)中与所述3D姿势匹配的姿势图像还基于对所述附加可索引特征的比较来确定。

5.根据前述权利要求中的任一项所述的方法，其特征在于，与所述3D姿势匹配的姿势图像是基于姿势图来确定的，所述姿势图指示姿势图像序列中彼此接近的姿势图像。

6.根据前述权利要求中的任一项所述的方法，其特征在于，捕捉(110)图像包括捕捉所述3D姿势的图像序列。

7.根据权利要求6所述的方法，其特征在于，进一步包括：

-基于所述图像序列来跟踪用户姿势，

并且其中，所述数据库(52)中与所述3D姿势匹配的姿势图像还基于所跟踪的用户姿势来确定。

8.根据前述权利要求中的任一项所述的方法，其特征在于，进一步包括：

-使用(160)所确定的与所述3D姿势匹配的姿势图像来修改显示器上呈现的视觉内容。

9.根据前述权利要求中的任一项所述的方法，其特征在于，所述姿势图像数据库(52)中的每个条目用包括三个方向参数和三个位置参数的相关联的3D运动参数来标记，所述方法进一步包括：

-从所述数据库(52)中检索与所确定的与所述3D姿势匹配的姿势图像相关联的3D运动参数。

10.一种用于识别三维3D姿势的设备(20)，所述设备被配置为能访问姿势图像数据库(52)，所述数据库包括经标准化的姿势图像的可索引特征(54)，所述可索引特征包括经标准化的姿势图像的边缘图像的每个像素的位置和方向，所述设备可连接至适于捕捉所述3D姿势的图像(33)的传感器(34)，且所述设备包括处理单元(24)，所述处理单元(24)适于：

-经由所述传感器(34)捕捉所述3D姿势的图像(33)，

-按照所述数据库(52)的经标准化的姿势图像对已捕捉图像进行标准化，

-从经标准化的已捕捉图像(33)中导出可索引特征(36)，其中所述可索引特征(36)包括经标准化的已捕捉图像的边缘图像的每个像素的位置和方向，

-基于所述比较来确定所述数据库(52)中与所述3D姿势匹配的姿势图像。

11.根据权利要求10所述的设备(20)，其特征在于，所述处理单元(24)还适于通过以下来将所导出的可索引特征进行比较：

-使用直接相似性分析来确定所述数据库中与捕捉图像匹配的多个姿势图像，

所述处理单元(24)进一步适于确定所述数据库(52)中与所述3D姿势匹配的姿势图像是所述多个姿势图像之一。

12.根据权利要求11所述的设备(20)，其特征在于，所述处理单元(24)还适于通过以下来将所导出的可索引特征进行比较：

-使用对所述多个姿势图像的逆相似性分析来确定与捕捉图像匹配的所述多个姿势图像的子集，

所述处理单元(24)进一步适于确定所述数据库(52)中与速搜3D姿势匹配的姿势图像是所述多个姿势图像的所述子集中的一个姿势图像。

13.根据权利要求10-12中的任一项所述的设备(20)，其特征在于，所述处理单元(24)进一步适于：

-使用所述相似性函数将所导出的附加可索引特征与所述数据库的附加可索引特征进行比较，以及

-还基于对所述附加可索引特征的比较来确定所述数据库(52)中与所述3D姿势匹配的姿势图像。

14.根据权利要求10-13中的任一项所述的设备(20)，其特征在于，所述处理单元(24)还可适于基于姿势图来确定与3D姿势匹配的姿势图像，所述姿势图指示姿势图像序列中彼此接近的姿势图像。

15.根据权利要求10-14中的任一项所述的设备(20)，其特征在于，所述处理单元(24)还适于经由所述传感器(34)来捕捉所述3D姿势的图像序列。

16.根据权利要求15所述的设备(20)，其特征在于，所述处理单元(24)进一步适于：

-基于所述图像序列来跟踪用户姿势，以及

-还基于所跟踪的用户姿势来确定所述数据库(52)中与所述3D姿势匹配的姿势图像。

17.根据权利要求10-16中的任一项所述的设备(20)，其特征在于，所述处理单元(24)进一步适于：

-使用所确定的与3D姿势匹配的姿势图像来修改显示器上呈现的视觉内容。

18.根据权利要求10-17中的任一项所述的设备(20)，其特征在于，所述姿势图像数据库(52)中的每个条目用包括三个方向参数和三个位置参数的相关联的3D运动参数来标记，所述处理单元(24)还适于：