CN103310188A

CN103310188A - 用于姿态识别的方法和设备

Info

Publication number: CN103310188A
Application number: CN201310071194XA
Authority: CN
Inventors: 邢乘龙; 金桐秀; 卢庆植; 沈营辅; 尹硕浚; 黄元俊; 黄孝锡
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2012-03-06
Filing date: 2013-03-06
Publication date: 2013-09-18
Also published as: US20130238295A1; EP2637141A2; EP2637141A3; KR101907077B1; KR20130101942A

Abstract

一种用于姿态识别的设备和方法，用于姿态识别的方法包括：在虚拟空间中产生人体模型；基于具有人体的每个部分的角度和角速度作为状态变量的状态向量预测人体模型的下一姿态；预测关于预测姿态的深度图像；基于预测的深度图像和实际拍摄的深度图像之间的相似度识别实际拍摄的深度图像中的人的姿态，其中，基于具有角速度作为状态变量的状态向量来预测下一姿态，从而减少了将要产生的姿态样本的数量并提高了姿态识别速度。

Description

用于姿态识别的方法和设备

技术领域

本公开的实施例涉及一种用于姿态识别的方法和设备，更具体地，涉及一种能够提高姿态识别的识别速度的用于姿态识别的方法和设备。

背景技术

近年来，随着非接触传感器(诸如深度相机或加速度仪)的发展，人和机器设备之间的接口从接触方法转变为非接触方法。

深度相机在目标上照射激光或红外线(IR)，并基于照射的激光或IR在被目标反射之后所花费的时间(即，基于飞行时间(TOF))，计算相机和目标之间的距离(即，目标的深度信息)。通过使用深度相机，获得了包括每个像素的深度信息的三维深度图像。

如果使用如上获得的三维深度图像，则与仅使用二维图像的情况相比，可在更精确的程度上测量人的姿态信息。

按照以上方式获得姿态信息的方法的一个示例是概率姿态信息获取方法。概率姿态信息获取方法实现为如下。首先，通过以圆柱体的形式表示每个身体部分(头、躯干、左上臂、左前臂、右上臂、右前臂、左大腿、左小腿、右大腿和右小腿)。然后，通过从人体模型的初始姿势改变圆柱体之间的角度(即，关节角度)来产生多个姿态样本。接下来，将通过深度相机获得的深度图像与通过将各个姿态样本投影到人体而获得的投影图像相比较，从而选择具有与获得的深度图像最相似姿态的投影图像。最后，获得选择的投影图像的姿态信息。

然而，当使用概率姿态信息获取方法时，需要产生关于多个候选姿势的投影图像，导致计算量和获得姿态信息所需的时间增加。

发明内容

因此，本公开的一方面在于提供一种能够减少姿态识别所花费的时间的用于姿态识别的方法和设备。

将在以下的描述中部分地阐述本公开的另外的方面，部分地，通过描述将是清楚的，或者可通过本公开的实践而得知。

根据本公开的一方面，一种识别姿态的方法如下。可在虚拟空间中产生人体模型。可基于具有人体的每个部分的角度和角速度作为状态变量的状态向量预测人体模型的下一姿态。可预测关于预测姿态的深度图像。可基于预测的深度图像和实际拍摄的深度图像之间的相似度识别实际拍摄的深度图像中的人的姿态。

可通过执行以下操作来实现预测人体模型的下一姿态的步骤。可计算状态变量的平均值。可基于状态变量的平均值计算状态变量的协方差。可基于状态变量的协方差产生随机数。可通过使用基于随机数产生的变化预测下一姿态。

可通过执行以下操作来实现预测关于预测姿态的深度图像的步骤。如果人体模型采用预测姿态，则可产生关于将在图像中表示的人体模型的剪影而预测的虚拟图像。可将虚拟图像的尺寸归一化为预定尺寸。可预测深度图像，该深度图像包括归一化的虚拟图像中的剪影内存在的每个点的深度信息。

可通过执行以下操作来实现将虚拟图像的尺寸归一化为预定尺寸的步骤。可以以预定减小率减小虚拟图像的尺寸。减小率可以是在虚拟图像中获得的人的尺寸除以期望的人的减小尺寸的值。

可通过执行以下操作来实现基于相似度识别姿态的步骤。可将具有基于当前时刻预测的人体模型的姿态的相似度中最高相似度的姿态选择作为最终姿态。可基于最终姿态的关节角度识别实际拍摄的深度图像中的人的姿态。

可通过执行以下操作来进一步实现所述方法。可计算预测的深度图像和实际拍摄的深度图像之间的相似度。如果计算的相似度高于先前计算的相似度，则可将预测的姿态设置为参考姿态，如果计算的相似度低于先前计算的相似度，则可将先前姿态设置为参考姿态。可基于参考姿态预测下一姿态。

可通过执行以下操作来实现基于参考姿态预测下一姿态的步骤。如果当前时刻关于人体预测的姿态不符合关于实际拍摄的深度图像中的人的姿态的正态分布，则可基于参考姿态预测下一姿态。

根据本公开的另一方面，一种识别姿态的设备包括建模单元、姿态样本产生单元、图像预测单元和姿态识别单元。建模单元可被配置为在虚拟空间中产生人体模型。姿态样本产生单元可被配置为基于具有人体的每个部分的角度和角速度作为状态变量的状态向量预测人体模型的下一姿态。图像预测单元可被配置为预测关于预测姿态的深度图像。姿态识别单元可被配置为基于预测的深度图像和实际拍摄的深度图像之间的相似度识别实际拍摄的深度图像中的人的姿态。

姿态样本产生单元可基于状态变量的平均值计算状态变量的协方差，并通过使用基于状态变量的协方差产生的随机数作为变化来预测下一姿态。

图像预测单元可包括虚拟图像产生单元、归一化单元和深度图像产生单元。虚拟图像产生单元可被配置为在人体模型采用预测姿态的情况下，产生关于将在图像中表示的人体模型的剪影而预测的虚拟图像。归一化单元可被配置为将虚拟图像的尺寸归一化为预定尺寸。深度图像产生单元可被配置为预测深度图像，该深度图像包括归一化的虚拟图像中的剪影内存在的每个点的深度信息。

归一化单元可以以预定减小率减小虚拟图像的尺寸。减小率可以是在虚拟图像中获得的人的尺寸除以期望的人的减小尺寸的值。

姿态识别单元可将具有基于当前时刻预测的人体模型的姿态的相似度中最高相似度的姿态选择作为最终姿态，并基于最终姿态的关节角度识别实际拍摄的深度图像中的人的姿态。

姿态识别单元可包括相似度计算单元和参考姿态设置单元。相似度计算单元可被配置为计算预测的深度图像和实际拍摄的深度图像之间的相似度。参考姿态设置单元可被配置为如果计算的相似度高于先前计算的相似度，则将预测的姿态设置为参考姿态，并可被配置为如果计算的相似度低于先前计算的相似度，则将先前姿态设置为参考姿态。

姿态样本产生单元可被配置为：如果当前时刻关于人体预测的姿态不符合关于实际拍摄的深度图像中的人的姿态的正态分布，则基于参考姿态预测下一姿态。

如上所述，根据本公开的实施例，基于包括虚拟空间中产生的人体模型的每个部件的角度和角速度作为状态变量的状态向量来预测下一姿态，因此减少了产生的姿态样本的数量，提高了姿态识别速度。

由于在对针对预测姿态的虚拟图像的尺寸进行归一化之后产生深度图像，因此当与不对虚拟图像进行归一化产生深度图像时相比，计算量减少并且提高了姿态识别速度。

附图说明

以下通过结合附图对实施例的描述，本公开的这些和/或方面将变得清楚和更容易理解，其中：

图1是示出根据本公开实施例的姿态识别设备的配置的示图；

图2是示出在实践中通过图像获取单元获得的深度图像的示例的示图；

图3是示出人体的骨骼结构的层次的示图；

图4是示出基于图3的骨骼结构表示的人体的模型的示图；

图5是示出通过深度图像产生单元预测的深度图像的示例的示图；

图6是示出根据本公开实施例的姿态识别方法的流程图；

图7是示出根据本公开另一实施例的姿态识别设备的配置的示图。

具体实施方式

现在将详细参照本公开的实施例，实施例的示例在附图中示出，其中，相同的标号始终表示相同的元件。

图1是示出根据本公开的实施例的姿态识别设备100的配置的示图。参照图1，姿态识别设备100可包括图像获取单元110、建模单元120、姿态样本产生单元130、图像预测单元140、姿态识别单元150和存储单元160。

图像获取单元110包括主传感器或深度相机。图像获取单元110拍摄目标的图像以获取关于目标的深度图像。图2是示出在实践中通过图像获取单元获得的深度图像的示例的示图。根据图2中示出的深度图像，亮的部分表示图像获取单元110和目标之间的距离很近，暗的部分表示图像获取单元110和目标之间的距离很远。

建模单元120可基于人的骨骼结构在虚拟空间中产生人体的模型。人的骨骼结构具有图3示出的层次结构。也就是说，人的骨骼结构由头、颈部、躯干、左上臂、左前臂、右上臂、右前臂、左大腿、左小腿、右大腿和右小腿构成。建模单元120可基于骨骼结构，通过将每个部分表示为圆柱形来在虚拟空间中产生人体的模型。图4是示出基于图3的骨骼结构表示的人体的模型的示图。

姿态样本产生单元130可通过从人体模型的初始姿态改变每个圆柱体之间的角度(以下，称为关节角度)来产生多个姿态样本。

在图4上，人体模型的姿态可表示为每个关节角度的组合，并且每个关节角度可用作用于复制人的实际姿态的值。可假设人体的模型的头具有x、y和z的三个自由度，而其余部分(诸如颈部、躯干、左上臂、左前臂、右上臂、右前臂、左大腿、左小腿、右大腿和右小腿)均具有滚转方向(roll direction)和倾斜方向(pitch direction)的两个自由度。在这种情况下，当前姿态x_limb可表示为包括状态变量的状态向量，如以下的表达式1所示：

[表达式1]

x_limb＝[x_head y_head z_head φ_neck θ_neck φ_torso θ_torso…φ_leftcalf φ_leftcalf φ_rightcalf θ_rightcalf]

这里，x_head表示头的x坐标，y_head表示头的y坐标，z_head表示头的z坐标。φ_neck和θ_neck分别表示颈部的滚转角度和颈部的倾斜角度。φ_torso和θ_torso分别表示躯干的滚转角度和躯干的倾斜角度。φ_leftcalf和θ_leftcalf分别表示左小腿的滚转角度和左小腿的倾斜角度。φ_rightcalf和θ_rightcalf分别表示右小腿的滚转角度和右小腿的倾斜角度。

为了从当前姿态预测下一姿态，可使用马尔科夫链蒙特卡洛(MCMC)。MCMC在模拟随机变量时使用马尔科夫链的特性。马尔科夫链表示具有以单链形式链接的随机变量的模型。对于马尔科夫链，当前随机变量的值仅与恰好在当前随机变量之前的先前随机变量的值相关，而不与所述先前随机变量之前的随机变量的值相关。因此，链越长，初始随机变量的影响越弱。例如，可假设具有复杂的概率分布的随机变量。在这种情况下，将初始值赋予随机变量，基于初始值模拟随机变量值，用模拟的值代替初始值，并基于代替的初始值模拟另一概率分布值，从而使得链变得稳定。因此，除了在初始阶段具有不稳定状态的链之外，可基于具有稳定状态的链的值执行有意义的解释。

当使用MCMC时，可调整采样方向，从而以最接近于目标值的方向执行采样。通常，使用MCMC的下一姿态如下。首先，产生具有正态分布的随机数δ。然后，如以下的表达式2，通过将该随机数与表示当前姿态的状态变量之一相加来产生变量δx_limb。

[表达式2]

δx_limb＝[δx_head 0 0 0 … 0 0]

然后，可通过将表达式2的变量δx_limb与表达式1的当前姿态x_limb相加来估计下一姿态x_perturb。也就是说，如果将变量δx_limb与当前姿态x_limb相加，则如以下的表达式3来估计下一姿态。

[表达式3]

x_perturb＝x_limb+δx_limb

由于通过从当前姿态将每个关节角度改变较小程度来实现下一姿态的估计，因此产生的姿态样本的数量很大。在姿态样本的数量很大的情况下，在根据每个姿态样本针对每个关节角度设置分布空间并执行投影模拟时，计算量增加。

为了消除这样的限制，根据本公开实施例的姿态识别设备通过应用速度来改变关节角度。通过改变具有速度的关节角度，与以较小的程度顺序改变关节角度的情况相比，减少了姿态样本的数量。

为了估计每个关节角度的速度分量，姿态样本产生单元130在形成当前姿态的状态向量时，可形成具有关于速度分量的状态变量的状态向量。具有关于增加的速度分量的状态变量的状态向量表示为如下的表达式4。

[表达式4]

x_{limb} = \begin{matrix} [\begin{matrix} x_{head} & y_{head} & z_{head} & φ_{neck} & θ_{neck} & φ_{torso} & θ_{torso} & . . . & φ_{leftcalf} & θ_{leftcalf} & φ_{rightcalf} & θ_{rightcalf} \end{matrix} \end{matrix}

\begin{matrix} {\overset{\cdot}{x}}_{head} & {\overset{\cdot}{y}}_{head} & {\overset{\cdot}{z}}_{head} & {\overset{\cdot}{φ}}_{neck} & {\overset{\cdot}{θ}}_{neck} & {\overset{\cdot}{φ}}_{torso} & {\overset{\cdot}{θ}}_{torso} & . . . & {\overset{\cdot}{φ}}_{leftcalf} & {\overset{\cdot}{θ}}_{leftcalf} & {\overset{\cdot}{φ}}_{rightcalf} & {\overset{\cdot}{θ}}_{rightcalf} \end{matrix}]

与表达式1显示的状态向量不同，表达式4中显示的状态向量增加了关于头的速度分量

和

以及关于其余部分的角速度分量和基于增加的分量，可估计下一姿态的速度分量。

在具有表达式4所示的状态分量的状态下，姿态样本产生单元130可形成包括关于各个状态变量的协方差值的协方差函数。协方差函数可表示为如下的表达式5。

[表达式5]

P_{limb} = [\begin{matrix} P_{x_{head} x_{head}} & P_{x_{head} y_{head}} & P_{x_{head} z_{head}} & . . . & P_{x_{head} {\overset{\cdot}{φ}}_{rightcalf}} & P_{x_{head} {\overset{\cdot}{θ}}_{rightcalf}} \end{matrix}

\begin{matrix} . & . \\ . & . \\ . & . \end{matrix}

\begin{matrix} P_{{\overset{\cdot}{θ}}_{rightcalf} x_{head}} & P_{{\overset{\cdot}{θ}}_{rightcalf} y_{head}} & P_{{\overset{\cdot}{θ}}_{rightcalf} z_{head}} & . . . & P_{{\overset{\cdot}{θ}}_{rightcalf} {\overset{\cdot}{φ}}_{rightcalf}} & P_{{\overset{\cdot}{θ}}_{rightcalf} {\overset{\cdot}{θ}}_{rightcalf}} \end{matrix}]

在表达式5中，

表示状态变量x_head和状态变量y_head的协方差，

表示状态变量x_head和状态变量z_head的协方差。

当首次预测姿态时，关于先前姿态的数据不存在，因此可将协方差值设置为随机值。一旦开始姿态估计，姿态样本产生单元130可计算关于状态变量的协方差值。

如果计算了协方差值，则姿态样本产生单元130可通过使用计算的协方差值来产生状态变量的变化。如以下的表达式6设置获得变化的模型。

[表达式6]

x_{k + 1} = x_{k} + {\overset{\cdot}{x}}_{k} dt

在表达式6，dt表示将要估计的时间差，

表示x_k的角速度。如果dt很小并且保证角度的线性，则角速度的改变成为变化。在表达式6中，当假设x_k表示在前一阶段估计的位置的状态值且

表示x_k的角速度的状态值时，在下一姿态具有x_k+1的位置状态值的概率最高。因此，如果在x_k+1产生随机变量，则可产生与人的实际状态最相似状态的姿态样本。

如上所述，可从协方差P_n获得变化。协方差P_n表示偏差的乘积，偏差表示变量的值减去状态变量的平均值。因此，为了计算协方差，需要计算平均值。在递归法中通过以下的表达式7获得平均值。

[表达式7]

{\overset{&OverBar;}{x}}_{n} = (x_{n} / n) + ({\overset{&OverBar;}{x}}_{n - 1} \cdot (n - 1) / n)

在表达式7中，通过MCMC产生总共n个样本，通过使用总共n-1个样本的平均值获得n个样本的平均值。

如果通过表达式7获得平均值，则计算协方差。可如以下的表达式8按照递归法计算协方差。

[表达式8]

P_{n} = \frac{Σ_{1}^{n} (x_{k} - {\overset{&OverBar;}{x}}_{n}) {(x_{k} - {\overset{&OverBar;}{x}}_{n})}^{T}}{n} = \frac{Σ_{1}^{n} (x_{k} x_{k}^{T} - x_{k} {\overset{&OverBar;}{x}}_{n}^{T} - {\overset{&OverBar;}{x}}_{n} x_{k}^{T} + {\overset{&OverBar;}{x}}_{n} {\overset{&OverBar;}{x}}_{n}^{T})}{n}

\frac{Σ_{1}^{n} x_{k} x_{k}^{T}}{n} = V_{n} = (x_{n} x_{n}^{T} / n) + (V_{n - 1} \cdot (n - 1) / n)

P_{n} = V_{n} - {\overset{&OverBar;}{x}}_{n} {\overset{&OverBar;}{x}}_{n}^{T} = (x_{n} x_{n}^{T} / n) + (V_{n - 1} \cdot (n - 1) / n)

- ((x_{n} / n) + ({\overset{&OverBar;}{x}}_{n - 1} \cdot (n - 1) / n)) {((x_{n} / n) + ({\overset{&OverBar;}{x}}_{n - 1} \cdot (n - 1) / n))}^{T}

以这种方式，如果计算了状态变量的平均值和协方差值，则计算的协方差值用作在产生用于产生下一阶段的变化的随机数时的正态分布的大小。因此，如果从该阶段开始估计下一姿态，则可减少姿态样本的数量。由于MCMC花费大量时间来达到稳定状态，因此本公开以卡尔曼滤波器的形式提供了满足最优初始条件的状态。通过这样，显著减少了采样的数量。

图像预测单元140可预测关于预测的姿态的深度图像。为此，图像预测单元140包括虚拟图像产生单元141、归一化单元142和深度图像产生单元143。

虚拟图像产生单元141可产生采用了预定姿态的人体模型的虚拟图像。虚拟图像表示当图像获取单元110拍摄采用了预定姿态的人体模型时，将在关于拍摄的图像中表示的人体模型的剪影而预测的图像。在这种情况下，如果剪影具有大尺寸，则当计算关于剪影中的每个点的深度信息时计算量增加。因此，为了减少计算，需要减小虚拟图像的尺寸。然而，如果过度地减小了虚拟图像的尺寸，则剪影的尺寸同样被减小，从而造成难以分辨剪影的每个部分且降低了姿态识别性能。因此，当减小虚拟图像的尺寸时，需要考虑计算量和姿态识别性能两者来减小虚拟图像的尺寸。

归一化单元142可对虚拟图像的尺寸进行归一化。在这种情况下，归一化指的是将虚拟图像的尺寸变换为预定尺寸。例如，归一化单元142可按照预定减小率来减小虚拟图像的尺寸。可如以下的表达式9来确定减小率。

[表达式9]

R_{norm} = \frac{l_{size_of_image}}{l_{recommended}}

在表达式9中，R_norm表示减小率。l_{size_of_image}表示从虚拟图像获得的人的尺寸，l_recommended表示期望的减小的尺寸。

按照通过表达式9确定的减小率来减小虚拟图像的方法如下。

[表达式10]

x_{new} = \frac{x_{image}}{R_{norm}},

y_{new} = \frac{y_{image}}{R_{norm}}

在表达式10中，x_image表示虚拟图像在x轴上的尺寸(即，虚拟图像的宽度尺寸)，x_new表示减小后的虚拟图像在x轴上的尺寸。y_image表示虚拟图像在y轴上的尺寸(即，虚拟图像的长度尺寸)，y_new表示减小后的虚拟图像在y轴上的尺寸。由于通过表达式10对图像进行归一化，因此当与不经过归一化对虚拟图像执行计算的情况相比时，计算量减少了大约

深度图像产生单元143可产生对应于归一化的虚拟图像的深度图像。深度图像产生单元143所产生的深度图像可包括关于存在于归一化的虚拟图像的剪影内的每个点的深度信息。图5示出了由深度图像产生单元143预测的深度图像的示例。

姿态识别单元150可基于深度图像产生单元143产生的深度图像和图像获取单元110拍摄的深度图像之间的相似度来识别图像获取单元110实际拍摄的深度图像中的人的姿态。为此，姿态识别单元150可包括相似度计算单元151、参考姿态设置单元152和最终姿态选择单元153。

相似度计算单元151可计算深度图像产生单元143产生的深度图像和图像获取单元110拍摄的深度图像之间的相似度。可通过以下步骤来获得相似度：计算两个深度图像的相应位置的两个像素之间的深度信息之差，通过对计算的差求和来获得结果值，并替换反对数函数中的结果值。可如以下的表达式11计算相似度。

[表达式11]

W_{{img}_{diff}} = \exp (- C Σ_{i = 1, j = 1}^{m, n} (d_{measured} (i, j) - d_{projected} (i, j)))

在表达式11中，C是通过实验确定的常数。d_measured(i，j)表示位于图像获取单元110获取的深度图像的第i行第j列的像素的深度信息。d_projected(i，j)表示位于深度图像产生单元143产生的深度图像中的第i行第j列的像素的深度信息。通过将相似度表示为结果值的反对数函数，两个深度图像之间的相似度越高，表示的相似度的值越高。

根据将相似度计算单元151计算的相似度与先前计算的相似度进行比较的结果，参考姿态设置单元142可将已经加入了变化的姿态设置为参考姿态。具体地，如果相似度计算单元151计算的相似度大于先前计算的相似度，则参考姿态设置单元152可将已经加入了变化的姿态设置为参考姿态。也就是说，通过将变化加入当前姿态来预测下一姿态，针对预测的姿态产生深度图像，计算实际测量的深度图像和产生的深度图像之间的相似度，并且如果计算的相似度高于先前计算的相似度，则在与基于先前设置的姿态产生的深度图像相比，基于预测姿态的深度图像更相似于通过图像获取单元110拍摄的人的姿态。因此，如果已经加入了变化的姿态被设置为参考姿态且基于参考姿态产生了新姿态样本，则以更快的方式获得了与实际测量的人的实际姿态相似的姿态，从而减少了将要产生的姿态样本的数量。

如果由相似度计算单元151计算的相似度小于先前计算的相似度，则参考姿态设置单元152可将先前姿态设置为参考姿态。

最终姿态选择单元153可确定当前时刻已经预测的姿态样本是否是以相对于图像获取单元110拍摄的姿态的正态分布的形式被提供。

如果确定当前时刻预测的姿态样本不是以正态分布的形式被提供，则最终姿态选择单元153将确定结果通知姿态样本产生单元130。因此，姿态样本产生单元130可基于参考姿态预测下一姿态。

如果确定当前时刻预测的姿态样本是以正态分布的形式被提供，则最终姿态选择单元153将具有基于当前时刻产生的样本的相似度中最高相似度的姿态样本选择作为最终姿态。在选择了最终姿态之后，基于最终姿态的每个部分的关节角度来识别实际中拍摄的深度图像中的人的姿态。

存储单元160可存储控制姿态识别设备100的操作所需的算法或数据并存储在姿态识别过程中产生的数据。例如，存储单元160可存储通过图像获取单元110获得的深度图像、姿态样本产生单元130产生的姿态样本以及相似度计算单元151计算的相似度。这样的存储单元160可被实现为非易失性存储器装置(诸如只读存储器(ROM)、随机存取存储器(RAM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)和闪存)、易失性存储器装置(诸如随机存取存储器(RAM))、硬盘或光盘。然而，本公开的存储单元160不限于此，并可以以本领域公知的各种形式被实现。

图6是示出根据本公开实施例的姿态识别方法的流程图。

通过图像获取单元110获取关于人的深度图像(600)。

在虚拟空间中基于人体的骨骼结构产生人体模型(610)。

形成具有人体模型的每个部分的角度和角速度作为状态变量的状态向量，并基于状态向量预测人体模型的下一姿态(620)。操作620可包括计算状态变量的平均值和协方差的处理、通过使用计算的协方差产生随机数的处理以及通过使用基于随机数产生的变化预测下一姿态的处理。

如果如上预测人体模型的下一姿态，则针对预测姿态预测深度图像(630)。操作630可包括针对预测姿态产生虚拟图像的处理、以预定比率对虚拟图像的尺寸进行归一化的处理以及针对具有归一化尺寸的虚拟图像产生深度图像的处理。虚拟图像表示关于在人体模型采用预测姿态时将在图像中表示的人体模型的剪影而预测的图像。

如果针对预测姿态预测深度图像，则可基于预测的深度图像和图像获取单元110实际拍摄的深度图像之间的相似度来识别实际拍摄的深度图像中的人的姿态。

为此，首先，可计算预测的深度图像和实际拍摄的深度图像之间的相似度(640)。然后，确定计算的相似度是否高于先前计算的相似度(650)。

如果确定计算的相似度高于先前计算的相似度(650的是)，则可将预测姿态设置为参考姿态(660)。如果确定计算的相似度低于先前计算的相似度(650的否)，则将人体模型的先前姿态设置为参考姿态(665)。

在如上设置了参考姿态之后，确定当前时刻已经产生的姿态样本是否符合关于实际拍摄的深度图像的人的姿态的正态分布(670)。

如果确定当前时刻产生的姿态样本不符合正态分布(670的否)，则控制模块返回到操作620到650，在操作620到650，基于参考姿态预测下一姿态，针对预测姿态预测深度图像，并且比较产生的深度图像和实际拍摄的深度图像之间的相似度。如果确定当前时刻产生的姿态样本符合正态分布(670的是)，则具有基于当前时刻产生的姿态样本的相似度中最高相似度的姿态样本被选择作为最终姿态(680)。在选择了最终姿态之后，基于最终姿态的每个部分的关节角度来识别实际拍摄的深度图像的人的姿态(690)。

虽然参照图6描述的姿态识别方法已经描述了获得人的深度图像的操作600在姿态识别的开始时被执行，但本公开不限于此。也就是说，可在操作610和操作640之间执行操作600。

已经如上描述了本公开的实施例的姿态识别设备和姿态识别方法。

图7是根据本公开另一方面的姿态识别设备的配置的示图。

参照图7，姿态识别设备200可包括图像获取单元210、建模单元220、姿态样本产生单元230、图像预测单元240、姿态识别单元250和存储单元260。由于图像获取单元210、建模单元220、姿态样本产生单元230、姿态识别单元250和存储单元260与图1中示出的图像获取单元110、建模单元120、姿态样本产生单元130、姿态识别单元150和存储单元160相同，因此为了避免重复省略对它们的描述。

除了图1的姿态识别设备100的图像预测单元140包括虚拟图像产生单元141、归一化单元142和深度图像产生单元143而图7的姿态识别设备200的图像预测单元240仅包括虚拟图像产生单元241和深度图像产生单元243之外，图7中示出的姿态识别设备200的配置与图1的姿态识别设备100的配置相同。从图7所示的图像预测单元240省略了归一化单元，但是姿态样本产生单元230可基于具有每个部分的角度和角速度作为状态变量的状态向量来预测人体模型的下一姿态，因此减少了姿态样本的数量并提高了姿态识别速度。

除了应用了姿态识别设备100的姿态识别方法在操作630包括针对预测姿态产生虚拟图像的处理、以预定比率对虚拟图像进行归一化的处理和针对具有归一化的尺寸的虚拟图像产生深度图像的处理，而应用了姿态识别设备200的姿态识别方法在操作630仅包括针对预测姿态产生虚拟图像的处理和针对虚拟图像产生深度图像的处理之外，应用了姿态识别设备200的姿态识别方法与图6所示的控制流程相同。

已经示出和描述了本公开的一些实施例。对于以上描述的实施例，构成根据本公开实施例的姿态识别设备100和根据本公开另一实施例的姿态识别设备200的某些部件可实施为“模块”的类型。“模块”可表示软件组件或硬件组件，诸如现场可编程门阵列(FPGA)或专用集成电路(ASIC)，并进行特定功能。然而，模块不限于软件或硬件。模块可被构成为在可被寻址的存储介质中提供，或者可被构成为运行一个或多个处理器。

模块的示例可包括面向对象软件组件、类组件和任务组件、处理、函数、属性、过程、子程序、程序代码段、驱动器、固件、微代码、电路、数据、数据库、数据结构、表、阵列和变量。组件和模块提供的功能合并为更少的组件和模块，或者划分为附加的组件和模块。另外，这样的组件和模块可运行装置中的一个或多个CPU。

本公开还可实施为包括用于控制上述实施例的至少一个组件的计算机可读代码/命令的计算机可读介质。介质是能够存储和/或发送计算机可读代码的任何介质。

计算机可读代码可记录在介质上以及通过互联网发送，介质的示例包括只读存储器(ROM)、随机存取存储器(RAM)、CD-ROM、磁带、软盘、光数据存储装置以及诸如通过互联网的数据传输的载波。介质可以是信号，诸如组合信号或比特流。介质也可以分布于联网的计算机系统，从而以分布的形式存储和执行计算机可读代码。另外，将被处理的组件的示例可包括处理器或计算机处理。将被处理的元件可分布和/或包括在一个装置中。

虽然已经示出和描述了本公开的一些实施例，但是本领域的技术人员应理解，在不脱离本公开的原理和精神的情况下，可对这些实施例进行各种改变，本公开的范围在权利要求及其等同物中限定。

Claims

1.一种识别姿态的方法，所述方法包括：

在虚拟空间中产生人体模型；

基于具有人体的每个部分的角度和角速度作为状态变量的状态向量预测人体模型的下一姿态；

预测关于预测姿态的深度图像；

基于预测的深度图像和实际拍摄的深度图像之间的相似度识别实际拍摄的深度图像中的人的姿态。

2.如权利要求1所述的方法，其中，预测人体模型的下一姿态的步骤包括：

计算状态变量的平均值；

基于状态变量的平均值计算状态变量的协方差；

基于状态变量的协方差产生随机数；

通过使用基于随机数产生的变化预测下一姿态。

3.如权利要求1所述的方法，其中，预测关于预测姿态的深度图像的步骤包括：

如果人体模型采用预测姿态，则产生关于将在图像中表示的人体模型的剪影而预测的虚拟图像；

将虚拟图像的尺寸归一化为预定尺寸；

预测深度图像，该深度图像包括归一化的虚拟图像中的剪影内存在的每个点的深度信息。

4.如权利要求3所述的方法，其中，将虚拟图像的尺寸归一化为预定尺寸的步骤包括：

以预定减小率减小虚拟图像的尺寸，

其中，减小率是在虚拟图像中获得的人的尺寸除以期望的人的减小尺寸的值。

5.如权利要求1所述的方法，其中，基于相似度识别姿态的步骤包括：

将具有基于当前时刻预测的人体模型的姿态的相似度中最高相似度的姿态选择作为最终姿态；

基于最终姿态的关节角度识别实际拍摄的深度图像中的人的姿态。

6.如权利要求5所述的方法，还包括：

计算预测的深度图像和实际拍摄的深度图像之间的相似度；

如果计算的相似度高于先前计算的相似度，则将预测的姿态设置为参考姿态，如果计算的相似度低于先前计算的相似度，则将先前姿态设置为参考姿态；

基于参考姿态预测下一姿态。

7.如权利要求6所述的方法，其中，基于参考姿态预测下一姿态的步骤包括：

如果当前时刻关于人体预测的姿态不符合关于实际拍摄的深度图像中的人的姿态的正态分布，则基于参考姿态预测下一姿态。

8.一种识别姿态的设备，所述设备包括：

建模单元，被配置为在虚拟空间中产生人体模型；

姿态样本产生单元，被配置为基于具有人体的每个部分的角度和角速度作为状态变量的状态向量预测人体模型的下一姿态；

图像预测单元，被配置为预测关于预测姿态的深度图像；

姿态识别单元，被配置为基于预测的深度图像和实际拍摄的深度图像之间的相似度识别实际拍摄的深度图像中的人的姿态。

9.如权利要求8所述的设备，其中，姿态样本产生单元基于状态变量的平均值计算状态变量的协方差，并通过使用基于状态变量的协方差产生的随机数作为变化来预测下一姿态。

10.如权利要求8所述的设备，其中，图像预测单元包括：

虚拟图像产生单元，被配置为在人体模型采用预测姿态的情况下，产生关于将在图像中表示的人体模型的剪影而预测的虚拟图像；

归一化单元，被配置为将虚拟图像的尺寸归一化为预定尺寸；

深度图像产生单元，被配置为预测深度图像，该深度图像包括归一化的虚拟图像中的剪影内存在的每个点的深度信息。

11.如权利要求10所述的设备，其中，归一化单元以预定减小率减小虚拟图像的尺寸，

12.如权利要求8所述的设备，其中，姿态识别单元将具有基于当前时刻预测的人体模型的姿态的相似度中最高相似度的姿态选择作为最终姿态，基于最终姿态的关节角度识别实际拍摄的深度图像中的人的姿态。

13.如权利要求12所述的设备，其中，姿态识别单元包括：

相似度计算单元，被配置为计算预测的深度图像和实际拍摄的深度图像之间的相似度；

参考姿态设置单元，如果计算的相似度高于先前计算的相似度，则被配置为将预测的姿态设置为参考姿态，如果计算的相似度低于先前计算的相似度，则被配置为将先前姿态设置为参考姿态。

14.如权利要求13所述的设备，其中，姿态样本产生单元被配置为：如果当前时刻关于人体预测的姿态不符合关于实际拍摄的深度图像中的人的姿态的正态分布，则基于参考姿态预测下一姿态。