CN103208006B

CN103208006B - 基于深度图像序列的对象运动模式识别方法和设备

Info

Publication number: CN103208006B
Application number: CN201210014717.2A
Authority: CN
Inventors: 章鹏; 李滔; 熊怀欣
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2012-01-17
Filing date: 2012-01-17
Publication date: 2016-07-06
Anticipated expiration: 2032-01-17
Also published as: CN103208006A

Abstract

提出一种基于深度图像序列的对象运动模式识别方法，包括：前景确定步骤，在各帧深度图像中确定前景对象区域；差分步骤，计算各帧深度图像中各个像素的深度值与其邻域像素的深度值之间的差分，以获得邻域深度值差分矢量；量化编码步骤，根据前景对象区域确定感兴趣区域，将感兴趣区域中各个像素的邻域深度值差分矢量量化编码为邻域深度值差分码；区域划分步骤，将感兴趣区域划分为多个子区域；分布描述步骤，根据各个像素的邻域深度值差分码，获得子区域的邻域深度值差分码分布特征向量；识别步骤，根据邻域深度值差分码分布特征向量的组合，识别感兴趣区域所对应对象的运动模式。还相应地提出一种基于深度图像序列的对象运动模式识别设备。

Description

基于深度图像序列的对象运动模式识别方法和设备

技术领域

本发明涉及一种基于深度图像序列的对象运动模式识别方法和基于深度图像序列的对象运动模式识别设备。

背景技术

随着计算机视觉、图像处理、人机交互技术的发展，对于基于视觉的人机交互系统，诸如交互式投影仪、交互式显示器、交互式电子白板、体感游戏机等等的技术需求也越来越迫切，在这些应用领域中，经常不仅仅需要对图像中对象的识别，而且需要对对象运动模式进行识别。对此，相关技术领域已经取得了一定进展。

专利文件1(US7274800B2)提出了利用立体相机产生的深度视差图并基于该深度视差图进行手势识别的技术。其主要针对人体上肢形态建立统计概论模型，并用其跟踪人体的上肢运动，并能推断出上肢、躯干、手的运动方向及位置。而后，将这些运动信息输入隐马尔科夫(HMM)模型分类器，以用于手势识别。该技术主要基于统计模型推断来进行运动识别，难以适应复杂场景和模型失效的情况。而且，其速度不快。

专利文件2(US20110150271A1)提出了一种基于深度图像的运动检测和跟踪方法。其首先产生一幅代表背景的参考深度图像，并将当前输入的深度图与之相比，以获得前景运动图像，从而完成运动对象检测。背景参考深度图像会依照一定时间范围内深度图的背景点均值进行更新；而前景运动图像则会聚类成几个运动物体，并与上一帧的物体进行对应，从而完成运动对象跟踪。该方法基于深度图像的相邻帧差分进行运动检测；此外，该方法用于运动对象检测，而无法实现运动模式的识别。

非专利文件1(P.Suryanarayan，A.Subramanian，andD.Mandalapu，DynamicHandPoseRecognitionusingDepthData，InternationalconferenceofPatternRecognition，pp.3105-3108，23-26Aug.2010.)提出了一种对尺度及旋转不变手势姿态的识别方法。其主要是基于对环绕整个手的柱状区域进行3维划分，而后计算每个子区域的前景比例，并将其作为整个手形状的特征描述子，从而实现手势识别。因为运动会导致深度图的模糊，从而影响形状的精确性，因此该方法仅限于形状描述，以致不适用于运动的手势识别。

发明内容

鉴于现有技术中存在的上述问题而做出本发明，本发明实施例提出一种基于深度图像序列的对象运动模式识别方法和基于深度图像序列的对象运动模式识别设备，更具体地说，本发明实施例提出一种基于邻域深度值差分时空分布的对象运动模式识别方法和设备。

本发明实施例的基于深度图像序列的对象运动模式识别方法和设备提供了可以被广泛应用于各类对象物体运动模式识别的技术框架。该技术手段利用对象在3维空间中的运动所引发的其深度值的变化，这种深度值变化的时空分布能够描述该对象的运动模式。

根据本发明的一个方面，提供一种基于深度图像序列的对象运动模式识别方法，包括：前景确定步骤，在所述深度图像序列的各帧深度图像中确定前景对象区域；差分步骤，计算各帧深度图像中各个像素的深度值与其相邻帧深度图像中邻域像素的深度值之间的差分，以获得邻域深度值差分矢量；量化编码步骤，根据各帧深度图像及其相邻帧深度图像的前景对象区域确定感兴趣区域，将感兴趣区域中各个像素的邻域深度值差分矢量量化编码为邻域深度值差分码；区域划分步骤，将各帧深度图像中感兴趣区域划分为多个子区域；分布描述步骤，根据各帧深度图像中感兴趣区域的子区域中各个像素的邻域深度值差分码，获得该子区域的邻域深度值差分码分布特征向量；识别步骤，根据各帧深度图像中感兴趣区域的子区域的邻域深度值差分码分布特征向量的组合，识别该感兴趣区域所对应对象的运动模式。

根据本发明的另一个方面，提供一种基于深度图像序列的对象运动模式识别设备，包括：前景确定装置，在所述深度图像序列的各帧深度图像中确定前景对象区域；差分装置，计算各帧深度图像中各个像素的深度值与其相邻帧深度图像中邻域像素的深度值之间的差分，以获得邻域深度值差分矢量；量化编码装置，根据各帧深度图像及其相邻帧深度图像的前景对象区域确定感兴趣区域，将感兴趣区域中各个像素的邻域深度值差分矢量量化编码为邻域深度值差分码；区域划分装置，将各帧深度图像中感兴趣区域划分为多个子区域；分布描述装置，根据各帧深度图像中感兴趣区域的子区域中各个像素的邻域深度值差分码，获得该子区域的邻域深度值差分码分布特征向量；识别装置，根据各帧深度图像中感兴趣区域的子区域的邻域深度值差分码分布特征向量的组合，识别该感兴趣区域所对应对象的运动模式。

邻域深度值差分指任一像素点与其时空相邻点的深度值之差所构成的矢量，其提取方便，且携带了大量在该点邻域的运动信息。通过量化编码将邻域深度值差分矢量量化到几个典型的运动模式，即邻域深度值差分码，从而能够实现运动信息的压缩以及噪声抑制。经过区域划分将对象物体在时空中所经过的区域划分成一系列子区域以利于后续的分布描述。一方面，区域划分能保持运动的时空结构；另一方面，每个子区域也能提供足够的样本来统计各种分布。然后进行分布描述，进一步把邻域深度值差分码的分布压缩成低维特征向量，从而便于对象运动的识别分类。

本发明通过对邻域深度值差分的量化编码、区域划分、以及分布描述，提取了对对象运动引发深度值变化的时空分布的特征描述，从而获得稳定、快速、有效的运动或动作识别。识别手段的快速源于邻域深度值差分的特征提取非常简单，只需要少量减法操作。识别方法的稳健源于深度图提供了非常有效的距离信息，而且整个识别算法没有任何先验的模型前提假设。识别方法的有效源于邻域深度值差分的时空分布携带了重要的运动信息。

因此，与现有技术相比，本发明实施例充分、有效地利用深度图提供的距离信息、以及邻域深度值差分的时空分布特征，能够实现速度很快而且稳健有效的处理。

通过阅读结合附图考虑的以下本发明的优选实施例的详细描述，将更好地理解本发明的以上和其他对象、特征、优点和技术及工业重要性。

附图说明

图1是示例性地示出本发明实施例的基于深度图像序列的对象运动模式识别方法和设备的应用环境的示意图。

图2是示出按照本发明实施例的基于深度图像序列的对象运动模式识别方法的总体流程图。

图3包括图3A至图3D，分别示意性地示出邻域深度值差分矢量的实现方式。

图4包括图4A和图4B，分别示意性地说明对象运动所造成的深度值差分的量化编码结果。

图5包括图5A和图5B，分别示意性地示出对深度差分值进行量化编码的方案。

图6包括图6A至图6C，分别示意性地示出在某一帧深度图像中，将XY二维空间区域分别划分为多个子区域的不同方式。

图7包括图7A和图7B，示出了采用图6C所示的区域划分方式来分别应用于识别图4A和图4B的对象运动模式的情况。

图8示出了将图6A所示的区域划分方式应用于关于手对象的示例。

图9包括图9A至图9D，图9A示意性地示出感兴趣区域在相邻多帧所占的3维时空区域，图9B至图9D分别示出在不同的尺度下对感兴趣区域在相邻多帧所占的3维时空区域进行划分的方式。

图10是示出按照本发明实施例的基于深度图像序列的对象运动模式识别设备的总体框图。

图11是示出按照本发明实施例的对象运动模式识别系统的总体框图。

具体实施方式

下面结合附图描述本发明实施例。

参照图1，本发明的实施例可应用于人机交互，人及其手势10由深度摄像头11获取并传入计算机系统12以进行识别和控制，最终的识别及响应可以在本地或远程的屏幕上显示。其中，该深度摄像头11可以是红外摄像头，能够获取场景的深度图像。计算机系统12可以是个人计算机(PC)或任何其它具有数据处理能力的计算机、服务器或数字信号处理器(DSP)等等，针对深度摄像头11所获取并导入的深度图像序列，计算机系统12可以实施为按照本发明实施例的基于深度图像序列的对象运动模式识别设备，或者也可以用来实施按照本发明实施例的基于深度图像序列的对象运动模式识别方法。

图2是示出按照本发明实施例的基于深度图像序列的对象运动模式识别方法的总体流程图。如图2所示，本发明实施例的对象运动模式识别方法可以包括：前景确定步骤S100，可以在所述深度图像序列的各帧深度图像中确定前景对象区域；差分步骤S200，可以计算各帧深度图像中各个像素的深度值与其相邻帧深度图像中邻域像素的深度值之间的差分，以获得邻域深度值差分矢量；量化编码步骤S300，可以根据各帧深度图像及其相邻帧深度图像的前景对象区域确定感兴趣区域，将感兴趣区域中各个像素的邻域深度值差分矢量量化编码为邻域深度值差分码；区域划分步骤S400，可以将各帧深度图像中感兴趣区域划分为多个子区域；分布描述步骤S500，可以根据各帧深度图像中感兴趣区域的子区域中各个像素的邻域深度值差分码，获得该子区域的邻域深度值差分码分布特征向量；识别步骤S600，可以根据各帧深度图像中感兴趣区域的子区域的邻域深度值差分码分布特征向量的组合，识别该感兴趣区域所对应对象的运动模式。

在前景确定步骤S100，依次针对读入的各个深度图像，分割出前景对象，找到感兴趣前景对象在输入深度图像中所占的前景对象区域。换言之，每个前景区域中的像素都来自于对象。前景确定步骤S100可以通过本领域公知的现有技术手段实现，下面，为了处理过程说明的完整，作为示例而描述前景确定步骤S100的过程。

首先，通过背景初始化来对整个背景区域进行建模。一种可能的实现是将前景对象还没有进入的前几帧图像进行平均，从而得到背景图B(x，y)，其中(x，y)是像素点空间坐标。

然后，进行背景减除，将当前t时刻的图像D((x，y)；t)与B(x，y)相比，将显著差异的点作为前景点。具体而言，若某像素点(x0，y0)满足|B(x0，y0)-D((x0，y0)；t)|＞T，则该像素点(x0，y0)是前景点，否则即为背景点，其中T为根据经验所得的阈值。

然后，进行前景点聚类，将所有的前景点被依照其空间距离聚合成几个连通的聚类。面积过小的聚类往往由噪声引起，需要将其去除。剩余的聚类则由前景对象所引发。

然后，进行聚类对象跟踪以将每个被跟踪的对象与当前的前景点聚类建立对应，从而更新对象在当前时刻的状态。一种可能的实现是计算上一帧跟踪对象位置与当前帧聚类的距离，取其最小值以建立对应关系。没有与现有跟踪对象建立对应的聚类，意味着新进入的对象；反之，没有与现有聚类建立对应的对象，意味着对象的退出。

然后，进行背景更新来依照当前帧深度图像D((x，y)；t)修正背景深度图像B(x，y)。一种可能的实现是对所有背景点(x1，y1)根据B(x1，y1)+λD((x1，y1)；t)→B(x1，y1)来更新，其中λ是更新参数。

最后，依照前景点聚类与跟踪对象之间的对应关系进行对象列表更新，以更新对象列表中的对象及其状态。通过前景确定步骤S100进行前景对象的提取及前景对象区域的确定，得到各帧的前景图，F((x，y)，t)∈{0，1}为t时刻前景图，1代表相应像素处于前景，0代表相应像素处于背景。

上述的在深度图像中确定对象的过程可以通过本领域技术人员熟知的技术手段来实现，在本申请中为了说明的完整性而引入，因此未赘述其细节。

然后，针对已经确定对象的各帧深度图像，由差分步骤S200通过当前像素点与其时空邻域像素点的深度值差分来描述该像素的运动信息。其中，时空邻域是由时间空间上与当前像素点位置相近的点组成。所有的时空邻域点与当前像素点的深度差，构成邻域深度值差分(ContextualDepthDifference，CDD)。在此，CDD是矢量，其维数与时空邻域的点数相同，也就是当前像素与一个邻域像素的深度值之差作为该CDD矢量的一个分量。下面结合图3说明不同的时空邻域定义，这些不同的定义对应CDD的不同实现方式。

一种CDD矢量的实现方式可以是，在差分步骤S200中，与各帧深度图像的各个像素位置相同的相邻帧深度图像中的像素是所述邻域像素。图3A和图3B分别为示出此种实现方式下的不同实施方式的示意图。

如图3A所示，一种可能的实现是后向空域差分，即D((x，y)；t)-D((x，y)；t-1)，在此点(x，y)代表当前帧深度图像的像素点，t代表当前帧的时刻，该像素点的邻域为上一帧时刻t-1相同位置的像素点，D((x，y)；t)代表当前帧各个像素点的像素值，在此深度图像的情况下为该像素点的深度值。后向空域差分为当前帧中像素点的深度值D((x，y)；t)减去前一帧中相同位置的像素点的深度值D((x，y)；t-1)。

在图3B所示的情况下，其实现方式为把邻域定义为前后两帧的相同位置点，从而计算得到2维CDD矢量[D((x，y)；t)-D((x，y)；t-1)，D((x，y)；t)-D((x，y)；t+1)]，类似于关于图3A所作的说明，点(x，y)代表当前帧深度图像的像素点，t代表当前帧的时刻，该像素点邻域为上一帧时刻t-1及下一帧时刻t+1相同位置的像素点，D((x，y)；t)代表当前帧各个像素点的深度值，分别减去上一帧及下一帧相同位置的像素点的深度值作为所得2维CDD矢量的分量。

以上两种邻域定义只用到了时间上的相邻点，作为上述手段的替代，也可以利用空间相邻点作为邻域像素。也就是，另一种CDD矢量的实现方式可以是，在差分步骤S200中，与各帧深度图像的各个像素位置相同的相邻帧深度图像中的像素及其周围像素构成所述邻域像素。图3C和图3D分别为示出此种实现方式下的不同实施方式的示意图。

图3C所示情况可以视为把图3A中邻域像素为后向空间相同点的情况推广为邻域像素为后向空间相邻点。在此情况下所得的CDD矢量为[D((x，y)；t)-D((x-Δx，y-Δy)；t-1)]。在如图3C所示的取前一帧相同位置像素点及其4邻域点作为邻域像素的情况下，(Δx，Δy)的每个坐标取{-1，0，1}，从而构成5维矢量。本领域技术人员能够根据上文的描述类似地建立此5维CDD矢量。本领域技术人员可以认识到，也可以取前一帧相同位置像素点及其8邻域点作为邻域像素。

类似地，也可以如图3D所示，同时采用前后向空间邻域点，从而其邻域深度差分CDD为D((x，y)；t)-D((x-Δx，y-Δy)；t-Δt)。在如图3D所示的取前后帧相同位置像素点及其4邻域点作为邻域像素的情况下，其中(Δx，Δy)的每个坐标取{-1，0，1}，而Δt取{-1，1}，构成10维矢量。本领域技术人员能够根据上文的描述类似地建立此10维CDD矢量。本领域技术人员可以认识到，也可以取前后帧相同位置像素点及其8邻域点作为邻域像素。

本领域技术人员可以认识到，还有其它很多可能的时空邻域选择。总体上，CDD中选用邻域点越多，其所包含的运动信息越丰富，但其复杂度也会增加。

在通过差分步骤S200计算各帧深度图像中各个像素的邻域深度值差分矢量(CDD矢量)之后，由量化编码步骤S300将各个邻域深度值差分矢量量化编码为邻域深度值差分码(CDD码)。

在量化编码步骤S300，可以逐像素地确定邻域深度值差分码，然而，由于在各帧图像中，对象通常仅占据一部分区域，逐像素地确定邻域深度值差分码会造成大量的无意义的运算，因此，在此可以考虑利用前述前景确定步骤S100所确定的各帧深度图像中对象所占据的前景区域，来为各帧深度图像确定出感兴趣区域(RegionofInterest，ROI)，对于各帧深度图像来说，“量化编码”仅针对该帧的感兴趣区域，或者说感兴趣区域中的像素(可以称为感兴趣像素)来进行。

“量化编码”用来将“感兴趣像素”的CDD矢量量化成一系列代表该像素领域中运动模式的邻域深度值差分码(CDD码)。而“感兴趣像素”指的是其计算邻域深度值差分的过程中涉及的当前帧及其相邻帧的像素点。以R(t)表示t时刻帧(当前帧)的前景对象区域，R(t-1)表示t-1时刻帧(前一帧)与t时刻的前景对象区域相同位置的区域，R(t+1)表示t+1时刻帧(后一帧)与t时刻的前景对象区域相同位置的区域。以采用后向差分计算邻域深度值差分的图3A及图3C为例，其t时刻的“感兴趣像素”区域为R(t-1)∪R(t)；图3B及图3D情况下t时刻的“感兴趣像素”区域为R(t-1)∪R(t)∪R(t+1)。

也就是，在后向差分的情况下，某当前帧深度图像中感兴趣区域为该当前帧的对象的前景区域并上前一帧深度图像中该对象的前景区域在该当前帧中的对应区域，在前后向差分的情况下，某当前帧深度图像中感兴趣区域为该当前帧的对象的前景区域并上前一帧深度图像中该对象的前景区域在该当前帧中的对应区域再并上后一帧深度图像中该对象的前景区域在该当前帧中的对应区域。简言之，某当前帧深度图像中感兴趣区域为当前帧的前景对象区域并其在差分步骤S200的运算中涉及到的相邻帧的区域在该当前帧中的对应区域。

通过量化编码步骤S300将邻域深度差分矢量进行量化，可以消除噪声，压缩信息，提高后续识别速度；而只考虑“感兴趣像素”是因为只有这些区域的邻域差分与对象有关，这样可以减小处理负担，提高处理速度。

量化编码的方法可以有很多。一种可能的实现是对邻域深度值差分矢量的每一个维度(分量)分别进行量化，而后组合成最终的量化编码。在量化编码步骤S300中，各帧深度图像中感兴趣区域中各个像素的邻域深度值差分矢量至少包括代表对象在该像素点消失的分量、代表对象在该像素点出现的分量、及代表对象在该像素点深度变化的分量。

可以通过考虑前景确定步骤S100获得的各个时刻(各帧)的前景图像F((x，y)，t)的以下情况：(1)当前帧(t时刻)的深度图的某个像素，其位置在前一帧(t-1时刻)属于前景对象(即为前一帧对象区域的像素)，而在当前帧不属于该前景对象；(2)当前帧(t时刻)的深度图的属于前景对象的某个像素(对象区域的像素)，其位置在前一帧(t-1时刻)不属于该前景对象。此情况(1)可以表示为前景消失(F-)，而情况(2)可以表示为前景出现(F+)。由于前景确定步骤S100已经获得的各帧的前景图像F((x，y)，t)，因此可以容易地判断出当前帧深度图像的感兴趣区域中像素是否属于这两种情况。

或者，由于在前景消失(F-)及前景出现(F+)这两种情况下，像素点的深度差分值或正或负但绝对值都会比较大，因此也可以通过经验阈值判断出感兴趣区域中的像素是否属于这两种情况。在此情况下，还可以通过将背景像素的深度值一律赋为0甚至负无穷，甚至可以不设定阈值既可以判断出像素是否属于这两种情况。

除了前景消失(F-)及前景出现(F+)这两种情况，感兴趣区域的像素会有深度值发生变化的情况，因此，一种基本的量化编码的方案是将深度量化成5个级别，分别表示为深度不变(D₀)，深度增加(D+)，深度减少(D-)，前景消失(F-)，前景出现(F+)。

仍然设D((x，y)；t)代表t时刻当前帧深度图像，其各个像素值为深度值，前景图像F((x，y)，t)表示相应前景图像，前景区域像素值为1，非前景区域像素值为0，对于当前帧感兴趣区域中的点((x，y)，t)，与其作深度值差分的邻域点为((x+Δx，y+Δy)，t+Δt)，则上述5个级别的量化表示为以下公式(1)：

F+：{F((x，y)，t)＝1andF((x+Δx，y+Δy)，t+Δt)＝0}；

F-：{F((x，y)，t)＝0andF((x+Δx，y+Δy)，t+Δt)＝1}；

D+：{D((x，y)，t)-D((x+Δx，y+Δy)，t+Δt)≥Td}∩{F((x，y)，t)＝1andF((x+Δx，y+Δy)，t+Δt)＝1}；

D-：{D((x，y)，t)-D((x+Δx，y+Δy)，t+Δt)≤-Td}∩{F((x，y)，t)＝1andF((x+Δx，y+Δy)，t+Δt)＝1}；

D₀：{|D((x，y)，t)-D((x+Δx，y+Δy)，t+Δt)|≤Td}∩{F((x，y)，t)＝1andF((x+Δx，y+Δy)，t+Δt)＝1}.(1)

其中的阈值Td可以滤除一些由噪声引起的微小深度变化，其与摄像机性能以及对象距离有关，一般对距离为1～2米的对象而言，Td可以取为1厘米以内，例如0.5厘米，其中“and”表示“并且”。

量化级F+和F-包含了因物体运动带来的形状变化信息，而D+和D-则包含了物体区域内部的细节变化。在D+和D-中较大的量化区域，可以保证运动识别的速度不变性，因为其只反映深度值变化的方向。F+、F-、D+和D-包含了非常重要的运动信息。下面结合图4进行示意性地说明。

假设一个矩形对象在Z方向移近相机，且伴有X-Y平面的右移。图4A非常清晰地反映出其前景区域的深度变化，一些左侧的前景区域伴随着右移而消失(F-)；而右侧有前景区域伴随右移而出现(F+)，此外，重叠部分的深度则因Z方向的前移而减少(D-)。

图4B反映对象后移的情况，其量化区域可以类推。一些右侧的前景区域伴随着左移而消失(F-)；而左侧有前景区域伴随左移而出现(F+)，此外，重叠部分的深度则因Z方向的后移而增大(D+)。

本领域技术人员可以认识到，各种其它的对象运动，如平移，旋转等，都会引发相应的邻域深度值差分图。由于不同的运动会引发不同的深度值差分，从而可以用深度值差分的时空分布来区分不同的运动。

公式(1)中的5个量化级足以描述和区分大部分运动。作为本发明实施例的进一步改进，可以考虑当深度图噪声较小时，采用更多的量化级来区分更加复杂的运动。

在量化编码步骤S300中，各帧深度图像中感兴趣区域中各个像素的邻域深度值差分矢量中的深度差分值可以分别量化编码为一个码值。在上述公式(1)体现的量化编码方案中，CDD矢量的每个深度差分值分别量化编码为一个码值，然而本发明不限于此，而是例如可以将D+、D-及D₀进一步细化表示为D_n，通过以下公式(2)来进行深度差分值的量化编码。

F+：{F((x，y)，t)＝1andF((x+Δx，y+Δy)，t+Δt)＝0}；

F-：{F((x，y)，t)＝0andF((x+Δx，y+Δy)，t+Δt)＝1}；

D_n：{B_n≤D((x，y)，t)-D((x+Δx，y+Δy)，t+Δt)＜B_n+1}∩{F((x，y)，t)＝1andF((x+Δx，y+Δy)，t+Δt)＝1}.(2)

其中各量的含义与公式(1)中相同，设差分值d＝D((x，y)，t)-D((x+Δx，y+Δy)，B_n、B_n+1……为用于确定级别的阈值，如果d属于(B_n，B_n+1]，则量化为D_n，n＝-N，...0，...N，N为自然数，取决于所设定的量化级别数量。

图5包括图5A和图5B，分别示意性地示出对深度差分值进行量化编码的方案。其中，图5A示出在采用上述公式(2)的情况下对深度差分值d进行量化的级别确定方式，其中，数轴划分为一系列互不重合的区域D_n，根据深度差分值d落入的由B_n所划分的区间，来确定其量化值D_n。

在前述量化编码方案中，每个邻域深度值差分矢量会被量化成唯一的一个编码，这样的方案可以称为“硬量化”实现方案。作为上述方案的替代，本发明实施例还可以采用“软量化”的方式，即，在量化编码步骤S300中，各帧深度图像中感兴趣区域中各个像素的邻域深度值差分矢量中的深度差分值可以分别量化编码为多个码值，并赋予分别隶属于多个码值的权重。也就是，每个邻域深度值差分矢量会以相应的权重w_n量化到几个编码D_n，权重w_n≥0满足归一化性质，即∑w_n≡1。

图5B示意性地示出对深度差分值d进行软量化的级别确定方式，不同的量化等级D_n由量化权重函数(权函数)w_n(d)所唯一表示，其中w_n(d)≥0，且满足归一化条件∑w_n(d)≡1。权函数w_n(d)体现了深度值差分d可以被量化到D_n的权重，而∑w_n(d)≡1，w_n(d)≥0则意味着量化到各个D_n的权重满足概率分布函数的条件。图5A所示意的“硬量化”可以视为图5B所示意的“软量化”的特殊情况。对任意深度值差分d而言，在“硬量化”的情况下只有一个权函数w_n(d)的值等于1，其余为零。换而言之，硬量化将每个深度值差分d量化到唯一的量化级别；而软量化将每个深度值差分以一定的权重w_n(d)量化到多个量化级别。

在图5B所示的情况下，每个具体的d值如果落入D_n的非重叠部分，则量化为相应的D_n，如果落入两个D_n(例如D_n和D_n+1)的重叠部分，则量化到D_n和D_n+1，分别具有量化到D_n的权重w_n(d)和量化到D_n+1的权重w_n+1(d)，且w_n(d)+w_n+1(d)＝1。由于图5B所示的情况下，至多出现两个区间相重叠的情况，因此深度值差分d至多可能量化到两个级别，并分别具有权重。然而，本发明实施例不限于此，而是也可以采用其它的软量化方案，例如出现更多的区间相重叠的情况，在此情况下，深度值差分d至多可能量化到重叠数目的级别，并分别具有权重，权重之和为1。

经过量化编码步骤S300的处理，获得各帧深度图像的感兴趣区域中各个像素的CDD码，在上述所谓“硬量化”的情况下，CDD码具有与相应的CDD矢量相同的维度。在“软量化”的情况下，CDD矢量的分量可能以不同权重量化编码到不同级别，均体现在CDD码中。

通过上文的描述，本领域技术人员可以认识到，尽管按顺序描述了各个步骤，然而，前景确定步骤S100和差分步骤S200可以相互独立地执行，只要在量化编码步骤S300之前。

然后，在区域划分步骤S400将各帧深度图像中感兴趣区域划分为多个子区域。通过将对象所占的感兴趣区域划分成一系列子区域，以保证整个对象运动的时空结构。取决于具体的应用情景，感兴趣区域划分可以有很多不同的实现方案。例如，在区域划分步骤S400，可以以各帧深度图像相互独立的方式，将感兴趣区域在相应的深度图像所占据的二维空间区域分别划分为多个子区域。

图6包括图6A至图6C，分别示意性地示出在某一帧深度图像中，将XY二维空间区域分别划分为多个子区域的不同方式。图6A的划分方式可用应用于基于径向分布的运动。例如，手指是径向分布在掌心周围，因此以手臂方向为主轴的径向区域划分有利于手势识别。如果离中心的距离对运动识别也很重要的话，则可以将径向划分与环状划分相结合，图6B的划分方式适用于此种情况。图6C的矩形划分也是一种划分方式，即将感兴趣区域划分成一系列的矩形子区域。

图8示出了将图6A所示的区域划分方式应用于关于手对象的示例，其中箭头代表主方向，可以通过本领域熟知的主成分分析获得，以用于进行关于手势的运动模式识别。

上述感兴趣区域划分方案是在空间域上进行的划分，本发明实施例可以采用的划分方案不限于此。例如，在区域划分步骤S400，可以在连续多帧深度图像中，将感兴趣区域在连续多帧深度图像中所占据的三维时间空间区域划分为多个子区域。也就是，可以推广到时空域(在XY二维空间的基础上进一步考虑时间t而构成3维时空)进行感兴趣区域划分。即将对象在相邻几帧所占的3维时空区域进行划分，这种划分可以是多尺度划分，即对同一感兴趣区域按照不同的尺度(即子区域大小)进行划分。图9包括图9A至图9D，图9A示意性地示出感兴趣区域在相邻多帧所占的3维时空区域，图9B至图9D分别示出在不同的尺度下对感兴趣区域在相邻多帧所占的3维时空区域进行划分的方式。

在通过区域划分步骤S400将各帧深度图像的感兴趣区域划分为多个子区域之后，在分布描述步骤S500，根据各帧深度图像中感兴趣区域的子区域中各个像素的邻域深度值差分码，获得该子区域的邻域深度值差分码分布特征向量。具体地，在分布描述步骤S500中，对于在区域划分步骤S400所得到的各个子区域，可以利用统计矩描述各个邻域深度值差分码在该子区域中的分布，将所有邻域深度值差分码的统计矩作为该子区域的邻域深度值差分码分布特征向量。

分布描述步骤S500针对各帧深度图像的每个子区域中的各个感兴趣像素的CDD码，获得邻域深度值差分码分布(CDDDistribution，CDDD)特征，此CDDD特征为向量，可以描述各种CDD码在该子区域的分布。

对象在现实中的运动将在每个子区域产生相应的深度变化，该深度变化可以通过CDD码的分布所表示，而CDD码的分布可以通过CDDD特征来描述，因此，如果在此步骤或随后的步骤中进一步地将每个子区域的CDDD特征合并起来，就能够描述对象的整体运动模式。

本发明实施例的分布描述步骤S500可以选择利用统计矩的方案来实现用CDDD特征向量v_i，j来描述CDD码在子区域j的分布，其中，j为索引值，自然数，代表子区域的编号，假定某个感兴趣区域分成了J个子区域，则1≤j≤J；i也为索引值，自然数，代表CCD码的编号，假定选定I个CDD码，则编号i为1≤i≤I。CDD码至少包括体现前述的F-、F+、及各个D_n的码值，在前文中，n＝-N，...0，...N，在此，所有码值编为1≤i≤I，包含上述各个码值。

可以用权函数W_i，j(x，y)表示在子区域j中的感兴趣像素(x，y)被量化到CCD码D_i的权重，该权重可以是由前述量化编码步骤S300中量化权重函数(权函数)对像素点邻域深度差分值指定的权重。根据前述量化权重函数的非负性和归一化性，可知对于每一个i，j而言，W_i，j(x，y)是在子区域j中CCD码D_i权重的分布函数；此外，由量化权重函数的归一化性，可知∑_iW_i，j(x，y)＝1，即对任一个感兴趣像素点(x，y)而言，其分布在所有CCD码D_i的权重之和为1。本领域技术人员已知的是，对于任意的k维函数f(z)，z＝(z₁，...，z_k)，如果满足f(z)≥0，且∑_zf(z)dz＜∞，则f(z)是一个分布函数。对于k维分布函数f(z)，z＝(z₁，...，z_k)而言，其p阶统计矩M_p＝∑_z[z^p·f(z)]，此处p＝(p1，...，pk)，z^p＝z₁ ^p1·z₂ ^p2·...z_k ^pk。

由上可知，在k＝2，即2维分布函数f(x，y)的情况下，其(m，n)阶统计矩M_m，n(f)定义为M_m，n(f)＝∑_(x，y)[x^m·yⁿ·f(x，y)]。例如m＝0，n＝1，在此情况下，统计矩M_0，1(f)是2维分布函数f(x，y)关于y的边缘分布的均值。

为了获取CDDD特征向量，以描述权函数W_i，j(x，y)的分布特征，可以选择0阶统计矩，即M_0，0(W_i，j)＝∑_(x，y)W_i，j(x，y)，可以用于运动模式的描述。因为∑_iW_i，j(x，y)＝1，因此∑_iM_0，0(W_i，j)＝A_j为子区域j的面积，或子区域j所包含的像素点的个数。在此情况下的CDDD特征向量v_i，j＝M_0，0(W_i，j)/A_j，1≤i≤I，表示CDD码D_i在子区域j中所占的比例或者说含量。

本领域技术人员可以认识到，本发明不限于此，而是可以采用其它的实现方案。例如，也可以采用更高阶的统计矩或者其组合，如均值，方差等等，以更加精确地描述分布函数W_i，j(x，y)，例如CDDD特征向量可以通过以下公式(3)实现：

v_i，j＝[M_0，0(W_i，j)/A_j，(M_0，1(W_i，j)²+M_1，0(W_i，j)²)^1/2/A_j ^1/2](3)

其中，第一项为D_i在子区域j中所占面积，第二项为D_i在子区域的中心位置。

无论通过上述何种定义方式获得各个子区域的CDDD特征向量v_i，j，可以在此步骤或随后步骤，将感兴趣区域的各子区域的特征向量组合为V＝{v_i，j，1≤i≤I，1≤j≤J}，作为用于描述对象运动的特征向量。

在识别步骤S600，可以根据各帧深度图像中感兴趣区域的子区域的邻域深度值差分码分布特征向量的组合，识别该感兴趣区域所对应对象的运动模式。也就是，基于CDDD特征向量V＝{v_i，j，1≤i≤I，1≤j≤J}来识别对象的运动模式。在此，可选地，可以在识别分类前，对CDDD特征向量进行降维。

例如，通过非专利文件2(Duda，Stork，andHart，“patternclassification”，2^ndedition，Wiley-Interscience，October2000)阐述的主成分分析(PrincipleComponentAnalysis，PCA)技术手段，对CDDD特征向量进行降维。

对于一些非常简单的运动，可以把相邻几帧作为识别对象，对其CDDD特征向量进行分类，有很多现有的本领域熟知的分类器能够实现这一目的，例如非专利文件2中阐述的支持向量机(SupportVectorMachine)分类器技术。此外，也可以以每帧的识别结果进行后处理，提取出一些错误识别的噪声。一些复杂的运动往往会持续较长的一段时间，在此情况下可以把整个过程作为识别单位，用一些现有的本领域熟知的序列分类器进行识别，例如非专利文件2中阐述的隐马尔科夫模型(HiddenMarkovModel)分类器技术。

无论采用上述或其它的何种分类器，通过将CDDD特征向量输入该分类器，可以获得对象运动模式的判决结果，即是否包含感兴趣的运动模式。如果感兴趣运动模式有多个，则可以在输出的分类结果中给出相应的模式标号。

本发明还可以实施为一种基于深度图像序列的对象运动模式识别设备，以执行前述的基于深度图像序列的对象运动模式识别方法。图10是示出按照本发明实施例的基于深度图像序列的对象运动模式识别设备的总体框图。如图10所示，基于深度图像序列的对象运动模式识别设备可以包括：前景确定装置100，可以用来执行前述的前景确定步骤S100，用以在所述深度图像序列的各帧深度图像中确定前景对象区域；差分装置200，可以用来执行前述的差分步骤S200，用以计算各帧深度图像中各个像素的深度值与其相邻帧深度图像中邻域像素的深度值之间的差分，以获得邻域深度值差分矢量；量化编码装置300，可以用来执行前述的量化编码步骤S300，用以根据各帧深度图像及其相邻帧深度图像的前景对象区域确定感兴趣区域，将感兴趣区域中各个像素的邻域深度值差分矢量量化编码为邻域深度值差分码；区域划分装置400，可以用来执行前述的区域划分步骤S400，用以将各帧深度图像中感兴趣区域划分为多个子区域；分布描述装置500，可以用来执行前述的分布描述步骤S500，用以根据各帧深度图像中感兴趣区域的子区域中各个像素的邻域深度值差分码，获得该子区域的邻域深度值差分码分布特征向量；识别装置600，可以用来执行前述的识别步骤S600，用以根据各帧深度图像中感兴趣区域的子区域的邻域深度值差分码分布特征向量的组合，识别该感兴趣区域所对应对象的运动模式。

所述前景确定装置100可以利用本领域技术人员所熟知的任意一种现有技术手段来在所输入的深度图像序列的各帧深度图像中确定前景对象区域。

所述差分装置200可以把与各帧深度图像的各个像素位置相同的相邻帧深度图像中的像素作为所述邻域像素。或者所述差分装置200可以把与各帧深度图像的各个像素位置相同的相邻帧深度图像中的像素及其周围像素作为所述邻域像素。

所述量化编码装置300所处理的各帧深度图像中感兴趣区域中各个像素的邻域深度值差分矢量至少包括代表对象在该像素点消失的分量、代表对象在该像素点出现的分量、及代表对象在该像素点深度变化的分量。

所述量化编码装置300可以把各帧深度图像中感兴趣区域中各个像素的邻域深度值差分矢量中的深度差分值分别量化编码为一个码值。或者，所述量化编码装置300可以把各帧深度图像中感兴趣区域中各个像素的邻域深度值差分矢量中的深度差分值分别量化编码为多个码值，并赋予分别隶属于多个码值的权重。

所述区域划分装置400可以以各帧深度图像相互独立的方式，将感兴趣区域在相应的深度图像所占据的二维空间区域分别划分为多个子区域。或者，所述区域划分装置400可以在连续多帧深度图像中，将感兴趣区域在连续多帧深度图像中所占据的三维时间空间区域划分为多个子区域。

所述分布描述装置500对于所述区域划分装置400所得到的各个子区域，可以利用统计矩描述各个邻域深度值差分码在该子区域中的分布，将所有邻域深度值差分码的统计矩作为该子区域的邻域深度值差分码分布特征向量。

识别装置600可以利用本领域技术人员所熟知的任意一种现有技术手段来识别感兴趣区域所对应对象的运动模式。

本发明还可以通过一种基于深度图像序列的对象运动模式识别系统来实施。图11是示出按照本发明实施例的对象运动模式识别系统1000的总体框图。如图11所示，对象运动模式识别系统1000可以包括：输入设备1100，例如可以是图1中的深度摄像头11，用于从外部捕获并输入深度图像序列；处理设备1200，用于实施上述的按照本发明实施例的对象运动模式识别方法，或者实施为上述的按照本发明实施例的对象运动模式识别设备，例如可以是图1中的计算机系统12，可以包括计算机的中央处理器或其它的具有处理能力的芯片如DSP等等；输出设备1300，用于向外部输出实施上述对象运动模式识别过程所得的结果，例如可以包括显示器、投影仪、打印机、以及通信网络及其所连接的远程输出设备等等；存储设备1400，用于以易失或非易失的方式存储上述对象运动模式识别过程所涉及的图像、所得的结果、命令、中间数据等等，例如可以包括随机存取存储器(RAM)、只读存储器(ROM)、硬盘、或半导体存储器等等的各种易失或非易失性存储器。

本发明实施例的基于深度图像序列的对象运动模式识别方法和基于深度图像序列的对象运动模式识别设备可以利用深度摄像头提供的深度图像进行对象运动识别，提出了基于深度值差分时空分布进行运动识别的框架。对象运动会相应地引发深度值在时空区域的变化，因此利用深度值差分的时空分布来识别对象运动。深度值差分的时空分布的描述基于前景分割、邻域深度值差分、量化编码、对象区域划分和分布描述的技术框架完成，实现了快速、稳定、有效的对象运动识别。

本发明实施例的基于深度图像序列的对象运动模式识别方法和设备包括邻域深度值差分、量化编码、对象区域划分、分布描述。具体而言，邻域深度值差分是一种快速、稳健的运动信息提取，其运算简单，而且无需前提模型假设。通过量化编码将邻域深度值差分压缩到一些典型的邻域深度差分码，在抑制噪声的同时，保持了主要的运动信息。通过对象区域划分在保持对象运动的时空结构的同时，在每个子区域获得了足够的样本以用于后续的分布估计。分布描述则进一步把邻域深度差分码的时空分布压缩成了具有区分和表达能力的向量，从而实现运动模式的分类。

邻域差分可以利用像素点与其时空相邻点的深度值之差来描述对象运动。该差分处理运算简单，且所得结果包含了当前像素点周围的运动信息，具有很强的描述能力。对象区域的时空划分和多尺度划分能够描述复杂的对象运动，而且具有较高的稳定性。前景区域包含了重要的形状信息，因而对对象物体前景区域变化进行编码是对深度差分的有力补充，有助于对象运动识别。进一步地，如果采取软量化过程，则可以进一步减少在硬量化方案中因噪声等因素引发的量化误差，提高处理过程的稳定性。进一步地，将统计矩用于邻域差分码在子区域分布的描述，能够形成对对象运动简洁有效的描述。

在说明书中说明的一系列操作能够通过硬件、软件、或者硬件与软件的组合来执行。当由软件执行该一系列操作时，可以把其中的计算机程序安装到内置于专用硬件的计算机中的存储器中，使得计算机执行该计算机程序。或者，可以把计算机程序安装到能够执行各种类型的处理的通用计算机中，使得计算机执行该计算机程序。

例如，可以把计算机程序预先存储到作为记录介质的硬盘或者ROM(只读存储器)中。或者，可以临时或者永久地存储(记录)计算机程序到可移动记录介质中，诸如软盘、CD-ROM(光盘只读存储器)、MO(磁光)盘、DVD(数字多功能盘)、磁盘、或半导体存储器。可以把这样的可移动记录介质作为封装软件提供。

本发明已经参考具体实施例进行了详细说明。然而，很明显，在不背离本发明的精神的情况下，本领域技术人员能够对实施例执行更改和替换。换句话说，本发明用说明的形式公开，而不是被限制地解释。要判断本发明的要旨，应该考虑所附的权利要求。

Claims

1.一种基于深度图像序列的对象运动模式识别方法，包括：

前景确定步骤，在所述深度图像序列的各帧深度图像中确定前景对象区域；

差分步骤，计算各帧深度图像中各个像素的深度值与其相邻帧深度图像中邻域像素的深度值之间的差分，以获得邻域深度值差分矢量；

量化编码步骤，根据各帧深度图像及其相邻帧深度图像的前景对象区域确定感兴趣区域，将感兴趣区域中各个像素的邻域深度值差分矢量量化编码为邻域深度值差分码；

区域划分步骤，将各帧深度图像中感兴趣区域划分为多个子区域；

分布描述步骤，根据各帧深度图像中感兴趣区域的子区域中各个像素的邻域深度值差分码，获得该子区域的邻域深度值差分码分布特征向量；

识别步骤，根据各帧深度图像中感兴趣区域的子区域的邻域深度值差分码分布特征向量的组合，识别该感兴趣区域所对应对象的运动模式。

2.按照权利要求1所述的对象运动模式识别方法，其中，在所述差分步骤中，与各帧深度图像的各个像素位置相同的相邻帧深度图像中的像素是所述邻域像素。

3.按照权利要求1所述的对象运动模式识别方法，其中，在所述差分步骤中，与各帧深度图像的各个像素位置相同的相邻帧深度图像中的像素及其周围像素构成所述邻域像素。

4.按照权利要求1所述的对象运动模式识别方法，其中，在所述量化编码步骤中，各帧深度图像中感兴趣区域中各个像素的邻域深度值差分矢量至少包括代表对象在该像素点消失的分量、代表对象在该像素点出现的分量、及代表对象在该像素点深度变化的分量。

5.按照权利要求1所述的对象运动模式识别方法，其中，在所述量化编码步骤中，各帧深度图像中感兴趣区域中各个像素的邻域深度值差分矢量中的深度差分值分别量化编码为一个码值。

6.按照权利要求1所述的对象运动模式识别方法，其中，在所述量化编码步骤中，各帧深度图像中感兴趣区域中各个像素的邻域深度值差分矢量中的深度差分值分别量化编码为多个码值，并赋予分别隶属于多个码值的权重。

7.按照权利要求1所述的对象运动模式识别方法，其中，在所述区域划分步骤，以各帧深度图像相互独立的方式，将感兴趣区域在相应的深度图像所占据的二维空间区域分别划分为多个子区域。

8.按照权利要求1所述的对象运动模式识别方法，其中，在所述区域划分步骤，在连续多帧深度图像中，将感兴趣区域在连续多帧深度图像中所占据的三维时间空间区域划分为多个子区域。

9.按照权利要求1所述的对象运动模式识别方法，其中，在所述分布描述步骤中，对于在所述区域划分步骤所得到的各个子区域，利用统计矩描述各个邻域深度值差分码在该子区域中的分布，将所有邻域深度值差分码的统计矩作为该子区域的邻域深度值差分码分布特征向量。

10.一种基于深度图像序列的对象运动模式识别设备，包括：

前景确定装置，在所述深度图像序列的各帧深度图像中确定前景对象区域；

差分装置，计算各帧深度图像中各个像素的深度值与其相邻帧深度图像中邻域像素的深度值之间的差分，以获得邻域深度值差分矢量；

量化编码装置，根据各帧深度图像及其相邻帧深度图像的前景对象区域确定感兴趣区域，将感兴趣区域中各个像素的邻域深度值差分矢量量化编码为邻域深度值差分码；

区域划分装置，将各帧深度图像中感兴趣区域划分为多个子区域；

分布描述装置，根据各帧深度图像中感兴趣区域的子区域中各个像素的邻域深度值差分码，获得该子区域的邻域深度值差分码分布特征向量；

识别装置，根据各帧深度图像中感兴趣区域的子区域的邻域深度值差分码分布特征向量的组合，识别该感兴趣区域所对应对象的运动模式。