CN108280421B

CN108280421B - 基于多特征深度运动图的人体行为识别方法

Info

Publication number: CN108280421B
Application number: CN201810058150.6A
Authority: CN
Inventors: 王冬丽; 欧芳; 周彦
Original assignee: Xiangtan University
Current assignee: Xiangtan University
Priority date: 2018-01-22
Filing date: 2018-01-22
Publication date: 2020-06-30
Anticipated expiration: 2038-01-22
Also published as: CN108280421A

Abstract

本发明公开了一种基于多特征深度运动图的人体行为识别方法，具体实现步骤为：(1)将深度视频的所有帧投影到前、侧、顶三个正交平面；(2)在每个平面堆叠两个连续投影帧的绝对像素差形成深度运动图(DMM_{v＝f,s,t})，然后分别提取LBP特征、GIST特征、HOG特征，对应三个方向形成特征描述子；(3)采用相对熵主成分分析法对三种不同的特征描述子进行特征融合和降维；(4)计算各类行为训练样本融合和降维后的特征在l₁范数和l₂范数下的稀疏重构误差，利用熵权法自适应加权融合两种重构误差，设计一种基于误差融合的分类器用于行为识别。本发明能提高人体行为识别的准确率。

Description

基于多特征深度运动图的人体行为识别方法

技术领域

本发明属于人工智能、模式识别领域，具体涉及基于多特征深度运动图的人体行为识别。

背景技术

人类行为识别已广泛应用于异常行为分析、智能监控、家庭安全。在过去的几十年中，人类行为识别一直是一个活跃的研究领域，研究主要集中在RGB视频图像序列。如：因为时空兴趣点具有丰富的运动信息的特性，在三维时空空间，Harris探测器用来检测在时空三维空间的兴趣点，使用兴趣点描述动作并识别行为；通过追踪每帧采样点的光流信息形成的稠密轨迹特征已广泛应用于人体行为识别。然而基于RGB图像的方法对光照、拍摄角度、背景和遮挡敏感，不利于行为识别。

近年来，随着低成本传感器的发布，基于深度图的动作识别已经取得了一些进展。与RGB视频图像相比，深度图像的像素值代表深度距离的大小，是一种距离成像图像。所以，深度图像可以更好地保持稳定性，不受光线和环境变化的影响。深度图像可以描述场景的三维信息，避免了传统图像中的线性透视问题。现有的人体行为识别方法包括一些基于深度图人体轮廓或人体剪影的算法。然而，这些方法只考虑到全局特征未能考虑到细节，得到的运动信息和外形信息不够充分，导致得到的识别精度不高。

Chen C等人[Chen C,Liu K,Kehtarnavaz N.Real-time human actionrecognition based on depth motion maps[J].Journal ofreal-time imageprocessing,2016,12(1):155-163.]通过堆叠连续两帧之间的绝对差，形成深度运动图(DMMv)，以识别人体行为。该方法在一定程度上考虑到了视频的时序性。但是该方法直接融合三个投影方向的深度运动图，只利用了全局特征；融合方式选择直接串联方式导致融合后的特征过冗余，增大了计算量；在后期分类时利用单一系数重构误差容易造成相似行为错分。

综上所述，现有方案的局限性如下：

a.基于RGB图像的方法对光照、拍摄角度、背景和遮挡敏感；

b.基于深度运动图，通过直接串联方法融合三个投影方向的深度运动图生成的融合特征不仅高度冗余，而且局部细节特征描述能力弱；

c.只考虑了单一稀疏重构误差用于测试样本分类容易造成相似行为(如跑和步行)的错误识别。

因此，有必要提供一种，能不受光照、角度、背景以及遮挡因素的影响，能同时描述人体局部和全局特征并且提高计算效率，降低特征冗余度，同时提高人体行为识别准确率的人体行为识别方法。

发明内容

为了解决现有技术的缺陷，本发明公开了一种基于多特征深度运动图的人体行为识别方法。与传统人体行为识别方法相比，本发明通过对人体运动进行更为详细描述、根据特征贡献率进行特征融合、利用两种稀疏重构误差设计分类器，取得了更高的行为识别率。

本发明所采用的技术方案为：

一种基于多特征深度运动图的人体行为识别方法，包括训练阶段和人体行为识别阶段；

所述分类器训练阶段为：

首先对训练样本数据集中的每一个训练样本，即每一个深度视频分别进行运动描述和特征提取；然后对提取出的所有训练样本的特征进行特征融合和降维；再基于所有训练样本融合和降维后的特征，求解各类行为的字典和对应的稀疏向量；最后分别计算各类行为的训练样本融合和降维后的特征在l₁范数和l₂范数下的稀疏重构误差，利用熵权法自适应加权融合两类稀疏重构误差，设计基于误差融合的分类器；

所述人体行为识别阶段为：

首先对待分类的深度视频进行运动描述和特征提取，然后对其提取出的特征进行特征融合和降维，再将待分类的深度视频融合和降维后的特征输入训练过程得到的分类器，求解待分类的深度视频所属行为分类。

进一步地，所述运动描述为：将深度视频的每一帧图像投影到三个正交平面，在每个投影平面内堆叠连续两帧图像之间的绝对差形成深度运动图DMM_v，其中v表示投影方向，v＝{f，s，t}，f，s，t分别表示前向、侧向和顶部，对应的DMM_f、DMM_s和DMM_t分别表示前向投影深度图、侧向投影深度图和顶部投影深度图；如每个深度帧的大小为240×320，对应投影图大小分别为240×320、240×P和P×320，其中P为深度平面内最大像素值。

进一步地，深度运动图DMM_v的形成方法为：

累积深度视频三个投影方向相邻帧投影的绝对差，形成DMM_v；

其中，N为深度视频的总帧数，i为深度视频的图像帧序号，

为第i帧图像对应的v三个方向的投影。

进一步地，所述特征提取为：对DMM_f、DMM_s和DMM_t分别提取LBP特征(局部二值模式特征)、GIST特征和HOG特征(方向梯度直方图特征)，分别对应形成三种特征描述子(特征描述向量)DMM_f-LBP、DMM_s-GIST和DMM_t-HOG，然后对它们进行归一化处理。

进一步地，三种不同特征描述子的形成及其归一化过程具体采用如下步骤：

S21：为降低计算复杂度以及提高识别准确率，提取DMM_f、DMM_s和DMM_t的非零区域，即对三个方向的投影深度图进行前景提取；

S22：对前向投影深度图DMM_f用等价模式LBP特征描述形成DMM_f-LBP特征描述子，对侧向投影深度图DMM_s用GIST特征描述形成DMM_s-GIST特征描述子，对顶部投影深度图DMM_t用HOG特征描述形成DMM_t-HOG特征描述子；

S23：对三种特征描述子进行归一化处理，归一化处理的方法为；

其中，X为归一化处理前的特征描述子，X为特征描述子X归一化处理后的结果，max(X)和min(X)分别为特征描述子X中的最大、最小元素值(最大、最小特征值)，归一化处理的过程就是：在得到该类特征描述子中的最大、最小元素值后，先将该类特征描述子中的每个元素值与该类特征描述子中的最小元素值的做差，再将所得差值与该类特征描述子中的最大、最小元素值的差值做商。

进一步地，所述训练阶段，特征融合和降维的方法为：采用相对熵主成分分析法(REPCA)对训练样本的三种特征描述子进行融合并降维，具体步骤为：

S31：计算多特征的协方差矩阵C，协方差矩阵在一定程度上反映了多特征之间的关系；

其中，T表示m个训练样本的三种特征描述子归一化处理后的结果组成的联合矩阵，T(i，j)为其第i行第j列的元素值，n表示三种特征描述子的维数和，E(T(j))关关表示矩阵T的第j列的均值，m表示训练样本数据集中的训练样本个数；

对协方差矩阵进行分解，计算得到协方差矩阵的特征值和对应的特征向量：

λ_iu_i＝Cu_i (4)

其中，λ_i是协方差矩阵C的第i个特征值，u_i是特征值λ_i对应的特征向量，i＝1，2，...，m；

根据特征值计算各特征值的贡献率；

其中，q_i为第i个特征值的贡献率，i＝1，2，...，m；

S32：基于特征值的贡献率计算特征值的相对熵；

D_i＝-q_ilog₂q_i (6)

其中，D_i第i个特征值的相对熵，i＝1，2，...，m；

S33：根据特征值的相对熵计算权值矩阵，权值矩阵与联合矩阵T运算得到融合特征矩阵F；

R_m×m＝diag[r₁，r₂，...，r_m] (8)

F＝TR (9)

其中，R_m×m为权值矩阵；

S34：对融合特征矩阵F采用PCA方法(主成分分析法)进行降维，得到F'，F'中的每一列表示一个训练样本的三种描述子融合并降维后的特征向量。

进一步地，所述人体行为识别阶段，特征融合和降维的方法为：首先将对待分类的深度视频的三种特征描述子归一化处理后的结果串联成一个列向量，然后采用PCA方法对其进行降维。

进一步地，所述基于所有训练样本融合和降维后的特征向量，求解各类行为的字典和对应的稀疏向量的具体步骤为：

S41：将训练样本数据集中的所有训练样本划分为待重构样本和用于构造字典的样本，确定各训练样本所属行为分类；

S42：从F'中取出所有属于第j类行为的用于构造字典的样本的特征向量，构成第j类行为的字典A_j；

S43：通过以下函数求解能够尽可能还原第j类行为的训练样本特征向量的稀疏向量

其中，g_i为从F'中取出的属于第j类行为的第i个待重构样本的特征向量，θ是正则化参数，用于平衡前面的冗余项和后面的稀疏项，为经验参数；j＝1，...，c，c为训练样本数据集内人体行为类别总数。

进一步地，所述计算各类行为训练样本融合和降维后的特征在l₁范数和l₂范数下的稀疏重构误差，利用熵权法自适应加权融合两类稀疏重构误差，设计基于误差融合的分类器的具体步骤为：

S51：计算两类稀疏重构误差：

其中，error_p(j)表示F'中取出的属于第j类行为的所有待重构训练样本的特征向量由字典A_j表示时，在l_p范数下的稀疏重构误差，p＝1，2时分别为基于l₁范数和l₂范数计算得到的稀疏重构误差，j＝1，...，c；

S52：归一化各类误差；

其中，Y_jp为error_p(j)归一化后的结果，max(error_p)和min(error_p)分别表示error_p(j)，j＝1，...，c中的最大值和最小值；

S53：计算两类稀疏重构误差的信息熵；

其中，

E_p为l_p范数下的稀疏重构误差的信息熵，p＝1，2；

S54：根据两类稀疏重构误差的信息熵，确定它们的自适应权重；

S55：基于融合误差的分类器表示为：

其中，e_j为由两种稀疏重构误差加权融合得到的误差，g表示待分类的深度视频融合和降维后的特征，class(g)为待分类的深度视频的分类标签，j＝1，...，c。

有益效果：

与已有技术相比，本发明能不受光照、角度、背景以及遮挡因素的影响，能同时描述人体局部和全局特征并且提高计算效率，降低特征冗余度，同时提高人体行为识别准确率。具体具有以下术特点与效果：

第一、特征提取阶段，本发明分别采用LBP、GIST、HOG特征描述DMM_f、DMM_s、DMM_t三个方向的投影深度运动图。能够在DMM_v的基础上进一步提取全局特征、局部特征、以及纹理特征，对行为进行更深入的运动描述，提高了DMM_v对人体行为运动信息以及外貌信息的描述能力。

第二、在基于多特征深度运动图的人体行为识别系统中，本发明在融合三个方向的特征描述子时，计算多个特征值的相对熵，并确定不同特征值的权值构造权值矩阵用于特征融合。以优于直接串联多特征的相对熵主成分分析(REPCA)方法对多特征进行融合并降维，可降低融合特征的冗余度，提高识别准确率。

第三、在设计分类器阶段，在考虑到稀疏性的同时考虑过拟合问题，充分利用两种不同范数的优势，计算各类行为训练样本的特征向量在l₁范数l₂范数下的稀疏重构误差，对两种不同稀疏重构误差基于熵权法自适应加权融合，通过最终的融合误差获得待分类的深度视频的分类标签，用于分类。

附图说明

图1是本发明的多特征深度运动图表征方法流程示意图；

图2是本发明的深度视频帧三个方向的投影示意图；

图3是基于LBP特征的前向投影深度运动图描述子DMM_f-LBP；

图4是MSRAction3D数据集向上挥手的深度序列样本图；

图5是本发明行为识别系统的框架示意图；

具体实施方式

以下结合附图来说明本发明的具体实施方案，图1是本实施例的基于多特征深度运动图的人体行为识别流程示意图。本发明公开了一种基于多特征深度运动图的人体行为识别方法，具体实现步骤为：(1)将深度视频的所有帧投影到前、侧、顶三个正交平面；(2)在每个平面堆叠两个连续投影帧的绝对差形成深度运动图(DMM_{v＝f,s,t})，然后分别提取LBP特征、GIST特征、HOG特征，对应三个方向形成特征描述子；(3)对三种不同的特征描述子进行特征融合和降维；(4)分别计算各类行为样本的特征向量基于l₁范数和l₂范数的稀疏重构误差，基于熵权法自适应加权融合两种重构误差，设计一种基于融合误差的分类器用于行为识别。

以下通过实验对本发明的效果进行验证。

MSR-Action 3D数据集包含20种不同行为分别是：高臂挥，水平挥，锤击，手抓，前向拳击，高抛，画x，画勾，画圆圈，拍手，双手挥，侧拳击，弯曲，前踢，侧踢，慢跑，网球挥拍，高尔夫挥杆，捡起和扔。这些行为共由十个人扮演。每个人扮演每个行为2到3次，该数据集包括分辨率为320x240的567个深度视频。所有的深度视频都是从固定的视角拍摄的，扮演者正对深度相机。在本实例中将所有行为分成三个行为子集如表1所示。

表1 MSR-Action 3D数据集的三个行为子集

不失一般性地，本实例实施时实验设置保证与已存在的方法一致。实例分为固定测试和随机测试两种不同实验，每种实验有三种不同的实验设置，(1)在测试1中，1/3的样本用作训练样本，其余的用作测试样本；(2)在测试二中，2/3的样本用作训练样本，其余的用作测试样本；(3)在交叉测试中，测试样本和训练样本分别为样本的一半。本实例的运行环境为MATLAB R2016a，表2是本发明方法产生的效果与其它已有方法进行比较，由表2可知本发明方法取得了比较好的实验效果。

表2本发明与已有方法在固定测试的识别率对比

为突出本发明在特征融合方法上的优势，在表3中将基于随机测试的相对熵主成分分析

特征融合方法与直接串联的特征融合方法识别率对比。由表3可知基于相对熵主成分分析的特征融合方法有明显优势。

表3基于随机测试交叉验证的识别率对比

从表中可以看出，相较于直接串联特征融合的方法，本发明提出的特征融合方法在识别率上至少能提高七个百分点。

本发明在分类器设计时，相较单独使用重构误差的l₁或l₂范数形式计算重构误差用于分类，本发明提出对两种不同的稀疏重构基于熵权法自适应加权融合，形成融合误差用于分类。表4对比了本发明所用分类器与基于l₁范数、l₂范数的分类器在随机测试交叉验证中的识别率。

表4对比不同分类器在随机测试交叉验证中的识别率

Claims

1.一种基于多特征深度运动图的人体行为识别方法，其特征在于，包括训练阶段和人体行为识别阶段；

所述分类器训练阶段为：

首先对训练样本数据集中的每一个训练样本，即每一个深度视频分别进行运动描述和特征提取；

然后对提取出的所有训练样本的特征进行特征融合和降维，得到矩阵F′，F′中的每一列表示一个训练样本的特征向量；再基于所有训练样本融合和降维后的特征，求解各类行为的字典和对应的稀疏向量，将求解得到的第j类行为的字典记为A_j，能够尽可能还原第j类行为的训练样本特征向量的稀疏向量记为

最后分别计算各类行为的训练样本融合和降维后的特征在l₁范数和l₂范数下的稀疏重构误差，利用熵权法自适应加权融合两类稀疏重构误差，设计基于误差融合的分类器，具体步骤为：

S11：计算两类稀疏重构误差：

其中，g_i为从F′中取出的属于第j类行为的第i个待重构样本的特征向量，error_p(j)表示F′中取出的属于第j类行为的所有待重构样本的特征向量由字典A_j表示时，在l_p范数下的稀疏重构误差，p＝1,2时分别为基于l₁范数和l₂范数计算得到的稀疏重构误差，j＝1,…,c，c为训练样本数据集内人体行为类别总数；

S12：归一化各类误差；

其中，Y_jp为error_p(j)归一化后的结果，max(error_p)和min(error_p)分别表示error_p(j)，j＝1,…,c中的最大值和最小值；

S13：计算两类稀疏重构误差的信息熵；

其中，

E_p为l_p范数下的稀疏重构误差的信息熵，p＝1,2；

S14：根据两类稀疏重构误差的信息熵，确定它们的自适应权重；

S15：基于融合误差的分类器表示为：

其中，e_j为由两种稀疏重构误差加权融合得到的误差，g表示待分类的深度视频融合和降维后的特征，class(g)为待分类的深度视频的分类标签，j＝1,…,c；

所述人体行为识别阶段为：

2.根据权利要求1所述的基于多特征深度运动图的人体行为识别方法，其特征在于，所述运动描述为：将深度视频的每一帧图像投影到三个正交平面，在每个投影平面内堆叠连续两帧图像之间的绝对差形成深度运动图DMM_v，其中v表示投影方向，v＝{f,s,t}，f,s,t分别表示前向、侧向和顶部，对应的DMM_f、DMM_s和DMM_t分别表示前向投影深度图、侧向投影深度图和顶部投影深度图。

3.根据权利要求2所述的基于多特征深度运动图的人体行为识别方法，其特征在于，深度运动图DMM_v的形成方法为：