CN103077383B

CN103077383B - 基于时空梯度特征的分部位的人体运动识别方法

Info

Publication number: CN103077383B
Application number: CN201310007975.2A
Authority: CN
Inventors: 韩红; 张红蕾; 谢福强; 韩启强; 李晓君; 顾建银
Original assignee: Xidian University
Current assignee: Hangzhou Huazhen Environmental Protection Technology Co ltd; Qingdao Huashi Intelligent Technology Co ltd
Priority date: 2013-01-09
Filing date: 2013-01-09
Publication date: 2015-12-09
Anticipated expiration: 2033-01-09
Also published as: CN103077383A

Abstract

本发明提出了一种基于时空梯度特征的分部位的人体运动识别方法，主要解决现有技术中特征提取复杂、表征能力弱的问题。其实现步骤是：(1)取一个样本视频I，检测视频中的时空兴趣点；(2)提取人体各部位的N个时空块；(3)计算时空块各层的最大梯度G_m；(4)在极坐标系中，将梯度G_m的大小r和方向θ进行区域划分，计算每个区域内大小r和方向θ的百分比d_θ(i)和d_r(j)，并级联为时空块的特征g_i；(5)检测人体的重心G(x₀,y₀)并计算人体运动的速度特征(6)将各部位的运动特征和速度特征级联作为最终特征；(7)按上述步骤对训练集X和测试集T中所有样本提取特征，获得训练样本特征集Xˊ和测试样本特征集Tˊ，并进行学习训练，获得分类结果。本发明能准确识别人体运动，可用于视频监控、目标识别和运动识别的视频处理。

Description

基于时空梯度特征的分部位的人体运动识别方法

技术领域

本发明属于图像处理技术领域，涉及人体运动识别方法，可用于虚拟视频、智能监控和姿态估计。

背景技术

人体运动识别是近几年来计算机视觉领域的重大热点之一，人体运动识别在运动捕获，人机交互，视频监控等多领域获得了初步的应用，并具重大的应用前景。由于人体运动的多变性和多样性，背景的嘈杂以及光照条件，衣服纹理和自身遮挡等多方面的因素严重影响人体运动的识别效果，故从视频图像中准确估计人体姿态，实现人体运动识别是计算机视觉领域长期存在的问题。

目前，人体运动识别的方法主要分为三大类：基于模型的人体运动识别、基于学习的人体运动识别和基于表现的人体运动识别。

第一种，基于模型的方法，利用人体结构的先验知识建立人体模型，然后提取图像底层特征匹配到模型中，并以运动规律加以约束。当前比较典型的方法如：JuSun采用了基于SIFT描述子和基于Markov模型的识别方法；Hsuan-ShengChen等人采用了基于星形骨架描述轮廓信息的特征表述方法和基于HMM的动作识别方法。这种方法简单，容易实现，但是特征表征能力较弱，信息包含较少，识别性能低，准确率不高，且容易受遮挡和人体服装差异的影响，常作为一种辅助方法。

第二种基于学习的人体运动识别方法：该方法首先在训练的视频图像和目标视频图像数据库里提取精确的图像特征，通过机器学习从一系列训练数据中学习得到一个分类器，用该分类器来表示人体运动，然后利用该分类器对输入窗口进行分类及识别。如IvanLaptev等人采用的基于HOG和HOF的特征提取方法和基于KNN和SVM的识别方法；SomayehDanafar和NiloofarCheissari在其论文中采用了基于光流的特征提取方法和基于SVM的运动识别方法，其中基于光流的特征是从图像序列的相邻帧中提取，另外还有LaptevandLindeberg采用的将Harris角点检测拓展到3D进行时空兴趣点检测实现运动识别的方法。该识别方法的优点与人体模型的方法和模板匹配的方法相比是比较鲁棒，检测结果较优，但是缺点是运动信息的计算过程缺乏对行为的全局分析，且计算特征的复杂度较高，需要很多训练数据，通常需要上万的数据。

第三种基于表现的方法，无须对人体建模，直接提取图像中感兴趣区域的底层二维表观特征，然后找出区域特征与人体动作的对应关系进行匹配。如Bobick和Davis采用了基于轮廓表征的特征表示方法和基于MHI和MEI模板的识别方法。这种方法与基于模型的方法相比计算比较简单，缺点是提出的特征对环境的动态变化敏感，易受背景变化的影响，对纹理变化不够敏感，不能最优的表征图像边缘，同时由于人体姿态的复杂性，很难构造出足够的模板以处理不同的姿态，故正确率也不高。

发明内容

本发明目的是针对上述第二种方法的不足，从人体的结构特性出发，提出的一种基于时空梯度特征的分部位的人体运动识别方法，以降低图像特征提取的复杂度，提高特征的表征能力，有效地提高人体识别的正确率。

为实现上述目的，本发明的技术方案包括如下步骤：

(1)取一个视频样本I，检测视频中的时空兴趣点；

(2)根据Fischler和Elschlager提出的图结构模型将人体划分为头部、左上肢、左下肢、右上肢和右下肢部位；

(3)在各人体部位中，提取基于时空兴趣点的时空块C，并计算该时空块C中各层的最大梯度G_m；

(4)对时空块C提取基于最大梯度G_m的统计梯度特征g_i，作为该部位的运动特征f_i＝g_i；若某一部位包括多个时空块，则取所有时空块的统计梯度特征g_i的均值作为该部位的运动特征其中，N表示部位中时空块的个数；

(5)检测视频中人体的重心G(x₀,y₀)；

(6)计算该视频样本I中人体运动的速度特征

(7)将人体运动的各部位的运动特征f_i和速度特征级联得到人体运动的最终特征，对于没有时空兴趣点的部位，用零补齐；

(8)将Weizmann数据库按照8:1的比例划分为训练样本集X和测试样本集T；按照上述步骤(1)~(7)分别将训练样本集X和测试样本集T中的所有视频提取特征，获得训练样本特征集X'和测试样本特征集T'；

(9)利用SVM算法对训练样本特征集X'进行训练学习得到分类器；将测试样本特征集T'输入到分类器，得到各类运动的分类结果。

本发明与现有的技术相比具有以下优点：

1)本发明利用人体分部位进行特征提取的方式，通过计算各个部位的特征进行人体运动识别的方法，特征的表征能力强，有效地提高了人体运动识别的正确率。

2)本发明利用检测时空兴趣点的方式对时空块进行提取统计梯度特征，不需要对图像序列中的人体运动区域提取边缘特征等，较传统的图像描述方法维度低，在学习训练阶段能有效缩减时间和数据计算量。

附图说明

图1是本发明的流程示意图；

图2是本发明仿真使用的数据库的部分序列图像；

图3是本发明对图2数据库中动作wave1视频进行时空兴趣点检测后的结果图；

图4是本发明对图3中的时空兴趣点提取时空块的横向展开图；

图5是本发明对图4中的时空块进行最大梯度计算后在极坐标内的显示图；

图6是本发明对图2数据库进行仿真后的混淆矩阵图。

具体实施方式

参照图1，本发明的具体实现步骤如下：

步骤一，获取整个人体运动识别训练样本集X和测试样本集T。

(1a)从WEIZMANN人体数据库提取本发明试验所需的样本集，下载地址为http://www.wisdom.weizmann.ac.il/~vision/SpaceTimeActions.html；图2给出了数据库中的部分序列图像；

(1b)将WEIZMANN数据库中的视频按照8：1的比例构建训练样本集X和测试样本集T。

步骤二，对训练样本集X中视频，检测视频中的时空兴趣点。

(2a)对原始视频采用二维Gauss滤波器进行降噪，得到滤波后的视频数据L：

L＝I*g，

其中，I表示原始视频数据，L表示滤波后的视频数据，g为高斯平滑核，g的计算公式为：

g (x, y, σ) = \frac{1}{{2 πσ}^{2}} e^{- \frac{x^{2} + y^{2}}{{2 σ}^{2}}},

其中，x,y为像素坐标，σ为空间维度的尺度参数；

(2b)在时间维度上进行一维Gabor滤波，得到视频数据L在时间维度上的响应数据R，

R = L * {h_{ev}}^{2} + L * h_{od}^{2},

其中，h_ev和h_od是Gabor滤波器的一组正交对，其定义公式如下：

h_{ev} = - \cos (2 πtω) e^{- t^{2} / τ^{2}},

h_{od} = - \sin (2 πtω) e^{- t^{2} / τ^{2}},

其中，ω＝4/τ，t＝2τ，τ为时间维度的尺度参数；

(2c)设定响应数据R的阈值将响应数据R大于阈值的点记为时空兴趣点。

步骤三，根据Fischler和Elschlager提出的图结构模型，将人体划分为头部、左上肢、左下肢、右上肢和右下肢部位。

步骤四，提取人体各部位的运动特征。

(4a)在各人体部位中，以时空兴趣点为中心，提取宽度为3*3、长度为19的视频时空块C；

(4b)对时空块C采用高斯平滑滤波进行去噪，并计算时空块中每一层图像的梯度G；

(4c)计算G中的最大梯度G_m，并记录G_m的大小r和方向θ；

(4d)在极坐标之内，显示时空块中所有最大梯度G_m的大小r和方向θ；

(4e)对于方向θ，选择每30度作为一个区域，总共划分12个区域，分别统计每个区域内方向θ的个数n_θ(i)；

(4f)对于大小r，按照大小r值的大小划分为5个直方图区域，分别统计每个区域中大小r的个数n_r(j)；

(4g)计算每个区域内大小r和方向θ分布个数的百分比d_r(j)和d_θ(i)：

d_r(j)＝n_r(j)/n_r，

d_θ(i)＝n_θ(i)/n_θ，

其中，j表示大小r的第j区域，j＝1,...,5，

n_r(j)为第j区域中大小r的个数；n_r为全部大小r的个数，

i表示方向θ的第i区域，i＝1,...,12，

n_θ(i)为第i区域内方向θ的个数；n_θ为全部方向θ的个数；

(4h)将梯度的大小r和方向θ的百分比d_r(j)和d_θ(i)级联作为该时空块的统计梯度特征g_i；

(4i)将时空块的统计梯度特征g_i作为该部位的运动特征f_i＝g_i；若某一部位包括多个时空块，则将所有时空块的统计梯度特征gi的均值作为该部位的运动特征其中，N表示部位中时空块的个数。

步骤五，计算视频中人体的重心G＝(x₀,y₀)。

(5a)背景剪除：将视频的图像序列和背景图片进行差分处理，使用阈值法得到前景图像区域和背景图像区域，将前景图像区域的像素设为0，背景图像区域的像素设为1，获得原图像序列的前景二值图像m；

(5b)使用形态学中膨胀腐蚀的方法，对原图像序列的前景二值图像v填补坑洞，修补缺失部分，获得理想的前景二值图像m'；

(5c)利用光栅扫描法从前景二值图像m'中，获得人体的边界像素点坐标(x_i,y_i)；

(5d)利用人体边界像素点坐标(x_i,y_i)，计算人体重心坐标G(x₀,y₀)：

\{\begin{matrix} x_{0} = \frac{1}{N_{b}} Σ_{i = 1}^{N_{b}} x_{i} \\ y_{0} = \frac{1}{N_{b}} Σ_{i = 1}^{N_{b}} y_{i} \end{matrix},

其中N_b为构成人体边缘的所有像素的个数，(x_i,y_i)为人体边界像素点坐标。

步骤六，计算视频样本中人体运动的速度特征

\overset{&OverBar;}{v} = \frac{1}{N} Σ_{n = 1}^{N} abs ({v_{i}}^{'}),

其中，v_i'为即时速度，

{v_{i}}^{'} = \frac{\sqrt{{(x_{0 (i + 1)} - x_{0 (i - 1)})}^{2} + {(y_{0 (i + 1)} - y_{0 (i - 1)})}^{2}}}{3},

x_0(i),y_0(i)为当前帧的人体重心坐标，x_0(i-1),y_0(i-1)为前一帧的人体重心坐标，x_0(i+1),y_0(i+1)为后一帧的人体重心坐标。

步骤七，将人体运动的各部位的运动特征f_i和速度特征进行级联，得到人体运动的最终特征，对于没有时空兴趣点的部位，用零补齐。

步骤八，按照上述步骤二至步骤七，分别将训练样本集X和测试样本集T中的所有运动视频提取特征，获得训练样本特征集X'和测试样本特征集T'。

步骤九，利用SVM算法对训练样本特征集X'进行训练学习，对输入测试样本特征集T'进行分类。

(9a)将训练数据先采用“leave-one-out”的方法进行交叉验证，选取交叉验证实验中分类准确率最高的参数作为最优参数；

(9b)将最优参数和训练样本特征集X'用于SVM训练分类器；

(9c)将测试样本特征集T'输入已经训练好的分类器，得到各类运动的预测标签L'；

(9d)根据测试样本特征集T'的预测标签L'和真实标签L得出每一类的分类准确率，并画出混淆矩阵。

1.实验条件

实验所需的样本集来源于WEIZMANN数据库，包括bend，jack，jump，pjump，side，wave1，wave2，run，walk，skip十类运动视频，整个人体运动识别的样本有90个，其中各类运动样本各有9个，样本的大小均为144×180像素。图2给出了数据库中的部分序列图像。

硬件平台为：IntelCore2DuoCPUE65502.33GHZ、2GBRAM。软件平台为MATLABR2009a。

2.对比实验

本发明使用的对比实验方法是J.C.Niebles和李飞飞博士在文章“J.C.NieblesandL.Fei-Fei,“Ahierarchicalmodelofshapeandappearanceforhumanactionclassification,”IEEEConferenceonComputerVisionandPatternRecognition,2007.”中提出的基于形状和表观模型的人体运动识别方法。首先提取训练样本基于形状的特征，然后训练一个判别性分类器，最后通过计算测试样本特征和分类器中模型的相似性来实现分类。

3.实验内容与结果分析

仿真一，使用本发明对WEIZMANN数据库中动作wave1的第一个视频样本进行时空兴趣点的检测，检测结果如图3所示，图3中白点即为检测出的时空兴趣点。

从图3可以看出，本发明的方法能将人体运动时的时空兴趣点精确地检测出，且具备良好的表征能力。

仿真二，使用本发明对仿真一中的视频样本提取人体右上肢的时空块，时空块的横向展开图，如图4所示。

从图4中可以看出，本发明的方法能精确提取出时空块，且具备精确表征人体部位运动的能力。

仿真三，使用本发明计算仿真二中时空块各层的最大梯度，并将最大梯度的大小和方向在极坐标系中显示，结果如图5所示。

从图5中可以看出，本发明的方法能良好地表征人体部位的运动特征，且特征具有判别性。

仿真四，使用本发明对WEIZMANN数据库进行人体运动识别的仿真实验，步骤如下：

1)对WEIZMANN数据库在上述实验条件中进行训练样本和测试样本的划分；

2)对训练样本集X和测试样本集T进行特征提取，得到训练样本特征集X'和测试样本特征集T'；

3)利用SVM算法对训练样本特征集X'训练，之后将测试样本特征集T'输入分类器得到各类运动的预测标签L'；

4)根据测试样本特征集T'的预测标签L'和真实标签L，得出总的分类准确率为100%，并画出混淆矩阵，如图6所示。

从图6的混淆矩阵可以看出，经过调整参数，所有运动都能得到有效地识别，且分类准确率100%，高于对比实验中李飞飞博士的72.8%。

综上，本发明提出的人体运动识别方法有效可行，且提出的特征提取方法能准确的表征人体运动姿态，特征的表征能力强，较传统的图像描述方法维度低，在学习训练阶段能有效缩减时间和数据计算量，且有效地提高了人体运动识别的正确率。

Claims

1.一种基于时空梯度特征的分部位的人体运动识别方法，包括步骤如下：

(1)取一个视频样本I，检测视频中的时空兴趣点；

(4)对时空块C提取基于最大梯度G_m的统计梯度特征g_i，作为该部位的运动特征f_i＝g_i；

(4a)对时空块C采用高斯平滑滤波进行去噪，并计算时空块中每一层图像的梯度G；

(4b)计算G中的最大梯度G_m并记录G_m的大小r和方向θ；

(4c)在极坐标之内，显示时空块中所有最大梯度G_m的大小r和方向θ；

(4d)对于方向θ，选择每30度作为一个区域，总共划分12个区域，分别统计每个区域内方向θ的个数n_θ(i)；

(4e)对于大小r，按照大小r值的大小划分为5个直方图区域，分别统计每个区域中大小r的个数n_r(j)；

(4f)计算每个区域内大小r和方向θ分布个数的百分比d_r(j)和d_θ(i)：

d_r(j)＝n_r(j)/n_r，

d_θ(i)＝n_θ(i)/n_θ，

其中，j表示大小r的第j区域，j＝1,...,5，

n_r(j)为第j区域中大小r的个数，n_r为全部大小r的个数，

i表示方向θ的第i区域，i＝1,...,12，

n_θ(i)为第i区域内方向θ的个数；n_θ为全部方向θ的个数；

(4g)将梯度的大小r和方向θ的百分比d_r(j)和d_θ(i)级联作为时空块的统计梯度特征g_i；

若某一部位包括多个时空块，则取所有时空块的统计梯度特征g_i的均值作为该部位的运动特征其中，N表示部位中时空块的个数；

(5)检测视频中人体的重心G(x₀,y₀)；

(6)计算该视频样本I中人体运动的速度特征

(8)将Weizmann数据库按照8:1的比例划分为训练样本集X和测试样本集T；按照上述步骤(1)～(7)分别将训练样本集X和测试样本集T中的所有视频提取特征，获得训练样本特征集X′和测试样本特征集T′；

(9)利用SVM算法对训练样本特征集X′进行训练学习得到分类器；将测试样本特征集T′输入到分类器，得到各类运动的分类结果。

2.根据权利要求1所述的人体运动识别方法，其中步骤(1)所述的检测视频中的时空兴趣点，是按如下方法进行：

(1a)对原始视频采用二维Gauss滤波器进行降噪，得到滤波后的视频数据L：

L＝I*g，

g (x, y, σ) = \frac{1}{2 {πσ}^{2}} e^{- \frac{x^{2} + y^{2}}{2 σ^{2}}},

其中，x,y为像素坐标，σ为空间维度的尺度参数；

(1b)在时间维度上进行一维Gabor滤波，得到视频数据L在时间维度上的响应数据R：

R = L * {h_{e v}}^{2} + L * h_{o d}^{2},

h_{e v} = - c o s (2 π t ω) e^{- t^{2} / τ^{2}},

h_{o d} = - s i n (2 π t ω) e^{- t^{2} / τ^{2}},

其中，ω＝4/τ，t＝2τ，τ为时间维度的尺度参数；

(1c)设定响应数据R的阈值将响应数据R大于阈值的点记为时空兴趣点。

3.根据权利要求1所述的人体运动识别方法，其中所述步骤(3)中的提取基于时空兴趣点的时空块C，是提取以时空兴趣点为中心提取宽度为3*3、长度为19的视频时空块C。

4.根据权利要求1所述的人体运动识别方法，其中步骤(5)所述的检测视频中人体的重心G(x₀,y₀)，按如下步骤进行：

(5b)使用形态学中膨胀腐蚀的方法，对原图像序列的前景二值图像v填补坑洞，修补缺失部分，获得理想的前景二值图像m′；

(5c)利用光栅扫描法从前景二值图像m′中，获得人体的边界像素点坐标(x_i,y_i)；

\{\begin{matrix} x_{0} = \frac{1}{N_{b}} Σ_{i = 1}^{N_{b}} x_{i} \\ y_{0} = \frac{1}{N_{b}} Σ_{i = 1}^{N_{b}} y_{i} \end{matrix},

5.根据权利要求1所述的人体运动识别方法，其中所述步骤(6)中计算视频中人体的运动速度特征按如下公式进行：

\overset{&OverBar;}{v} = \frac{1}{N} Σ_{n = 1}^{N} a b s ({v_{i}}^{'}),

其中，

{v_{i}}^{'} = \frac{\sqrt{{(x_{0 (i + 1)} - x_{0 (i - 1)})}^{2} + {(y_{0 (i + 1)} - y_{0 (i - 1)})}^{2}}}{3},

x_0(i),y_0(i)为当前帧的人体重心坐标，x_0(i-1),y_0(i-1)为前一帧的人体重心坐标，x_0(i+1),y_0(i+1)为后一帧的人体重心坐标，v′_i为即时速度。