CN106056093B

CN106056093B - 基于二分类进化特征学习的人体行为识别方法

Info

Publication number: CN106056093B
Application number: CN201610410959.1A
Authority: CN
Inventors: 张向荣; 焦李成; 韩文辉; 冯婕; 白静; 李阳阳; 侯彪; 马文萍
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2016-06-13
Filing date: 2016-06-13
Publication date: 2019-05-21
Anticipated expiration: 2036-06-13
Also published as: CN106056093A

Abstract

本发明公开了一种基于二分类进化特征学习的人体行为识别方法，主要解决现有技术对视频中的行为识别率低的问题。其识别过程为：(1)输入训练集和测试集所有视频，提取包含有局部和全局空间信息的多种特征；(2)对提取得到的每一种特征进行费舍向量变换，得到变换后的特征；(3)对每一个变换后的特征计算正向和逆向进化序列；(4)计算每一个序列的正向和逆向进化步长；(5)将正向步长作为类别1，逆向步长作为类别‑1，使用二分类支持向量机进行分类，得到判别面的法向量；(6)将判别面的法向量作为原视频的特征表示用多分类支持向量机进行识别。本发明增强了视频表示的判别性，提高了对视频中人体行为的识别率，可用于智能监控。

Description

基于二分类进化特征学习的人体行为识别方法

技术领域

本发明属于机器学习、计算机视觉领域，特别涉及一种人体行为识别方法，可用于视频中目标检测及跟踪的后处理。

背景技术

人体行为识别包括从视频序列中抽取相关的视觉信息，并用一种合适的方式进行表达，最后解释这些信息以实现学习和识别人的行为，研究人体的行为模式将为人们的生活带来全新的交互方式。

目前基于不同的研究目的，用于人体行为识别的方法被大量提出。其中比较重要的研究分为以下三个部分：

1.基于特征提取的研究。对于人体的表示一般可以分为全局表示和局部表示两种。全局表示首先需要在视频中定位出人体动作的位置，即目标检测；然后把人体作为一个整体，编码整个区域，该区域也叫兴趣区域ROI，通常ROI通过背景消减方法进行获取，这种方法能够从轮廓、边界和光流中获取信息。最早使用轮廓信息的是Bokick和Davis。他们通过对视频中动作轮廓和不同帧之间差异的处理获取人体行为的运动能量MEI和运动历史图MHI，这两个图可以表示行为的动作。虽然MEI和MHI比较容易获取，但是由于其包含了大量的噪声，对视角变化也比较敏感，所以并不能很好地对行为进行表示。相对来说，局部表示对于视角的变化和遮挡不是很敏感，这也是其被广泛使用的原因。局部表示比较著名的是时空兴趣点STIP。Wiliems等人提取出STIP后将SURF扩展成了3DSURF，Laptev等人则提取了梯度直方图HOG和光流直方图HOF，并将这两个特征组合起来表示人体行为。

2.基于特征编码的研究。目前这个方向的热门方法包括稀疏表示和低秩表示。它们首先通过一些方法得到一个无序的编码字典，然后对视频样本的特征进行稀疏或低秩编码，从而得到一个具有判别性的稀疏表示。S.Mohsen等人在稀疏编码的基础上加入了非负约束，从而提高了稀疏编码的识别精度。Chen等人则在S.Hohsen的基础上又加入了对编码矩阵的局部约束，借此获取样本的局部信息。此外，Xiao等人在稀疏编码的基础上加入特征空间位置的限制，保证了编码空间的局部相似性。Zheng等人使用了低秩模型，并且通过图的构造引入样本的局部相似性。另外也有通过字典学习的方法学习得到一个具有判别性的字典，然后使用该字典对样本进行编码从而得到具有判别性的编码矩阵。

3.基于分类方法的研究。动态时间调整算法TRJW是一种距离测量方法，该方法主要用于测量两个不同维数模板之间的距离，从而找到两个不同维数模板之间最短的匹配路径。Veeraraghavan等人对归一化的形状特征序列使用TRJW算法。Yao等人引入动态时空调整算法，它除了在时间维上对齐外，还可以在图像的位置和尺度上对齐。隐马尔科夫模型HMM和动态贝叶斯网络是基于状态转移的模型，它们的思想是把每个动作表示成一组相关状态，不同的动作对应不同的状态集合，不同的状态之间以一定的概率进行转移。HMM需要两个先决条件，其一是状态转移只与它的前一个状态有关，而与它之前的历史状态无关，即当前状态只受前一个状态的影响；其二是观测结果只与当前状态有关，所以每个序列的观测结果是独立的。Feng和Perona使用了姿态和状态相关联的静态HMM模型。Ahmad和Lee等人考虑到多视角问题，将HMM扩展到多维信号来处理不同视角的问题。除了在人物的动作上进行模拟，HMM还可以对人体的部位进行模拟，即把人体的部位表示成一组相关的状态。这样处理降低了模型的复杂度，模型的训练阶段会更加简单。Ikizler和Forsyth等人使用3D身体部位轨迹来进行分类。他们使用HMM对每个部位单独进行训练，对于每个部位，不同动作的状态以相似的概率进行连接，使得动作可以进行自动的分割。

以上的研究中，特征提取方法的研究历史最长，提出来的方法最多，但是对于不同行为、不同背景、不同遮挡和光照的复杂行为视频，这些方法的判别能力普遍较低，性能不稳定。基于特征编码的方法一般计算代价巨大，在大的数据集上容易受时间和硬件的影响，而基于概率模型的方法常常需要概率先验知识，同时模型相对复杂，应用受到限制。

发明内容

本发明的目的在于针对上述已有技术的不足，提出一种基于二分类特征学习的人体行为识别方法，以获取视频中人体行为随时间的变化关系，提高行为的识别率。

实现本发明的技术思路是：提取包含局部信息和全局信息的局部和全局特征，从特征中提取出表示人体行为随时间变化的正向和逆向顺序序列，从序列中学习得到正向、逆向序列的判别面法向量，将法向量作为从行为中学习得到的二分类特征并将其应用到人体行为识别领域，具体步骤如下：

1、一种基于二分类进化特征学习的人体行为识别方法，包括如下步骤：

(1)输入训练集和测试集的所有视频，每个视频中只含有一种行为，分别提取每一个视频的四种局部特征：密度轨迹、方向梯度直方图、方向光流直方图和运动边界直方图；

(2)将提取出来的所有视频的第cd种特征向量按行排列到一起构成特征矩阵V_cd中的第i行表示从视频集中第i个视频提取出来的编号为cd的特征向量，其中cd∈{1,2,3,4}，表示不同特征的编号，分别对应上述四种特征，i∈{1,2,...,N}，N表示所有视频的个数，D_cd表示第cd种特征的维数，表示N行D_cd列的实数空间；

(3)从每一个特征矩阵V_cd中随机抽取5％行数据构成矩阵并使用主成分分析对其降维，用降维后的数据构建高斯混合模型GMM并求解，得到求解后的高斯混合模型参数gmm_cd，该gmm_cd中包括第cd类特征所对应GMM模型的权值、均值和方差；

(4)根据(3)中计算得到的高斯混合模型参数gmm_cd，对每一个视频对应的特征矩阵V_i,cd进行费舍向量变换，得到V_i,cd对应的费舍特征向量V_{i,cd_fv}，其中下标i表示视频集中的第i个视频；

(5)对每一个费舍特征向量V_{i,cd_fv}计算正向和逆向进化序列：

(5a)每一个V_{i,cd_fv}用表示，其中x_ij表示第i个视频的第j个局部特征向量，n表示第i个视频的特征向量个数，符号[·]^T表示矩阵的转置；

(5b)计算V_{i,cd_fv}对应的正向进化序列：

其中vo_ij表示第i个视频对应正向进化序列V_{i,cd_order}中的第j个向量，计算公式为j∈{1,2,...,n}；

(5c)计算V_{i,cd_fv}对应的逆向进化序列：

其中vr_ij表示第i个视频对应逆向进化序列V_{i,cd_reverse}中的第j个向量，计算公式为j∈{1,2,...,n}；

(6)对每一个正向进化序列V_{i,cd_order}和逆向进化序列V_{i,cd_reverse}计算进化步长：

(6a)计算正向进化序列V_{i,cd_order}的进化步长：

其中uo_ik表示第i个视频对应正向进化步长U_{i,cd_order}中的第k个向量，计算公式为B∈{2,3,...,7,...,15}表示进化步长计算范围，k∈{1,2,...,m}，m＝n-B；

(6b)计算逆向进化序列V_{i,cd_reverse}的进化步长：

其中ur_ik表示第i个视频对应逆向进化步长U_{i,cd_reverse}中的第k个向量，计算公式：B∈{2,3,...,7,...,15}表示进化步长计算范围，k∈{1,2,...,m}，m＝n-B；

(7)对每一个费舍特征V_i,cd提取二分类进化特征，即设定每一个正向进化步长U_{i,cd_order}的类别标签为1，每一个逆向进化步长U_{i,cd_reverse}的类别标签为-1，构建进化步长数据集(TR_i,cd,Y_i,cd)；在进化步长数据集(TR_i,cd,Y_i,cd)上训练一个二分类支持向量机分类器，得到二分类支持向量机判别面的法向量w_i,cd即为V_i,cd的二分类进化特征，其中样本样本标签Y_i,cd＝[1^m×1；(-1)^m×1]∈R^2m×1，符号"；"表示按行排列，1^m×1表示m行1列值为1的向量，(-1)^m×1表示m行1列值为-1的向量；

(8)将属于训练集的视频第cd种特征的二分类进化特征集合作为训练样本集TR，将属于测试集的视频第cd种特征的二分类进化特征集合作为测试样本集TE，在训练样本集TR上训练一个多分类支持向量机模型并对测试样本集TE进行分类，得到分类结果，该结果的正确率即为第cd种特征的人体行为识别正确率。

本发明与现有技术相比，具有以下优点：

1.本发明使用人体行为随时间正向和逆向进化序列的判别面法向量作为人体行为的特征表示，判别力更强，识别的正确率更高。

2、本发明学习得到的特征包括了空间维和时间维上的信息，信息量更加丰富，对人体行为的表示更加全面。

3、本发明使用的特征学习方法对干扰信息具有鲁棒性，对拍摄角度具有明显的容忍性。

4、本发明学习得到的特征较原有特征在维数上减少一半，训练和识别过程更加高效。

附图说明

图1是本发明的实现流程图；

图2是本发明的实现细节图；

图3是本发明实验中所用的两种数据集；

具体实施方式

参照图1，本发明包括两个部分：视频表示、视频分类，其实施步骤如下:

一.视频表示

步骤1，输入训练集和测试集的所有视频，每个视频中只含有一种行为，分别提取每一个视频的四种局部特征：密度轨迹TRJ、方向梯度直方图HOG、方向光流直方图HOF和运动边界直方图MBH；

视频中的行为指的是走、跑、跳、拳击等这些人体动作，所有视频由若干个动作者分别执行完成，一个视频中只含有一个动作者的一种行为。

密度轨迹特征TRJ和运动边界直方图特征MBH的提取过程见Heng Wang和CordeliaSchmid等人于2013年发表于计算机视觉国际期刊International Journal of ComputerVision(IJCV)上的文章Dense Trajectories and Motion Boundary Descriptors forAction Recognition。

方向梯度直方图特征HOG的提取过程见Navneet Dalal和Bill Triggs于2005年发表于国际计算机视觉与模式识别会议conference on computer vision and patternrecognition(CVPR)上的文章Histograms of oriented gradients for humandetection。

方向光流直方图特征HOF的提取过程见Ivan Laptev和Marcin Marszalek等人于2008年发表于国际计算机视觉与模式识别会议onference on computer vision andpattern recognition(CVPR)上的文章Learning realistic human actions frommovies。

步骤2，用提取得到的特征构建特征矩阵。

将提取出来的所有视频的第cd种特征向量按行排列到一起构成特征矩阵V_cd中的第i行表示从视频集中第i个视频提取出来的编号为cd的特征向量，其中cd∈{1,2,3,4}，表示不同特征的编号，分别对应上述四种特征，i∈{1,2,...,N}，N表示所有视频的个数，D_cd表示第cd种特征的维数，表示N行D_cd列的实数空间；

步骤1共提取了四种特征，每一种特征对应一个特征矩阵，即TRJ对应第一个特征矩阵V₁、HOG对应第二个特征矩阵V₂、HOF对应第三个特征矩阵V₃，MBH对应第四个特征矩阵V₄。

步骤3，构建特征矩阵的高斯混合模型GMM。

3a)从特征矩阵中随机抽取5％条特征向量，并使用主分量分析方法对抽取出来的特征进行降维，其目的是保留数据主要信息的同时降低数据的维数，便于后续计算；

3b)对降维后的数据构建GMM模型并求解，得到GMM模型的权值、均值和方差。每一种特征对应一个GMM模型，GMM模型的构建和求解过程如下：

3b1)构建GMM模型。在GMM模型中，数据可以看作是从多个高斯分布中组合得到的。每个GMM模型由K个高斯分布组成，每个高斯分布称为一个分布，将这些分布线性组合到一起得到GMM模型概率密度函数：

p(x)表示数据x来自GMM模型的概率，u_k为第k个高斯分布的均值，Σ_k为第k个高斯分布的方差，π_k为第k个高斯分布的组合系数，即权值，N(x|u_k,∑_k)表示均值为x|μ_k方差为Σ_k的高斯分布；

3b2)求解GMM模型

求解过程就是根据已有的数据计算出GMM模型的概率分布和每个分布的权值、均值与方差，其步骤如下：

3b2a)计算数据x_i由第k个分布生成的概率：

3b2b)计算第k分布的均值u_k和方差Σ_k：

其中DN为特征矩阵中特征向量的个数；

3b2c)重复迭代步骤3b2a)和步骤3b2b)，直到均值u_k和方差Σ_k的值不在变化，此时u_k和Σ_k即为求解GMM模型得到的第k个分布的均值和方差。

步骤4，根据求解得到的高斯混合模型参数gmm_cd对每一个视频对应的特征矩阵V_i,cd进行费舍向量变换，得到V_i,cd对应的费舍特征V_{i,cd_fv}，其中下标i表示视频集中的第i个视频。

4a)输入包括n个特征向量的特征矩阵V_i,cd和混合高斯模型参数:

gmm_cd＝{ω_l,μ_l,σ_l,l＝1,...,L}，

为表述方便，用符号H表示特征矩阵V_i,cd，即h_f表示H中的第f个特征向量，L为混合高斯模型中包含的高斯模型个数，ω_l、μ_l和σ_l分别为第l个高斯模型的权值、均值和方差；

4b)对每一个高斯模型，初始化三个累计变量

4c)对每一个特征向量h_f计算中间变量并更新累计变量：

4c1)计算中间变量γ_f(l)：

4c2)更新每一个累计变量：

4d)对每一个高斯模型计算费舍参数：

其中为费舍权值，为费舍均值，为费舍方差；

4e)将所有的费舍参数连接成费舍向量

4f)费舍向量规范化得到费舍特征：

能量规范化：

l₂范数规范化：

步骤5，对每一个费舍特征V_{i,cd_fv}计算正向和逆向进化序列。

5a)每一个V_{i,cd_fv}用表示，其中x_ij表示第i个视频的第j个局部特征向量，n表示第i个视频的特征向量个数，符号[·]^T表示矩阵的转置；

5b)计算V_{i,cd_fv}对应的第i个视频编号为cd的特征对应的正向进化序列：其中vo_ij表示第i个视频对应正向进化序列V_{i,cd_order}中的第j个向量，计算公式为j∈{1,2,...,n}；

5c)计算V_{i,cd_fv}对应的第i个视频编号为cd的特征对应的逆向进化序列：其中vr_ij表示第i个视频对应逆向进化序列V_{i,cd_reverse}中的第j个向量，计算公式为j∈{1,2,...,n}。

步骤6，对每一个正向进化序列V_{i,cd_order}和逆向进化序列V_{i,cd_reverse}计算进化步长。

6a)计算正向进化序列V_{i,cd_order}的进化步长：

6b)计算逆向进化序列V_{i,cd_reverse}的进化步长：

其中ur_ik表示第i个视频对应逆向进化步长U_{i,cd_reverse}中的第k个向量，计算公式：B∈{2,3,...,7,...,15}表示进化步长计算范围，k∈{1,2,...,m}，m＝n-B。

步骤7，对每一个费舍特征V_i,cd提取二分类进化特征。

7a)设定每一个正向进化步长U_{i,cd_order}的类别标签为1，每一个逆向进化步长U_{i,cd_reverse}的类别标签为-1，构建进化步长训练数据集(TR_i,cd,Y_i,cd)，构建步骤如下：

7a1)将正向进化步长U_{i,cd_order}和逆向进化步长U_{i,cd_reverse}按行排列得到训练数据TR_i,cd；

7a2)新建2×m行1列值为0的标签向量Y_i,cd，对TR_i,cd中的每一行进行遍历，如果TR_i,cd中的第p行来自于U_{i,cd_order}，将Y_i,cd中第p个值设为1，反之，将Y_i,cd中第p个值设为-1，其中正向进化步长U_{i,cd_order}和逆向进化步长U_{i,cd_reverse}均属于m行D_cd列的实数空间，TR_i,cd属于2×m行D_cd列的实数空间；

7b)在进化步长训练数据集(TR_i,cd,Y_i,cd)上训练一个二分类支持向量机分类器，训练完成后二分类支持向量机判别面的法向量w_i,cd即为V_i,cd的二分类进化特征，其中训练样本样本标签Y_i,cd＝[1^m×1；(-1)^m×1]∈R^2m×1，符号"；"表示按行排列，1^m×1表示m行1列值为1的向量，(-1)^m×1表示m行1列值为-1的向量。

二.视频分类

步骤8，视频分类，得到识别结果。

将属于训练集的视频第cd种特征的二分类进化特征集合作为训练样本集TR，将属于测试集的视频第cd种特征的二分类进化特征集合作为测试样本集TE，在训练样本集TR上训练一个多分类支持向量机模型并对测试样本集TE进行分类，得到分类结果，该结果的正确率即为第cd种特征的人体行为识别正确率。

本发明的效果可以通过以下仿真实验进一步说明：

1.仿真条件

仿真实验在Intel Core(TM)i5-2410M CPU、主频2.3GHz，内存10G，Ubuntu14.04.01平台、MATLAB 2015.A环境下进行。本实验分别在KTH数据集和YouTube数据集上利用本发明方法和现有方法进行分类测试，并进行结果对比。

其中现有方法包括基于密度轨迹TRJ的方法、基于KLT轨迹的方法、基于SIFT轨迹的方法、基于密度cuboids的方法、基于运动结构特征的方法、基于方向光流直方图HOF的方法、基于视频立方体的方法和Kmp特征融合方法。

2.仿真内容与结果

仿真1，在KTH数据集上使用本发明方法和现有方法进行识别测试的实验。该数据库包括6类行为(散步、慢跑、跑步、拳击、挥手和拍手)，由25个不同的人分别在四个场景下执行完成，一共包括599段视频。背景相对静止，镜头有远近差异，摄像机的运动比较轻微。

用本发明方法和现有的几种方法对图3(a)所示的KTH数据集进行测试，结果如表1，

表1本发明方法与现有几种方法在KTH数据集上的分类结果对比

从表1可以看出，KTH数据集上对比方法的最高识别精度为97.6％，本发明中提出来的方法识别精度为98.7％，提升1.1个百分点。现有方法大多考虑了空间维上的信息，对于时间维上的信息考虑不够，本发明中提出来的方法着重捕获了行为在时间维上的顺序关系，同时加入了旋转不变性、位移不变性和光照不变性等特征，从而提升了识别正确率。实验结果证明，本发明方法能够对人体行为进行有效的表示，达到了较好的人体行为识别效果。

仿真2，在YouTube数据集上使用本发明方法和现有方法进行识别测试的实验。该数据库包括11类行为(投篮、骑自行车、跳水、打高尔夫、骑马、颠足球、荡秋千、打网球、蹦床上跳跃、打排球和牵狗散步)，由25个不同的人分别在不同场景下执行完成，一共包括1600段视频。视频背景和执行者的衣着、动作姿态变化多样，镜头和视角大幅变化，摄像机的运动明显，识别难度较大。

用本发明方法和现有的几种方法对图3(b)所示的YouTube数据集进行测试，结果如表2，

表2本发明方法与现有几种方法在YouTube数据集上的分类结果对比

从表2中可以看出，本发明在YouTube数据集上的识别正确率依然优于对比方法。对比方法中最高的识别精度为87.6％，本发明中提出来的方法将识别精度提高到92.0％，提升4.4个百分点。这进一步证明，本发明中所使用的特征学习方法能够有效地用于视频中人体行为的识别。

Claims

1.一种基于二分类进化特征学习的人体行为识别方法，包括如下步骤：