CN104881651A

CN104881651A - 一种基于随机投影和Fisher向量的人物行为识别方法

Info

Publication number: CN104881651A
Application number: CN201510289260.XA
Authority: CN
Inventors: 何军; 薛莹; 周媛; 胡昭华
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanji Agricultural Machinery Research Institute Co ltd
Priority date: 2015-05-29
Filing date: 2015-05-29
Publication date: 2015-09-02
Anticipated expiration: 2035-05-29
Also published as: CN104881651B

Abstract

本发明公开了一种基于随机投影和Fisher向量的人物行为识别方法，采用随机投影定理的方法替代主成份分析法进行特征降维，以解决其时间消耗大，主成份保留不明确等问题，随机投影定理表明，通过一个压缩测量矩阵，可以把具有稀疏性质的原始信号投影到某个低维子空间上，该映射后的向量与原始高维特征向量间点距离基本保持不变，即整个压缩过程不会产生数据的曲解。此外不同于BoW模型的硬划分，本发明采用GMM—Fisher向量混合模型对轨迹特征向量进行软划分，它融合了Fisher核生成模式和判别模式的特点，不仅能计算出每个特性描述子出现的频率，还能从统计学的意义上描述这些特征描述子的概率分布情况，既丰富了行为动作的特征表达又提高了行为识别的效率。

Description

一种基于随机投影和Fisher向量的人物行为识别方法

技术领域

本发明涉及信号处理技术领域，特别是一种基于随机投影和Fisher向量的人物行为识别方法。

背景技术

行为识别技术被广泛运用到视频监控、视频检索、军事检测、医疗诊断和监护等领域，具有广阔的应用前景和经济价值。传统的行为识别方法是将提取到的轨迹特征嵌入到视觉词袋(Bag-of-Words，BoW)模型中，通过提取视频中的局部轨迹特征来构建一个丰富的视觉词典，并利用中心聚类的方式分别统计出局部特征向量相对于中心单词出现的频率，通过视觉词频构成的直方图来表征一类视频最终达到人物行为识别的目的。BoW模型最关键的就是要构造出一个非常庞大的视觉词典，因而行为识别的准确率在很大程度上取决于所构造特征词典的规模的大小，局部轨迹特征描述子越丰富，人物行为识别就越准确，但同时行为轨迹向量维度就越高，这样在一定程度上就增加了计算成本和时间的消耗，同时给分类器的学习和训练的过程也带来了巨大的挑战，因此在保证原始高维轨迹信息的前提下寻找有效的措施来降低这些轨迹特征向量的维度就势在必行。

主成份分析法是在均方误差最小的意义下对原始信号实现线性降维。它用方差的大小来衡量信息量的贡献的多少，即方差越大的分量其所含有用信息越多，于是摒弃那些贡献小的分量上的信息，原始信号就映射到由前K个最大的主成分张成的线性子空间上，以达到降低数据的维度的目的。但是该方法无法处理非线性流形上的数据且计算过程相当耗时，需占用大量的存储空间，严重影响分类器训练和分类的效率。

发明内容

本发明所要解决的技术问题是克服现有技术的不足而提供一种基于随机投影和Fisher向量的人物行为识别方法，本发明采用GMM—Fisher向量混合模型对轨迹特征向量进行软划分，它融合了Fisher核生成模式和判别模式的特点，不仅能计算出每个特性描述子出现的频率，还能从统计学的意义上描述这些特征描述子的概率分布情况，既丰富了行为动作的特征表达又提高了行为识别的效率。

本发明为解决上述技术问题采用以下技术方案：

根据本发明提出的一种基于随机投影和Fisher向量的人物行为识别方法，包括以下步骤：

步骤(1)、在固定帧数前提下提取和跟踪视频中局部行为特征，在最小误差允许范围内提取其特征轨迹，然后融合各类特征轨迹描述子信息，得到一个高维轨迹特征向量，组成该类行为视频的特征轨迹矩阵空间；

步骤(2)、将步骤(1)得到的矩阵空间采用随机投影的方法投影到低维子空间中，然后采用高斯混合模型对投影降维后的轨迹特征信号的生成过程进行建模，求得轨迹特征的Fisher向量；

步骤(3)、将步骤(2)得到的Fisher向量再次利用随机投影的方法将其二次投影到一个低维子空间中，用SVM分类器通过添加类别标签的方式训练出用于区别各种行为的一个超平面；

步骤(4)、根据步骤(3)训练好的分类器对待测试视频的轨迹特征的Fisher向量进行行为分类预测，实现行为分类识别。

作为本发明所述的一种基于随机投影和Fisher向量的人物行为识别方法进一步优化方案，具体包括以下步骤：

步骤一、遍历所有m个训练视频S＝[S₁,S₂,...S_m]，针对每个训练视频S_I提取其特征轨迹描述子，形成轨迹特征得到高维轨迹特征矩阵X＝[X₁,X₂,...,X_m]；其中，T_I为第I个行为视频中轨迹的数目，I为整数且1≤I≤m，上标T为转置，x_a为训练视频中提取到的特征轨迹描述子，a为整数且1≤a≤T_I；

步骤二、将步骤一中的高维轨迹特征矩阵用随机投影的方法投影到一个低维子空间中，即

V^{R P} = [v_{t} &Element; R^{d}], t = 1, ..., Σ_{I = 1}^{m} T_{I}, d < < D;

其中，d表示轨迹特征经随机降维处理后的维度，D为原始轨迹维度，R^d表示降维后的低维子空间，v_t表示降维后的一个行为视频的轨迹特征，V^RP表示投影降维后所有行为视频轨迹特征的集合；

步骤三、p_λ(v_t)是关于参数集λ＝{w_i,u_i,∑i}的概率密度函数，用来对经随机投影降维后的轨迹特征信号的生成过程进行建模，其中，w_i表示第i个高斯单元的混合权重，u_i表示第i个高斯单元的均值向量，∑i表示第i个高斯单元的协方差矩阵，i＝1,...,K；设v_t∈R^d都服从独立同分布，对含有K个高斯单元的GMM的参数集λ的高斯混合模型的定义如下：

p_{λ} (v_{t}) = Σ_{i = 1}^{K} w_{i} p_{i} (v_{t});

其中表示降维后的轨迹特征v_t的第i个高斯单元的概率密度函数；协方差矩阵为对角矩阵，由贝叶斯公式可知，降维后的轨迹特征v_t分配到第i个高斯单元的概率为：

r (i) = \frac{w_{i} p_{i} (v_{t})}{Σ_{i = 1}^{K} w_{i} p_{i} (v_{t})};

步骤四、则是经随机投影后所有轨迹特征的集合V关于λ的对数似然函数，则经过降维后的轨迹特征v_t关于GMM参数集λ＝{w_i,u_i,∑i}的梯度分别表示为：

\frac{\partial l_{λ} (V)}{\partial w_{i}} = Σ_{t = 1}^{T_{m}} [\frac{r (i)}{w_{i}} - \frac{r (1)}{w_{1}}]

\frac{\partial l_{λ} (V)}{\partial u_{i}^{k}} = Σ_{t = 1}^{T_{m}} r (i) [\frac{x_{t}^{k} - u_{i}^{k}}{σ_{i}^{k^{2}}}]

\frac{\partial l_{λ} (V)}{\partial σ_{i}^{k}} = Σ_{t = 1}^{T_{m}} r (i) [\frac{{(x_{t}^{k} - u_{i}^{k})}^{2}}{σ_{i}^{k^{3}}} - \frac{1}{σ_{i}^{k}}];

其中，表示含k个主成分的第i个高斯单元的均值向量，表示含k个主成分的第i个高斯单元的协方差向量；

归一化梯度向量后级联各个梯度值，最后求出轨迹特征的Fisher向量；

步骤五、将步骤四中得到的Fisher向量再次利用随机投影的方法将其二次投影到一个低维子空间中，即

V^{{RP}^{'}} = [v_{t}^{'} &Element; R^{d^{'}}], t = 1, ..., Σ_{I = 1}^{m} T_{I}, d^{'} < < d;

其中，d'表示Fisher向量经过随机投影二次降维后维度，R^d'表示二次降维后的低维子空间，v_t'表示二次降维后的一个Fisher向量，V^RP'表示二次降维后所有Fisher向量的集合；

步骤六、训练SVM分类器，将m个训练视频降维编码后的轨迹特征分别贴上m个对应特征行为的标签，训练出能区分不同行为动作的一个超平面；

步骤七、选取n个测试集Z＝[Z₁,Z₂,...Z_n,1≤J≤n]中的一个新的行为视频Z_J，提取测试视频的轨迹特征其中，n表示测试集视频的个数，T_J表示第J个测试集行为视频Z_J中轨迹的数目；

步骤八、对Y_J利用随机投影定理对其进行特征降维,将其投影到一个的低维子空间H^RP中，即

H^{R P} = [h_{t t} &Element; R^{d d}], t t = 1, ..., Σ_{J = 1}^{n} T_{J};

其中，h_tt表示测试视频降维后的轨迹特征，dd表示降维后的维度，R^dd表示测试集轨迹特征降维后的值域；

步骤九、令则其中H是经随机投影后所有轨迹特征的集合，根据步骤四中得到的关于GMM参数集λ＝{w_i,u_i,∑i}，计算测试集行为视频的轨迹特征的相关的梯度向量，即

\frac{\partial l_{λ} (H)}{\partial w_{i}} = Σ_{t t = 1}^{T_{n}} [\frac{r (i)}{w_{i}} - \frac{r (1)}{w_{1}}]

\frac{\partial l_{λ} (H)}{\partial u_{i}^{k}} = Σ_{t t = 1}^{T_{n}} r (i) [\frac{x_{t t}^{k} - u_{i}^{k}}{σ_{i}^{k^{2}}}]

\frac{\partial l_{λ} (H)}{\partial σ_{i}^{k}} = Σ_{t t = 1}^{T_{n}} r (i) [\frac{{(x_{t t}^{k} - u_{i}^{k})}^{2}}{σ_{i}^{k^{3}}} - \frac{1}{σ_{i}^{k}}];

归一化梯度向量后级联各个梯度值，最后求出测试集行为视频轨迹特征的Fisher向量；

步骤十、利用随机投影定理对测试集行为视频轨迹特征的Fisher向量进行二次特征降维；

步骤十一、根据步骤六训练好的分类器对经过二次特征降维后的测试集行为视频轨迹特征的Fisher向量进行行为分类预测，完成行为测试集视频的识别。

作为本发明所述的一种基于随机投影和Fisher向量的人物行为识别方法进一步优化方案，所述步骤二中随机投影的方法，具体如下：

对原始D维轨迹特征空间x_t∈R^D，作用一个列单元长度的随机矩阵Φ，将其投影到一个低维子空间v_t∈R^d中，其中d<<D，其公式表达如下：

v_{t}^{d} = {Φx}_{t}^{D};

其中，表示轨迹特征的原始D维空间，表示轨迹特征被降为d维的低维子空间；

随机矩阵Φ满足JL引理，将x_t∈R^D以最小误差从v_t∈R^d重构出来，即投影后的低维子空间v_t包含了原始的轨迹特征x_t中的近似全部信息。

作为本发明所述的一种基于随机投影和Fisher向量的人物行为识别方法进一步优化方案，所述随机矩阵为满足约束等距性质的随机矩阵。

作为本发明所述的一种基于随机投影和Fisher向量的人物行为识别方法进一步优化方案，所述d＝100，dd＝d'＝48。

作为本发明所述的一种基于随机投影和Fisher向量的人物行为识别方法进一步优化方案，所述步骤六中的SVM分类器的核函数采用Linear线性核函数来实现一个多类输出。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：本发明采用随机投影定理的方法替代主成份分析法进行特征降维，以解决其时间消耗大，主成份保留不明确等问题，随机投影定理表明，通过一个压缩测量矩阵，可以把具有稀疏性质的原始信号投影到某个低维子空间上，该映射后的向量与原始高维特征向量间点距离基本保持不变，即整个压缩过程不会产生数据的曲解。此外不同于BoW模型的硬划分，本发明采用GMM—Fisher向量混合模型对轨迹特征向量进行软划分，它融合了Fisher核生成模式和判别模式的特点，不仅能计算出每个特性描述子出现的频率，还能从统计学的意义上描述这些特征描述子的概率分布情况，既丰富了行为动作的特征表达又提高了行为识别的效率。

附图说明

图1是本发明采用密集取样对视频集进行轨迹行为动作提取的可视化效果图，其中：(a)是KTH数据集人物挥手行为动作的可视化效果图；(b)是KTH数据集人物快跑行为动作的可视化效果图；(c)是KTH数据集人物拳击行为动作的可视化效果图；(d)是UCF50数据集人物打篮球行为动作的可视化效果图；(e)是UCF50数据集人物举重行为动作的可视化效果图；(f)是UCF50数据集人物高尔夫球摆行为动作的可视化效果图。

图2是本发明所述基于随机投影和Fisher向量的人物行为识别方法的流程图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

本发明实验所用计算机的配置为内存8GB，CPU是Intel Core i3 3.4GHz的台式计算机，所用代码是在visual studio 2013上用C++语言开发的。两种数据集设定以下相同的缺省参数，在稠密轨迹跟踪算法中，取N＝32，n_σ＝2，n_τ＝3，轨迹跟踪长度L＝15帧，取样步长W＝5像素，随机投影中降维后的特征轨迹维度d＝100，d'＝48，SVM分类器的核函数采用Linear线性核函数来实现一个多类输出。

如图1所示，一种对视频集稠密取样进行轨迹行为动作提取的可视化效果图。本发明通过提取稠密的轨迹来表征一类行为运动，利用光流场对兴趣点进行多层次稠密采样来实现跟踪。这些兴趣点沿一个密集的网格被重复采样且被跟踪在一个固定长度帧的范围内，行为轨迹就是这些固定帧数内的特征描述子连续性表达的结果。轨迹的形状用来区别不同的人物行为变化，它表现在视频中就是人物目标在视频中的运动位置在时间和空间上的改变，即位移矢量。考虑到人物行为在每个视频中出现的位置的不同，本发明通过对提取到的所有位置信息进行求和运算，实现位置矢量的归一化。对于任意一条轨迹来说除了提取其位置信息外，还要各个描述子信息来丰富它的表达。如方向直方图(HOG)用来描述人物外在的静态信息，光流直方图(HOF)用来描述轨迹的局部运动信息，而运动边界直方图(MBH)用来描述像素之间的相对运动。因此最终的轨迹是位置信息、方向梯度、光流和运动边界直方图信息的集合。图1中的(a)是KTH数据集人物挥手行为动作的可视化效果图；图1中的(b)是KTH数据集人物快跑行为动作的可视化效果图；图1中的(c)是KTH数据集人物拳击行为动作的可视化效果图；图1中的(d)是UCF50数据集人物打篮球行为动作的可视化效果图；图1中的(e)是UCF50数据集人物举重行为动作的可视化效果图；图1中的(f)是UCF50数据集人物高尔夫球摆行为动作的可视化效果图。从图1中可以直观的看到所提取到的有效轨迹能够形象的描述出视频人物行为的连续运动。

如图2所示，一种基于Fisher向量和投影定理的人物行为识别的流程图。本发明针对一类行为视频，首先在固定帧数前提下提取和跟踪局部行为特征，再在最小误差允许范围内提取有效轨迹，然后融合各类描述子信息形成一个高维轨迹特征向量，组成该类行为视频的特征轨迹矩阵空间，最后嵌入到高斯混合-Fisher向量模型框架中，用一个SVM分类器通过添加类别标签的方式训练出用于区别各种行为的一个超平面，通过这个超平面实现最终的行为分类，期间我们采用随机投影的方式对高维特征进行二次投影降维来降低计算复杂度。

如表一所示是本发明在KTH数据集下人物行为的识别率。KTH数据集包括6种人物行为动作：散步、慢跑、快跑、拳击、挥手和拍手，每一个动作是在四个不同的场景中实现的：户内，户外，户外尺寸改变，在户外搭配不同的服装。在大部分场景中背景单一且静态，但背景噪声大。结果表明，本发明方法可以有效的识别出KTH数据集中不同的人物行为动作。

表一

如表二所示是UCF50数据集下人物行为的识别率。UCF50数据集有50个动作类，包括打篮球、跳水、高尔夫摆臂、举重、单杠、骑马等体育项目以及从YouTube选取的现实生活的视频片段。该数据集背景复杂，场景不一，视觉角度各异，相对于行为识别难度较大。结果表明，本发明方法可以有效的识别出UCF500数据集中不同的人物行为动作。

表二

如表三所示是随机投影和主成分分析法两种降维方法的计算时间的比较(单位：s)。结果表明随机投影的降维方法大大提高了行为识别算法的效率，运行时间相对于主成分分析法提高了近200倍。

表三

	10维	30维	50维	70维	90维	110维	130维	150维
									RP	0.18	0.21	0.23	0.27	0.34	0.37	0.41	0.43
PCA	28.28	28.67	28.85	28.97	29.13	29.52	29.87	30.16

以上只是对本发明的优选实施方式进行了描述。对该技术领域的普通技术人员来说，根据以上实施方式可以很容易地联想到其它的优点和变形。因此，本发明并不局限于上述实施方式，其仅仅作为例子对本发明的一种形态进行详细、示范性的说明。在不背离本发明宗旨的范围内，本领域普通技术人员在本发明技术的方案范围内进行的通常变化和替换，都应包含在本发明的保护范围之内。

Claims

1.一种基于随机投影和Fisher向量的人物行为识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于随机投影和Fisher向量的人物行为识别方法，其特征在于，具体包括以下步骤：

V^{R P} = [v_{t} &Element; R^{d}], t = 1, ..., Σ_{I = 1}^{m} T_{I}, d < < D;

p_{λ} (v_{t}) = Σ_{i = 1}^{K} w_{i} p_{i} (v_{t});

r (i) = \frac{w_{i} p_{i} (v_{t})}{Σ_{i = 1}^{K} w_{i} p_{i} (v_{t})};

步骤四、则是经随机投影后所有轨迹特征的集合V关于λ的对数似然函数，则经过降维后的轨迹特征v_t关于GMM参数集λ＝{w_i,_xi,∑i}的梯度分别表示为：

\frac{\partial l_{λ} (V)}{\partial w_{i}} = Σ_{t = 1}^{T_{m}} [\frac{r (i)}{w_{i}} - \frac{r (1)}{w_{1}}]

\frac{\partial l_{λ} (V)}{\partial u_{i}^{k}} = Σ_{t = 1}^{T_{m}} r (i) [\frac{x_{t}^{k} - u_{i}^{k}}{σ_{i}^{k^{2}}}]

\frac{\partial l_{λ} (V)}{\partial σ_{i}^{k}} = Σ_{t = 1}^{T_{m}} r (i) [\frac{{(x_{t}^{k} - u_{i}^{k})}^{2}}{σ_{i}^{k^{3}}} - \frac{1}{σ_{i}^{k}}];

V^{{RP}^{'}} = [v_{t}^{'} &Element; R^{d^{'}}], t = 1, ..., Σ_{I = 1}^{m} T_{I}, d^{'} < < d;

其中，d'表示Fisher向量经过随机投影二次降维后维度，R^d'表示二次降维后的低维子空间，v′_t表示二次降维后的一个Fisher向量，V^RP'表示二次降维后所有Fisher向量的集合；

H^{R P} = [h_{t t} &Element; R^{d d}], t t = 1, ..., Σ_{J = 1}^{n} T_{J};

\frac{\partial l_{λ} (H)}{\partial w_{i}} = Σ_{t t = 1}^{T_{n}} [\frac{r (i)}{w_{i}} - \frac{r (1)}{w_{1}}]

\frac{\partial l_{λ} (H)}{\partial u_{i}^{k}} = Σ_{t t = 1}^{T_{n}} r (i) [\frac{x_{t t}^{k} - u_{i}^{k}}{σ_{i}^{k^{2}}}]

\frac{\partial l_{λ} (H)}{\partial σ_{i}^{k}} = Σ_{t t = 1}^{T_{n}} r (i) [\frac{{(x_{t t}^{k} - u_{i}^{k})}^{2}}{σ_{i}^{k^{3}}} - \frac{1}{σ_{i}^{k}}];

3.根据权利要求2所述的一种基于随机投影和Fisher向量的人物行为识别方法，其特征在于，所述步骤二中随机投影的方法，具体如下：

v_{t}^{d} = {Φx}_{t}^{D};

4.根据权利要求3所述的一种基于随机投影和Fisher向量的人物行为识别方法，其特征在于，所述随机矩阵为满足约束等距性质的随机矩阵。

5.根据权利要求2所述的一种基于随机投影和Fisher向量的人物行为识别方法，其特征在于，所述d＝100，dd＝d'＝48。

6.根据权利要求2所述的一种基于随机投影和Fisher向量的人物行为识别方法，其特征在于，所述步骤六中的SVM分类器的核函数采用Linear线性核函数来实现一个多类输出。