CN104298974B

CN104298974B - 一种基于深度视频序列的人体行为识别方法

Info

Publication number: CN104298974B
Application number: CN201410529814.4A
Authority: CN
Inventors: 李承锦; 孙艳丰; 胡永利; 张坤
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2014-10-10
Filing date: 2014-10-10
Publication date: 2018-03-09
Anticipated expiration: 2034-10-10
Also published as: CN104298974A

Abstract

本发明公开了一种基于深度视频序列的人体行为识别方法，该方法计算视频序列内所有像素点的四维法向量，通过在不同时空领域内构建行为序列的时空金字塔模型，提取像素点在不同层的底层特征，基于底层特征学习组稀疏字典，得到底层特征的稀疏编码，利用空间平均池和时间最大池整合编码，从而获得高层特征作为最终行为序列的描述符。这种描述符能够有效保留人体行为时空多分辨率的信息，同时通过消除不同行为类别所含有的相似内容，获得表达力更强的稀疏字典，以有效提高行为识别率。

Description

一种基于深度视频序列的人体行为识别方法

技术领域

本发明属于计算机模式识别的技术领域，具体地涉及一种基于深度视频序列的人体行为识别方法。

背景技术

视觉是人类观察和认识世界的重要途径。随着计算机处理能力的不断提高,我们希望计算机能够具有人类的部分视觉功能,帮助甚至代替人眼和大脑对外界事物进行观察和感知。伴随着计算机硬件处理能力的提高和计算机视觉技术的出现,人们对计算机的这一期望有可能成为现实。人体行为识别一直是模式识别、计算机视觉，人工智能等领域的研究热点。基于视频的人体行为识别的目的是理解和识别人的个体动作,人与人之间的交互运动,人与周围环境的交互关系等。它利用计算机技术,在不需要人为干预或者尽少加入人为干预的条件下,实现基于视频的人体行为识别。尽管这对于人体认知系统而言是一件很简单的本能反映,但对于计算机系统来说,考虑到周围环境的复杂性,人类体态,运动习惯等方面的差异性,准确理解和识别视频中的人体行为具有很大的挑战性。

传统的人体行为识别方法主要是基于彩色信息的。基于时空兴趣点的方法已被大量研究。主要分为时空兴趣点检测和局部特征描述两个步骤。特征广泛应用基于K-means聚类的词袋模型(Bag-of-Words,BOW)表示。具体而言，经典的Cuboid和Harris3D等用来检测特征，HOG3D和3DSIFT等用来描述特征，BOW模型用来表示特征。

但是传统的基于颜色信息的方法，在实际应用中受到了一定的条件约束限制，如果人体图像带有复杂光照变化和大面积同色干扰带来的噪声情况下，很多基于颜色信息的人体行为识别方法的识别率就下降了。

所以出现了很多基于深度信息的方法，考虑到深度信息的稳定性，它是场景中物体到摄像机的距离，是不随着光照等变化而变化，也不受颜色的干扰。相对于颜色信息，深度信息在行为识别中具有以下优势：(1)能提供更多的体型和结构信息，这已经成功的应用到从一幅深度图像恢复骨骼关节点上；(2)在深度图像中不受颜色和纹理的影响，这使得人体检测和分割问题变得更容易；(3)深度传感器不易受光照的变化影响，这对在黑暗的环境中监控系统带来极大的好处；目前基于深度信息的方法大致分为以下二种：(1)基于骨骼关节点构建特征，例如HOJ3D等；(2)基于梯度向量构建特征，例如HON4D等。

现有人体行为识别技术以基于法向量最为流行，基于法向量的人体行为识别方法目前存在以下两点问题：(1)在利用法向量构建描述符时，由于提取的都是基于某点的一层时空邻域内的信息，不能更准确的表示局部描述符的详细信息；(2)为待识别行为的视频序列进行分类时，用过完备字典中的原子来表示待识别视频序列，如果不同行为的视频序列有相似的特征，那么相似的特征也被部分表示了出来，错误得到的表示系数将会降低用于分类的识别率。

发明内容

本发明的技术解决问题是：克服现有技术的不足，提供一种基于深度视频序列的人体行为识别方法，其能够有针对性地保留局部描述符的多层时空领域内的信息，避免不同类别含有相似内容的信息的干扰，使得字典表达能力更强，大大提高识别率。

本发明的技术解决方案是：这种基于深度视频序列的人体行为识别方法，该方法计算视频序列内所有像素点的四维法向量，通过在不同时空领域内构建行为序列的时空金字塔模型，提取像素点在不同层的底层特征，基于底层特征学习组稀疏字典，得到底层特征的稀疏编码，利用空间平均池和时间最大池整合编码，从而获得高层特征作为最终行为序列的描述符。

本发明构建时空金字塔模型，有针对性的保留局部描述符的多层时空领域内的信息，同时由于采用了组稀疏字典对底层特征进行编码，避免了不同类别含有相似信息的干扰，使得字典表达能力更强，大大提高识别率。

附图说明

图1是根据本发明的基于深度视频序列的人体行为识别方法的流程图。

具体实施方式

如图1所示，这种基于深度视频序列的人体行为识别方法，该方法计算视频序列内所有像素点的四维法向量，通过在不同时空领域内构建行为序列的时空金字塔模型，提取像素点在不同层的底层特征，基于底层特征学习组稀疏字典，得到底层特征的稀疏编码，利用空间平均池和时间最大池整合编码，从而获得高层特征作为最终行为序列的描述符。

优选地，这种方法包括以下步骤：

(1)初始化一个深度视频序列，构建自适应时空金字塔得到时空单元；

(2)计算4D法向量：计算深度视频序列的所有点的法向量；

(3)利用时空金字塔和局部金字塔模型，从局部时空领域聚集法向量，从而计算多维金字塔向量{P_i}，在一个深度视频序列，与每个点关联的多维金字塔向量由这个点在不同时空领域Ω内的N个多维向量连接构成：个数N是由两个参数n_l和n_p决定，其中n_l定义为空间金字塔的层数，n_p定义为每层金字塔内维的个数，与每个点关联的多维向量由这个点Ω领域内的M个法向量连接构成：n₁,...,n_M∈Ω，邻域Ω是由两个参数n_s和n_t决定的时空深度子空间，其中n_s定义为空间邻域内点的个数，n_t定义为时间邻域内点的个数；

(4)稀疏编码：根据学习后的字典和时空单元通过组稀疏编码计算{P_i}对应的系数{x_i}，{x_i}表示{P_i}在组稀疏字典下对应的稀疏系数，是一个与字典列数相同维数的列向量，每个元素表示{P_i}在字典不同基底下的投影；

(5)构建P-SNV描述符：对于网格，i＝1:|V|；对于视觉词，k＝1:K；对于空间最大池，对于时间最大池，for i＝1,...,f；构建表示在第i个网格中，对于第1个视觉词，经过空间平均池和时间最大池得到的向量，表示在第i个网格中，对于第k个视觉词，经过空间平均池和时间最大池得到的向量；得到表示第1个网格对应的描述符，表示第V个网格对应的描述符，将一个视频划分的V个网格整合成该视频的最终描述符P-SNV；

(6)SVM分类；

(7)输出分类结果。

优选地，在所述步骤(1)中深度视频序列用函数表示：R³→R¹:z＝f(x,y,t)，其构成了一个4D平面S，表示为满足S(x,y,t,z)＝f(x,y,t)-z＝0的点(x,y,t,z)的集合，x,y,t和z分别表示横坐标，纵坐标，帧索引，深度值。

优选地，在所述步骤(2)中面S的法向量通过公式(1)获得：

n为法向量，为对S求偏导，分别表示z对x,y,t求偏导。只有法向量的方向是与4D面S的形状相关。法向量的方向分布能够比传统的梯度方向提供更多的几何信息。

为了保持相邻的法向量之间的相关性，使它们对噪声更具有鲁棒性，本发明利用时空金字塔和局部金字塔模型，从局部时空领域聚集法向量。时空金字塔可以与局部金字塔组合以得到进一步的改善。Pyramid-Polynormal的构成是通过改变局部领域的大小来控制用来计算每个Polynormal的子区域的大小和数量。Pyramid-Polynormal由多层Polynormal构成，用来描述同一图像块在不同层次的细节信息。

优选地，在所述步骤(3)中，在一个深度视频序列中，与每个点关联的多维向量Polynormal由这个点Ω领域内的M个法向量连接构成：n₁,...,n_M∈Ω；

邻域Ω是由两个参数n_s和n_t决定的时空深度子空间，其中n_s定义为空间邻域内点的个数，n_t定义为时间邻域内点的个数，与每个点关联的多维金字塔向量Pyramid-Polynormal由这个点在不同时空领域Ω内的N个Polynormal连接构成：个数N是由两个参数n_l和n_p决定，其中n_l为空间金字塔的层数，n_p为每层金字塔内Polynormal的个数。

在视觉识别领域，一幅图像或一个视频的全局描述符通常是通过提取底层特征，用一个学习后的字典将其编码。编码之后，识别过程中将不再使用底层特征。而在我们的框架中，通过记录它们与视觉词之间的差异来保留底层特征，相关的替换可以提供底层特征的额外信息。我们学习组稀疏字典并对Pyramid-Polynormal进行编码。

在经典的稀疏编码中，如果将一个视频的特征看作一维向量，给定一个冗余字典，那么这个向量在冗余字典下的低维投影就是稀疏表示，投影系数即为稀疏表示系数。给定足够的训练样本，Y＝[y₁,y₂,L,y_N]∈R^F×N，稀疏编码问题可以表示为：

其中D是F×K维的字典，每一列表示一个视觉词。X是K×N维的系数向量，每一列表示样本y_i对应的系数。λ是稀疏正则项。||·||₀为l₀范数。第一项用来最小化重构误差，第二项用来最小化系数的非零元素个数。然而，上述问题是一个NP-hard问题，因此在稀疏编码文献中，研究专家们使用l₁范数来近似，表示为：

在编码阶段，我们希望系数是稳定的，同类的样本变化对系数有较小的影响，提高识别率。为了改善稳定性，我们引入组稀疏，使得在同一组内的系数同时为零或非零。加入组稀疏约束对特定类的字典学习有3个优势。(1)由于同一类的特征倾向于选择同一组中的基底，组内的特征变化可以被压缩。(2)由于同一组内的稀疏系数同时为零或非零，不同子字典的相关基底的影响将会减弱。(3)由于系数具有组聚类的特点，系数分布的随机性将被移除。我们引入l₂范数形成弹性网(elastic net)问题。增加弹性网正则项作为租稀疏约束。弹性网正则项是l₁范数和l₂范数的组合。l₁范数促进系数稀疏，l₂范数促进系数组聚类。给定一个学习后的字典，其由所有子字典构成，和第i类的输入特征，理想的情况是使用第i类的子字典去重构它。此外，相似的特征应该具有相似的系数。受到其它研究专家的激励，我们提出在特殊字典学习过程中加入组稀疏约束。

给定C个类包含N个特征的训练样本Y＝[Y₁,...,Y_C]，其中表示第i类的F维样本，我们设计学习一个具有判别力的字典D＝[D₁,…,D_C]，总共具有K个基底表示与第i类相关的特殊类的子字典。

优选地，在所述步骤(4)中组稀疏编码表示为：

其中X＝[X₁,...,X_C]表示系数向量，表示第i类的第j个特征的系数，D_∈i＝[0,...,D_i,...,0]具有K列，表示使用字典D重构的最小误差，和使得第i类的特征通过属于子字典D_i中的基底能很好的重构且不属于该类子字典的基底不能很好的重构，表示组稀疏约束，Y_i表示输入样本，||·||表示对向量求其一范数，表示对向量求其F范数，λ₁，λ₂分别表示l₁范数和F范数的正则项系数。

为了捕获全局时空信息，一个深度视频序列被划分成一个时空单元的集合。我们从每个单元提取一个特征向量U，然后连接在一起作为P-SNV描述符。这样表示有几个显著的优势：(1)与SNV相比，我们能捕获到更多层次的时空信息；(2)与视觉词的差异，保留了一些特征在量化过程丢失的信息；(3)使用一个较小的(例如300)并且据说较强判别力的字典来计算P-SNV，增加识别率的同时也减少了计算成本；(4)P-SNV使用简单的线性SVM分类器，在训练和测试阶段效果显著。

由于不同人在执行同一行为时具有不同的运动速度和频率。通过沿时间轴均匀划分一个视频来处理这种变化时是不灵活的。为了处理这种问题，我们使用基于运动能量的自适应的时空金字塔。优选地，在所述步骤(1)中使用三层的时空金字塔：{t₀,t₄}，{t₀t₂,t₂t₄}和{t₀t₁,t₁t₂,t₂t₃,t₃t₄}，与空间网格结合，自适应时空金字塔生成n_H×n_W×7个时空单元，t₀,t₁,t₂,t₃,t₄分别表示视频按三层的时空金字塔划分对应的帧索引，n_H,n_W分别表示将每帧图像按行和列划分的份数。

为了验证提出的P-SNV算法的有效性，本发明采用了公共标准数据库：MSRAction3D进行了实验测试。在实验中，生成Pyramid-Polynormal时，我们选择每个点的9×9×3领域，使用三层金字塔。在稀疏编码阶段，每个子字典大小设置为15，λ₁＝0.15，λ₂＝0.015。自适应的时空金字塔使用的是典型的4×3×7个时空单元。最后使用线性SVM进行分类。

MSRAction3D是一个通过深度相机获取深度序列的行为数据库。包含10个目标面对相机执行20个行为，每个目标执行每个行为2或3次，共计567个深度视频序列。深度图像的大小为640×480。

为了便于公平的比较，我们在10个目标中，选择第1,3,5,7,9个目标进行训练，第2,4,6,8,10个目标进行测试。本文提出的P-SNV算法的识别率为98.91％，已经远远超越现有的算法，如表1所示。

表1

以上所述，仅是本发明的较佳实施例，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属本发明技术方案的保护范围。

Claims

1.一种基于深度视频序列的人体行为识别方法，其特征在于，该方法计算视频序列内所有像素点的四维法向量，通过在不同时空邻域内构建行为序列的时空金字塔模型，提取像素点在不同层的底层特征，基于底层特征学习组稀疏字典，得到底层特征的稀疏编码，利用空间平均池和时间最大池整合编码，从而获得高层特征作为最终行为序列的描述符；

包括以下步骤：

(2)计算4D法向量：计算深度视频序列的所有点的法向量；

(3)利用时空金字塔和局部金字塔模型，从局部时空邻域聚集法向量，从而计算多维金字塔向量{P_i}，在一个深度视频序列，与每个点关联的多维金字塔向量由这个点在不同时空邻域Ω内的N个多维向量连接构成：个数N是由两个参数n_l和n_p决定，其中n_l定义为空间金字塔的层数，n_p定义为每层金字塔内维的个数，与每个点关联的多维向量由这个点Ω邻域内的M个法向量连接构成：n₁,...,n_M∈Ω，邻域Ω是由两个参数n_s和n_t决定的时空深度子空间，其中n_s定义为空间邻域内点的个数，n_t定义为时间邻域内点的个数；

(5)构建P-SNV描述符：对于网格，i＝1:|V|；对于第k个视觉词d_k,k＝1:K；对于空间平均池，对于时间最大池，for i＝1,...,f；构建表示在第i个网格中，对于第1个视觉词，经过空间平均池和时间最大池得到的向量，表示在第i个网格中，对于第k个视觉词，经过空间平均池和时间最大池得到的向量；得到表示第1个网格对应的描述符，表示第V个网格对应的描述符，将一个视频划分的V个网格整合成该视频的最终描述符P-SNV；

(6)SVM分类；

(7)输出分类结果。

2.根据权利要求1所述的基于深度视频序列的人体行为识别方法，其特征在于，在所述步骤(1)中深度视频序列用函数表示：R³→R¹:z＝f(x,y,t)，其构成了一个4D平面S，表示为满足S(x,y,t,z)＝f(x,y,t)-z＝0的点(x,y,t,z)的集合，x,y,t和z分别表示横坐标，纵坐标，帧索引，深度值。

3.根据权利要求2所述的基于深度视频序列的人体行为识别方法，其特征在于，在所述步骤(2)中面S的法向量通过公式(1)获得：n为法向量，为对S求偏导，分别表示z对x,y,t求偏导。

4.根据权利要求3所述的基于深度视频序列的人体行为识别方法，其特征在于，在所述步骤(4)中组稀疏编码表示为：

<mrow> <mtable> <mtr> <mtd> <mrow> <munder> <mi>min</mi> <mrow> <mi>D</mi> <mo>,</mo> <mi>X</mi> </mrow> </munder> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>C</mi> </munderover> <mrow> <mo>(</mo> <mo>|</mo> <mo>|</mo> <msub> <mi>Y</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>DX</mi> <mi>i</mi> </msub> <mo>|</mo> <msubsup> <mo>|</mo> <mi>F</mi> <mn>2</mn> </msubsup> <mo>+</mo> <mo>|</mo> <mo>|</mo> <msub> <mi>Y</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>D</mi> <mrow> <mo>&Element;</mo> <mi>i</mi> </mrow> </msub> <msub> <mi>X</mi> <mi>i</mi> </msub> <mo>|</mo> <msubsup> <mo>|</mo> <mi>F</mi> <mn>2</mn> </msubsup> <mo>+</mo> <mo>|</mo> <mo>|</mo> <msub> <mi>D</mi> <mrow> <mo>&NotElement;</mo> <mi>i</mi> </mrow> </msub> <msub> <mi>X</mi> <mi>i</mi> </msub> <mo>|</mo> <msubsup> <mo>|</mo> <mi>F</mi> <mn>2</mn> </msubsup> <mo>+</mo> <msub> <mi>&lambda;</mi> <mn>1</mn> </msub> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>N</mi> <mi>i</mi> </msub> </munderover> <mo>|</mo> <mo>|</mo> <msubsup> <mi>x</mi> <mi>j</mi> <mi>i</mi> </msubsup> <mo>|</mo> <mo>|</mo> <mo>+</mo> <msub> <mi>&lambda;</mi> <mn>2</mn> </msub> <mo>|</mo> <mo>|</mo> <msub> <mi>X</mi> <mi>i</mi> </msub> <mo>|</mo> <msubsup> <mo>|</mo> <mi>F</mi> <mn>2</mn> </msubsup> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mtable> <mtr> <mtd> <mrow> <mi>s</mi> <mo>.</mo> <mi>t</mi> </mrow> </mtd> <mtd> <mrow> <msubsup> <mi>d</mi> <mi>k</mi> <mi>T</mi> </msubsup> <mo>,</mo> <msub> <mi>d</mi> <mi>k</mi> </msub> <mo>&le;</mo> <mn>1</mn> <mo>,</mo> <mo>&ForAll;</mo> <mi>k</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>...</mn> <mo>,</mo> <mi>K</mi> </mrow> </mtd> </mtr> </mtable> </mtd> </mtr> </mtable> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

5.根据权利要求1所述的基于深度视频序列的人体行为识别方法，其特征在于，在所述步骤(1)中使用三层的时空金字塔：{t₀,t₄}，{t₀t₂,t₂t₄}和{t₀t₁,t₁t₂,t₂t₃,t₃t₄}，与空间网格结合，自适应时空金字塔生成n_H×n_W×7个时空单元，t₀,t₁,t₂,t₃,t₄分别表示视频按三层的时空金字塔划分对应的帧索引，n_H,n_W分别表示将每帧图像按行和列划分的份数。