CN105740833B

CN105740833B - 一种基于深度序列的人体行为识别方法

Info

Publication number: CN105740833B
Application number: CN201610077386.5A
Authority: CN
Inventors: 孙艳丰; 张坤; 胡永利
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2016-02-03
Filing date: 2016-02-03
Publication date: 2019-03-22
Anticipated expiration: 2036-02-03
Also published as: CN105740833A

Abstract

本发明公开了一种基于深度序列的人体行为识别方法，基于法线信息的LBP算子；空间金字塔方式组合LBP算子；组合LBP算子的稀疏表示；行为序列的分割与对齐；为获取深度图中反映不同人体行为表面的曲面特征，进一步提高人体行为识别的鲁棒性，根据深度图中人体结构的相似性及关联信息，定义了深度图中法向信息的LBP描述算子，该算子在细节上保持了人体行为曲面的几何特性，局部空间上提取了曲面的局部特征，并以此作为深度图中人体行为局部特征表示。全局上，基于字典学习的编码方法整合了细节信息，自适应时空金字塔和稀疏系数的池化处理保持住了人体曲面的局部空间结构关系，实现对三维人体行为的细节和整体特征描述。

Description

一种基于深度序列的人体行为识别方法

技术领域

本发明涉及模式识别及计算机视觉领域，尤其涉及一种基于改进局部二值模式(LBP)与稀疏表示的人体行为识别方法。

背景技术

人体行为识别在视频监控、医疗健康看护等领域已经具有广泛应用。但目前人体行为识别的研究主要集中在传统彩色图像视频上，由于彩色图像视频缺乏人体的三维空间信息，对行为特征的描述不够全面，很难处理遮挡、光照及行为外观变化的特征描述问题，因此其应用效果及范围具有一定局限性。随着图像获取技术的进步，深度图像获取越来越容易。深度图像相比传统的颜色图像能提供更多的人体表观和结构信息，对光照变化不敏感，因此在行为识别领域，引入深度信息，研究基于深度信息的人体特征表示与提取是人体行为识别的关键，已经引起人们的极大关注。但在深度数据中，迄今还没有一种有效的描述子能够准确的表示深度数据的特性，彩色图像中的一些描述算子(如SIFT)等算子直接平移到深度数据中并没有取得令人满意的结果。局部二值模式(LBP)是一种计算简单、非参数化的局部纹理模式描述算子，由于它对光照变化不敏感，是一种有效的纹理描述算子，它在二维图像特征表示与提取中获得了成功。已有研究将其应用在深度数据中但取得的效果同样不是十分理想。

发明内容

为获取深度图中反映不同人体行为表面的曲面特征，进一步提高人体行为识别的鲁棒性，根据深度图中人体结构的相似性及关联信息，定义了深度图中法向信息的LBP描述算子，该算子在细节上保持了人体行为曲面的几何特性，局部空间上提取了曲面的局部特征，并以此作为深度图中人体行为局部特征表示。全局上，基于字典学习的编码方法整合了细节信息，自适应时空金字塔和稀疏系数的池化处理保持住了人体曲面的局部空间结构关系，实现对三维人体行为的细节和整体特征描述。

本发明主要涉及一种基于深度序列的人体行为识别方法，该方法为一种基于改进局部二值模式(LBP)与稀疏表示的人体行为识别方法，深度序列的描述符计算流程如图1，主要步骤如下：

S1基于法线信息的LBP算子

在模式识别中，LBP算子最早应用于二维人脸图像的识别，它在图像一个区域窗口内，以窗口的中心像素为阈值，将相邻若干个像素的灰度值与其进行比较，若邻域像素值大于中心像素值，则该像素点的位置被标记为1，否则标记为0。这样，一个区域窗口中便可产生一个二进制数(通常转换为十进制数)，即得到该窗口中心像素点的 LBP值，这个值反映了该区域的局部纹理信息。

鉴于LBP算子在二维模式识别领域中的成功应用，本文将LBP算子推广到深度视频序列中，提出了描述深度视频中基于表面法向信息的LBP算子，这种LBP算子很好地描述曲面的曲率变化特性。

由于深度序列看作是一个函数：这样便得到了由一系列的点(x,y,z,t)组成满足S(x,y,t,z)＝f(x,y,t)-z＝0的四维超平面。该超平面上点(x,y,z,t)的法线方向为：

和传统梯度方向相比，法向量的方向与4D曲面的形状相关，法向量的方向分布能够比传统的梯度方向提供更多的几何信息，也能够更精确地表述四维超平面的几何信息。考虑到法线代表四维空间中的方向，基于原来LBP算子的构造思路，根据深度图中某一点法线与其邻域点法线间的角度关系定义该点的新的LBP算子：

其中，P_c表示当前点即LBP邻域窗口的中心点，N_c表示点P_c位置的法线向量，N_n表示点P_c邻域中第n个点的法线向量，Angle(N_c,N_n)表示两个法向量间的角度度量关系，λ为一设定的阈值，其约束二值函数B(x)的取值。

但这种LBP算子存在一个不足：它只覆盖了一个固定半径范围内的小区域，在这个区域内只能够取到一个正方形邻域点，这显然不能满足不同规格表面的需要。为了适应不同尺度的特征，对这种LBP算子进行了改进，用圆形邻域代替了正方形邻域，改进后的LBP算子允许在半径为r的圆形邻域内有任意多个像素点。从而得到了半径为r的圆形区域内含有n个采样点的LBP算子。

S2空间金字塔方式组合LBP算子

人体行为在视频序列的前后帧之间具有关联性，将相邻帧中某一点及其邻近点的LBP特征进行组合，使原始深度序列中的每个像素用他邻域信息组合成的超像素表示，这样能够全面描述相邻点之间的关联性和动态性，得到多维组合LBP特征来表示人体行为动态信息，提高行为特征的表示能力。

为了提高组合LBP算子的尺度不变性，LBP算子的组合方式是采用空间金字塔的方式选取所需要的点，多维金字塔法组合方式能够捕获中心点局部领域内的多层表观信息，具有更好的鲁棒性。如图2，在点p所在的帧内，黑色圆形标记点p作为空间金字塔的第一层，四个菱形标记的点为金字塔的第二层，九个十字标记的点为第三层，这样在一帧内便取了14个点。然后在该帧的前后帧按照同样的方式取点，计算每一点的法向LBP特征，将这些LBP特征组合成一个向量，最终得到中心点p的LBP组合特征，该特征维度为42。若原始深度序列的维度为W×H×T，那么通过这种组合方式，原深度序列表示为一个矩阵，该矩阵的维度是42×W*H*T。

S3组合LBP算子的稀疏表示

根据上述方法，对深度序列每一帧的所有像素点都提取到一个LBP特征，进而也提取了组合LBP特征，然而得到的数据依然是一个序列，只不过这里已经将原始测量空间中的测量特征转换为二值特征。但是，这个二值特征与空间位置、时间位置是紧密相关的，如果直接用这个二值特征进行判别分析的话，会因为位置没有对齐产生很大的误差。为此，本方法首先使用基于字典的方法来解决这个问题，即通过训练样本学习一组字典，然后通过这个字典对所有样本进行规格化表示来消除这种误差。

给定一个由C个类别的组合LBP特征表示的训练矩阵X＝(X₁,X₂,...,X_C)，特征矩阵表示属于第i类的n_i个深度序列的组合LBP特征连结在一起表示。通过下面优化模型可以求得训练样本的字典和稀疏表示系数。

其中，为重构误差项，||A_i||₁为稀疏约束项，D∈R^42×K为稀疏字典，字典的第一维度42与组合LBP特征的维度相同，K为字典的第二维度即字典D的视觉词的总数，D的每一列称为视觉词，矩阵A_i为原始特种X_i相对于字典D的稀疏表示，λ是稀疏正则项。

对于一个W×H×T维的深度视频序列，通过上述模型学习得到样本的组合LBP特征矩阵的字典和稀疏表示系数，以此稀疏表示系数作为组合特征的新的特征表示。这个系数相对于原来的底层特征，具有更好的判别性，但它是一个矩阵而不是向量，另外由于不同序列采集的帧数不同，导致这个矩阵的维度不统一，无法直接拿来进行分类度量，为此需要首先对行为视频序列进行分割，保证分割后的深度序列具有相同数目的子序列。然后融合每个子序列的特征表示作为该视频序列的描述符，这样将各时段的局部特征信息融合起来表示原始深度序列既考虑到了整个深度视频序列所代表的动作信息，又着重表示了整个序列中与行为最相关的局部信息。

S4行为序列的分割与对齐

S4.1视频帧的分割

针对深度数据，在空间维度提取出人体区域后将这个区域划分为4×3的网格而不是直接将原有序列的整帧进行分割，使用该区域的数据信息进行识别不仅能够降低所需处理的数据量，更重要的是可以尽可能的滤除背景的影响，捕捉到人体躯干的运动情况，使得到的描述符鲁棒性更强。

进行视频帧分割时，为了保持相邻的法向量之间的相关性，使它们对噪声更具有鲁棒性，本文利用时空金字塔模型，从局部时间维度聚集法向量。时间金字塔的经典构建方法是对整个序列在时间维度进行均匀分割，然而，不同人在执行同一动作时可能有不同的速度，而且执行的次数也不尽相同，所以这种均匀的分割处理不能够很好地应对这种变化。考虑到深度数据的特点，使用了一种新的时间分割方法。给定一个深度序列，首先将第i帧投影到三个正交的平面，即正面、侧面和顶面得到三幅投影后的图像那么这帧的能量为：

ξ是设定的阈值，sum(·)计算二值图中的非零值的个数。

通过均匀划分这个能量对序列进行划分。先对能量进行均匀划分后得到五个时刻t₀,t₁,t₂,t₃,t₄，利用这几个时刻构造一个三层的时间金字塔：t₀-t₄时间段内所有的帧作为第一层；将t₀-t₄分为两个子序列t₀-t₂、t₂-t₄作为金字塔的第二层；再对t₀-t₂、t₂-t₄进一步划分得到四个子序列t₀-t₁、t₁-t₂、t₂-t₃、t₃-t₄作为金字塔的第三层。构建的时间金字塔见0。在时空维度，原深度序列被划分为4×3×7个子序列。

S4.2池化处理

对于每一个子序列，通过前面字典学习得到了字典及其稀疏表示系数，使用了池化(Pooling)技术对稀疏系数进行处理得到每个子序列的描述符。原始的池化技术主要有两种，平均值池化就是对池化数据取平均值，最大值池化就是求池化数据的最大值。根据稀疏系数的特点，本文使用一种全新的池化方法，即空间平均池化与时间最大池化。另外，并不是直接对稀疏系数进行池化，而是通过池化组合LBP特征和字典的每个视觉词的加权差异来表示原有数据。

给定一个维度为W×H×T的深度序列，它的组合LBP特征为x_i表示深度序列中第i个点的组合LBP特征，P＝W*H*T，表示该深度序列的组合LBP特征总数，关于字典D的稀疏表示系数为x中在该序列第t帧的子集计为N_t。对字典的每个视觉词，首先应用空间平均池化计算组合LBP特征与视觉词之间的差异：

其中，表示第t帧内第k个视觉词的池化差异向量，|N_t|表示集合N_t中元素个数，为组合LBP特征xi对应字典D的稀疏系数α_i的第k个元素。然后，使用时间最大池化方法得到差异向量u_k，u_k的第m个元素的计算方法为：

u_k保留了最大的差异向量，在保留序列重要的类别信息的同时又去除了很多冗余的信息。最后，将所有视觉词的差异向量连结起来得到该子序列的M*K维的描述符：

这样一个深度序列的描述符就只与稀疏表示中字典的视觉词的个数K有关。最终的将S4.1中的84个子序列的描述符串联在一起作为原始深度序列的最终的描述符，将这个描述符输入到与SVM分类器进行分类识别。

附图说明

图1深度序列描述符计算流程如图。

图2点p的空间金字塔组合LBP算子。

图3构建时间金字塔。

具体实施方式

根据上面方法的描述，进行了实验验证。实验数据选择了MSR Action 3D数据库和MSR Gesture 3D数据库。MSR Action 3D数据库是使用微软Kinect深度传感器采集的公共数据库，该数据库由10个表演者完成20种动作的深度序列构成，每个表演者的每个动作采集2-3次，虽然这个数据库的背景经过处理，但是由于20种动作中许多动作非常相似，对这个数据集进行识别仍然具有很大的挑战性；MSR Gesture3D是一个通过深度相机获取深度序列的手势数据库，也是一种十分流行的人体手势测试评价数据库。该数据库包含了12个由American Sign Language(ASL)定义的动态手势。每个手势由10个人执行2-3次。由于自遮挡问题，这个数据库具有很强的挑战性。

在MSR Action 3D数据库上本文提出的方法与一些现有算法的实验结果比较见表1。本文提出的方法获得了最高的94.91％的识别结果，实验结果进一步证明了本文提出的行为特征表示弥补了其他方法的不足，具有较强的区分性、鲁棒性和稳定性。

表1在MSRAction 3D数据库上，现有方法与本文方法的识别率比较

在MSR Gesture 3D数据库上的实验结果与其他方法的比较见表2。由于的LBP编码方式在保留整体信息的同时更加强调图像中手的边缘信息，所以的结果优于这两种方法，本文方法取得了最好的95.53％的识别率。

表2在MSR Gesture3D数据库上，现有方法与本文方法的识别率比较

Claims

1.一种基于深度序列的人体行为识别方法，其特征在于：该方法为一种基于改进局部二值模式(LBP)与稀疏表示的人体行为识别方法，深度序列的描述符计算流程主要步骤如下：

S1基于法线信息的LBP算子

在模式识别中，LBP算子最早应用于二维人脸图像的识别，它在图像一个区域窗口内，以窗口的中心像素为阈值，将相邻若干个像素的灰度值与其进行比较，若邻域像素值大于中心像素值，则该像素点的位置被标记为1，否则标记为0；这样，一个区域窗口中便可产生一个二进制数，即得到该窗口中心像素点的LBP值，这个值反映了该区域的局部纹理信息；

鉴于LBP算子在二维模式识别领域中的成功应用，本方法将LBP算子推广到深度视频序列中，提出了描述深度视频中基于表面法向信息的LBP算子，这种LBP算子很好地描述曲面的曲率变化特性；

由于深度序列看作是一个函数：这样便得到了由一系列的点(x,y,z,t)组成满足S(x,y,t,z)＝f(x,y,t)-z＝0的四维超平面；该超平面上点(x,y,z,t)的法线方向为：

和传统梯度方向相比，法向量的方向与4D曲面的形状相关，法向量的方向分布能够比传统的梯度方向提供更多的几何信息，也能够更精确地表述四维超平面的几何信息；考虑到法线代表四维空间中的方向，基于原来LBP算子的构造思路，根据深度图中某一点法线与其邻域点法线间的角度关系定义该点的新的LBP算子：

其中，P_c表示当前点即LBP邻域窗口的中心点，N_c表示点P_c位置的法线向量，N_n表示点P_c邻域中第n个点的法线向量，Angle(N_c,N_n)表示两个法向量间的角度度量关系，λ为一设定的阈值，其约束二值函数B(x)的取值；

但这种LBP算子存在一个不足：它只覆盖了一个固定半径范围内的小区域，在这个区域内只能够取到一个正方形邻域点，这显然不能满足不同规格表面的需要；为了适应不同尺度的特征，对这种LBP算子进行了改进，用圆形邻域代替了正方形邻域，改进后的LBP算子允许在半径为r的圆形邻域内有任意多个像素点；从而得到了半径为r的圆形区域内含有n个采样点的LBP算子；

S2空间金字塔方式组合LBP算子

人体行为在视频序列的前后帧之间具有关联性，将相邻帧中某一点及其邻近点的LBP特征进行组合，使原始深度序列中的每个像素用他邻域信息组合成的超像素表示，这样能够全面描述相邻点之间的关联性和动态性，得到多维组合LBP特征来表示人体行为动态信息，提高行为特征的表示能力；

为了提高组合LBP算子的尺度不变性，LBP算子的组合方式是采用空间金字塔的方式选取所需要的点，多维金字塔法组合方式能够捕获中心点局部领域内的多层表观信息，具有更好的鲁棒性；在点p所在的帧内，黑色圆形标记点p作为空间金字塔的第一层，四个菱形标记的点为金字塔的第二层，九个十字标记的点为第三层，这样在一帧内便取了14个点；然后在该帧的前后帧按照同样的方式取点，计算每一点的法向LBP特征，将这些LBP特征组合成一个向量，最终得到中心点p的LBP组合特征，该特征维度为42；若原始深度序列的维度为W×H×T，那么通过这种组合方式，原深度序列表示为一个矩阵，该矩阵的维度是42×W*H*T；

S3组合LBP算子的稀疏表示

根据上述方法，对深度序列每一帧的所有像素点都提取到一个LBP特征，进而也提取了组合LBP特征，然而得到的数据依然是一个序列，只不过这里已经将原始测量空间中的测量特征转换为二值特征；但是，这个二值特征与空间位置、时间位置是紧密相关的，如果直接用这个二值特征进行判别分析的话，会因为位置没有对齐产生很大的误差；为此，本方法首先使用基于字典的方法来解决这个问题，即通过训练样本学习一组字典，然后通过这个字典对所有样本进行规格化表示来消除这种误差；

给定一个由C个类别的组合LBP特征表示的训练矩阵X＝(X₁,X₂,...,X_C)，特征矩阵表示属于第i类的n_i个深度序列的组合LBP特征连结在一起表示；通过下面优化模型可以求得训练样本的字典和稀疏表示系数；

其中，为重构误差项，||A_i||₁为稀疏约束项，D∈R^42×K为稀疏字典，字典的第一维度42与组合LBP特征的维度相同，K为字典的第二维度即字典D的视觉词的总数，D的每一列称为视觉词，矩阵A_i为原始特种X_i相对于字典D的稀疏表示，λ是稀疏正则项；

对于一个W×H×T维的深度视频序列，通过上述模型学习得到样本的组合LBP特征矩阵的字典和稀疏表示系数，以此稀疏表示系数作为组合特征的新的特征表示；这个系数相对于原来的底层特征，具有更好的判别性，但它是一个矩阵而不是向量，另外由于不同序列采集的帧数不同，导致这个矩阵的维度不统一，无法直接拿来进行分类度量，为此需要首先对行为视频序列进行分割，保证分割后的深度序列具有相同数目的子序列；然后融合每个子序列的特征表示作为该视频序列的描述符，这样将各时段的局部特征信息融合起来表示原始深度序列既考虑到了整个深度视频序列所代表的动作信息，又着重表示了整个序列中与行为最相关的局部信息；

S4行为序列的分割与对齐

S4.1视频帧的分割

针对深度数据，在空间维度提取出人体区域后将这个区域划分为4×3的网格而不是直接将原有序列的整帧进行分割，使用该区域的数据信息进行识别不仅能够降低所需处理的数据量，更重要的是可以尽可能的滤除背景的影响，捕捉到人体躯干的运动情况，使得到的描述符鲁棒性更强；

进行视频帧分割时，为了保持相邻的法向量之间的相关性，使它们对噪声更具有鲁棒性，本方法利用时空金字塔模型，从局部时间维度聚集法向量；时间金字塔的经典构建方法是对整个序列在时间维度进行均匀分割，然而，不同人在执行同一动作时可能有不同的速度，而且执行的次数也不尽相同，所以这种均匀的分割处理不能够很好地应对这种变化；考虑到深度数据的特点，使用了一种新的时间分割方法；给定一个深度序列，首先将第i帧投影到三个正交的平面，即正面、侧面和顶面得到三幅投影后的图像那么这帧的能量为：

ξ是设定的阈值，sum(·)计算二值图中的非零值的个数；

通过均匀划分这个能量对序列进行划分；先对能量进行均匀划分后得到五个时刻t₀,t₁,t₂,t₃,t₄，利用这几个时刻构造一个三层的时间金字塔：t₀-t₄时间段内所有的帧作为第一层；将t₀-t₄分为两个子序列t₀-t₂、t₂-t₄作为金字塔的第二层；再对t₀-t₂、t₂-t₄进一步划分得到四个子序列t₀-t₁、t₁-t₂、t₂-t₃、t₃-t₄作为金字塔的第三层；在时空维度，原深度序列被划分为4×3×7个子序列；

S4.2池化处理

对于每一个子序列，通过前面字典学习得到了字典及其稀疏表示系数，使用了池化(Pooling)技术对稀疏系数进行处理得到每个子序列的描述符；原始的池化技术主要有两种，平均值池化就是对池化数据取平均值，最大值池化就是求池化数据的最大值；根据稀疏系数的特点，本方法使用一种池化方法，即空间平均池化与时间最大池化；另外，并不是直接对稀疏系数进行池化，而是通过池化组合LBP特征和字典的每个视觉词的加权差异来表示原有数据；

给定一个维度为W×H×T的深度序列，它的组合LBP特征为x_i表示深度序列中第i个点的组合LBP特征，P＝W*H*T，表示该深度序列的组合LBP特征总数，关于字典D的稀疏表示系数为x中在该序列第t帧的子集计为N_t；对字典的每个视觉词，首先应用空间平均池化计算组合LBP特征与视觉词之间的差异：

其中，表示第t帧内第k个视觉词的池化差异向量，|N_t|表示集合N_t中元素个数，为组合LBP特征x_i对应字典D的稀疏系数α_i的第k个元素；然后，使用时间最大池化方法得到差异向量u_k，u_k的第m个元素的计算方法为：

u_k保留了最大的差异向量，在保留序列重要的类别信息的同时又去除了很多冗余的信息；最后，将所有视觉词的差异向量连结起来得到该子序列的M*K维的描述符：

这样一个深度序列的描述符就只与稀疏表示中字典的视觉词的个数K有关；最终的将S4.1中的84个子序列的描述符串联在一起作为原始深度序列的最终的描述符，将这个描述符输入到与SVM分类器进行分类识别。