CN105930790A

CN105930790A - 基于核稀疏编码的人体行为识别方法

Info

Publication number: CN105930790A
Application number: CN201610241121.4A
Authority: CN
Inventors: 解梅; 黄成挥; 程石磊; 刘伸展
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2016-04-19
Filing date: 2016-04-19
Publication date: 2016-09-07
Anticipated expiration: 2036-04-19
Also published as: CN105930790B

Abstract

本发明公开了一种基于核稀疏编码的人体行为识别方法，属于数字图像处理技术领域。本发明首先将输入视频分成固定长度且相互重叠的视频段，再对每个视频段提取梯度与光流特征协方差或者形状特征协方差，并采用对称正定矩阵降维方法对协方差矩阵进行降维。在Stein核的基础上，提出一种稀疏最大化的对阵正定矩阵空间字典学习，并将黎曼流形嵌入再生核希尔伯特空间提出一种黎曼稀疏求解器。本发明用于视频的人体行为识别，处理简单，计算复杂度低，对行为差异、视角变化、低分辨率具有很好的鲁棒性。

Description

基于核稀疏编码的人体行为识别方法

技术领域

本发明属于数字图像处理技术领域，涉及计算机视觉、模式识别等相关理论知识，尤其是基于协方差矩阵的人体行为识别。

背景技术

人体行为识别是计算机视觉领域的研究热点和难点，其核心是利用计算机视觉技术自动从视频序列中检测、跟踪、识别人并对其行为进行理解和描述。人体运动分析和行为识别方法是人体行为理解的核心内容，主要包括对视频人体检测，跟踪运动人体，获取人体行为的相关参数，最终达到理解人体行为的目的。

人体行为识别方法主要运用于智能监控系统，主动、实时地分析视频中人体行为，及时报告可疑行为；基于内容的视频检索，对视频内容进行分析和理解，简历结构和索引；还广泛应用于人体交互、机器人、智能房间和看护中心。

人体行为识别主要由人体行为表示和人体行为识别分类两个基本步骤构成，它们对人体行为识别率有显著的影响。当前人体行为识别方法主要有：

一)：基于时空兴趣点云的行为识别。从不同的时间尺度提取兴趣点积累成点云，并避免对背景和静态前景检测。采用近邻分类或者支撑向量机SVM进行识别分类。该方式可以捕获平滑运动，对视角改变具有鲁棒性，遮挡处理代价小，详见文献“Matteo Bregonzio,Shaogang Gong and Tao Xiang.Recognising Action as Clouds of Space-TimeInterest Points.IEEE Conference on Computer Vision and Pattern Recognition(CVPR),June 2009.”；

二)：基于深度轨迹的行为识别。对每帧像素进行深度采样，并利用深度光流场中位移信息跟踪特征点。基于一机遇运动边界直方图的描述子，对相机运动具有鲁棒性。深度轨迹对不规则运动以及镜头边界具有鲁棒性，能很好的提取视频中的运动信息。实验结果表明比大部分特征描述方法具有更好的识别准确率，详见文献“Heng Wang,Klaser,A.,Schmid,C.,Cheng-Lin Liu.Action Recognition by Dense Trajectories.IEEEConference on Computer Vision and Pattern Recognition(CVPR),June 2011.”；

三)：基于协方差的行为识别方法。提取连续视频序列中的协方差特征，转换到对数欧式空间，使用对数欧式空间距离度量方式。采用最近邻分类方法或者稀疏线性估计方法进行识别分类。该方式框架简单，计算复杂度低，能很好的应对人体行为差异、视角变换以及低分辨率等问题，并且识别准确率极高，详见文献“Kai Guo,Prakash Ishwar,JanuszKonrad.Action Recognition from Video Using Feature Covariance Matrices.IEEETransactions on Image Processing,Mar 2013.”。

人体行为识别在实现时由于受到人体行为的类间变化和类内变化、行为执行环境和摄像机位置和人体行为在时空中的变化等因素的影响，大大限制了识别准确率的提升。行为表征中往往不能有效融合不同特征，降低特征表征力度，减少外界干扰。

发明内容

本发明的发明目的在于：针对上述存在的问题，提供一种基于核稀疏编码的人体行为识别方法。

本发明的基于核稀疏编码的人体行为识别方法，包括下列步骤：

步骤1：提取输入视频的行为特征：

将输入视频分成长度固定且相互重叠的视频段；分别对各视频段的像素点进行特征提取，得到像素点(x,y,t)的像素点特征f(x,y,t)，其中(x,y)表示像素点的平面坐标，t表示像素点的视频帧信息；

特征提取的方式为梯度光流特征或者形状协方差特征：

当采用梯度光流特征时，分别计算像素点(x,y,t)的像素值沿x、y方向的一阶、二阶梯度绝对值：|I_x|,|I_y|,|I_xx|,|I_yy|，沿x,y,t方向的光流u,v,w，以及u,v,w对时刻t求偏导数，则f(x,y,t)＝[g,o]，其中

当采用形状特征时，提取当前视频块的前景图像，再在前景图像中，分别计算坐标位置(x,y)到前景图像的轮廓边界的水平与垂直四个方向的距离d_E,d_w,d_S,d_N，坐标位置(x,y)到前景图像的轮廓的最小外接矩形的顶点的距离d_NE,d_SW,d_SE,d_NW；计算像素点(x,y,t)所在视频帧与当前视频段的起始帧、结束帧的间隔帧数d_T-、d_T+，则f(x,y,t)＝[x,y,t,d_E,d_w,d_S,d_N,d_NE,d_SW,d_SE,d_NW,d_T+,d_T-]；

基于每个视频段的行为特征向量f(x,y,t)构建n*n维(取决于f(x,y,t)的维度)协方差矩阵其中S表示视频段的不同视频帧的图像区域，|S|表示图像区域S的像素点数目；

步骤2：将协方差矩阵F转换到再生核希尔伯特空间，对行为特征向量进行核稀疏编码；

步骤3：基于核稀疏编码，完成对各视频段的人体行为分类学习及识别。

优选的，在将协方差矩阵F转换到再生核希尔伯特空间之前，先采用对称正定矩阵降维方法对协方差矩阵F进行降维处理。即将矩阵F转换为F＝W^TXW，其中X为n*n维协方差矩阵，W为n*m维满秩矩阵，降维后，将协方差矩阵F的变为m*m维对称矩阵，即m*m维协方差矩阵。

步骤2中，将协方差矩阵F转换到再生核希尔伯特空间，对行为特征向量进行核稀疏编码可基于黎曼流行实现。即利用Stein核，在对称正定矩阵空间(步骤1得到的协方差矩阵F，或者经对称正定矩阵降维处理后的将协方差矩阵F)，利用稀疏最大化方法进行字典D(黎曼字典)学习。利用Stein核，将黎曼流形(即步骤1得到的协方差矩阵F，或者经对称正定矩阵降维处理后的将协方差矩阵F)嵌入再生核希尔伯特空间(RKHS)进行核稀疏编码，其具体步骤为：

步骤2-1：基于预设值初始化字典D，其中字典D包括n个字典原子D_i，i＝1,2,…,N，且字典原子D_i属于维黎曼空间点集，其中字典D的初始值可以是随机选择的T个样本，也可以是Karchar均值聚类中心；

步骤2-2：基于字典D的当前取值，当前视频段对应的m*m维的协方差矩阵F，查找使得取得最小的稀疏向量v_i，其中v_i为N维行向量；将m个核稀疏向量v_i构成核稀疏编码V，其中R^N表示1*N维实矩阵，函数表示将括号中的对象转换到再生核希尔伯特空间，λ表示预设系数；

步骤2-3：对核稀疏编码V、字典D进行迭代更新：

固定核稀疏编码V，更新字典D：基于当核前稀疏编码V、当前视频段对应的协方差矩阵F，查找使得取得最小的字典原子D_i，其中D_i属于维黎曼空间点集；

固定字典D，更新核稀疏编码V：基于当前字典D、当前视频段对应的协方差矩阵F，查找使得取得最小的核稀疏向量v_i，其中v_i为N维行向量；

基于当前和上一次V、D更新结果，分别计算若两次计算结果的差小于或等于预设阈值，则停止迭代更新，输出当前核稀疏编码V。

其中，X对应步骤2-1～2-3中描述的F或F_j，其中K(X,D_i)＝[a_i]_N×1，a_i＝k(X,D_i)；a_ij＝k(D_i,D_i)。其中函数k(X,Y)表示Stein核：用Ω＝{X₁,X₂,…,X_N}表示黎曼流形的非空集合，函数Ω×Ω＝R₊是黎曼核，若且(a_ia_j表示任意实向量，X_i,X_j表示黎曼空间的点)，则函数其中，函数k(X,Y)的输入参数X,Y∈Ω，S(X,Y)表示stein距离，σ表示预设系数，det(·)表示矩阵行列式。即上述k(X,D_i)、(D_i,D_i)基于函数k(X,Y)进行求解。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

a)提出两种全局协方差特征描述方法，梯度光流协方差可以表征运动信息，形状协方差可以表征运动形状变化信息。

b)在对称正定矩阵空间对协方差进行降维，不仅可以降低特征维数并且可以提高特征类内聚合度以及类间离散度，从而提高计算速度和识别准确率。

c)在Stein核的基础上，采用稀疏最大化进行黎曼字典学习，从黎曼空间嵌入再生核希尔伯特空间进行稀疏编码。

附图说明

图1是具体实施方式的处理流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合实施方式和附图，对本发明作进一步地详细描述。

参见图1，本发明的实现包括下列步骤：

步骤S01：输入视频。

步骤S02：提取输入视频的协方差特征，即提取行为特征向量f(s)。

首先，将输入视频分成长度为L帧(一个完整的人体行为大约为0.4s～0.6s，L的长度至少设置为涵盖完整人体行为，通常L可取20)且相互重叠的视频段。提取视频段的移动步长可根据实际情况调整(如设置为8帧)。

对视频段的像素点进行特征提取，得到像素点(x,y,t)的行为特征向量f(x,y,t)，令f(s)＝f(x,y,t)，对行为特征向量f(s)进行组合计算协方差矩阵F，即其中其中cov(F)表示协方差矩阵F，S表示视频段的不同时空立方块对应的区域，|S|表示时空立方块S中像素点总数目，s表示区域S中的像素点。若对像素点(x,y,t)采用梯度光流特征进行行为特征向量提取时，则可得到12*12维的协方差矩阵F；若对像素点(x,y,t)采用形状特征进行行为特征向量提取时，则可得到13*13维的协方差矩阵F。

采用对称正定矩阵降维方法对cov(F)进行降维，得到降维后的协方差矩阵F′，其中F为n*n维协方差矩阵。

步骤S03：基于协方差矩阵F′，将协方差矩阵F转换到再生核希尔伯特空间，对行为特征向量进行核稀疏编码，即基于字典D和核稀疏编码的迭代更新，得到对应的核稀疏编码

步骤S04：基于核稀疏编码，完成对各视频段的人体行为分类及识别。在对训练样本进行人体行为分类处理时，可以采用直接分类方法，利用残差对行为特征向量进行分类；也可以采取欧式空间分类学习方法对编码后的行为特征向量进行分类学习，例如SVM、kNN(K近邻分类)等。

将本反用于标准人体行为数据库Weizmann、KTH、ADL进行人体行为识别实验，表明本发明提出的技术方案相较于传统方案具有更好的识别准确率，并对视角变化、人体行为差异以及低分辨率具有良好的鲁棒性。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合。

Claims

1.一种基于核稀疏编码的人体行为识别方法，其特征在于，包括下列步骤：

步骤1：提取输入视频的行为特征：

特征提取的方式为梯度光流特征或者形状协方差特征：

当采用形状特征时，提取当前视频块的前景图像，再在前景图像中，分别计算坐标位置(x,y)到前景图像的轮廓边界的水平与垂直四个方向的距离d_E,d_w,d_S,d_N，坐标位置(x,y)到前景图像的轮廓的最小外接矩形的顶点的距离d_NE,d_SW,d_SE,d_NW；计算像素点(x,y,t)所在视频帧与当前视频段的起始帧、结束帧的间隔帧数则

基于每个视频段的行为特征向量f(x,y,t)构建协方差矩阵F：其中S表示视频段的不同视频帧的图像区域，|S|表示图像区域S的像素点数目；

步骤3：基于核稀疏编码，完成对各视频段的人体行为分类及识别。

2.如权利要求1所述的方法，其特征在于，还包括采用对称正定矩阵降维方法对协方差矩阵F进行降维处理后再转换到再生核希尔伯特空间。

3.如权利要求1或2所述的方法，其特征在于，对行为特征向量进行稀疏编码的过程为：

步骤2-1：基于预设值初始化字典D，其中字典D包括n个字典原子D_i，i＝1,2,…,N，且字典原子D_i属于维黎曼空间点集；

步骤2-2：基于字典D的当前取值，当前视频段对应的m*m维的协方差矩阵F，查找使得取得最小的核稀疏向量v_i，其中v_i为N维行向量；将m个稀疏向量v_i构成核稀疏编码V，其中R^N表示1*N维实矩阵，函数表示将括号中的对象转换到再生核希尔伯特空间，λ表示预设系数；

步骤2-3：对核稀疏编码V、字典D进行迭代更新：

固定核稀疏编码V，更新字典D：基于当前核稀疏编码V、当前视频段对应的协方差矩阵F，查找使得取得最小的字典原子D_i，其中D_i属于维黎曼空间点集；

固定字典D，更新核稀疏编码V：基于当前字典D、当前视频段对应的协方差矩阵F，查找使得取得最小的核稀疏向量v_i，其中v_i为N维行向量；基于当前和上一次V、D更新结果，分别计算若两次计算结果的差小于或等于预设阈值，则停止迭代更新，输出当前核稀疏编码V。