CN105930789B

CN105930789B - 基于对数欧式空间词袋模型的人体行为识别

Info

Publication number: CN105930789B
Application number: CN201610241082.8A
Authority: CN
Inventors: 解梅; 黄成挥; 程石磊; 周扬
Original assignee: University of Electronic Science and Technology of China
Current assignee: Houpu Clean Energy Group Co ltd
Priority date: 2016-04-18
Filing date: 2016-04-18
Publication date: 2019-08-13
Anticipated expiration: 2036-04-18
Also published as: CN105930789A

Abstract

本发明公开了一种基于对数欧式空间词袋模型的人体行为识别，属于数字图像处理技术领域。本发明首先将输入视频分成固定长度且相互重叠的视频段，然后再将各视频段切分为固定大小并部分重叠的时空立方块，对每个时空立方块提取梯度与光流特征协方差或者形状特征协方差，并采用对称正定矩阵降维方法对协方差矩阵进行降维。对协方差矩阵进行对数变化，提取对数协方差上三角特征转换为对数欧式空间向量。在对数欧式采用词袋模型进行行为建模，采用谱聚类对行为特征聚类生成码本，并采用局部约束线性编码技术LLC对行为特征进行编码。利用非线性支撑向量机对行为特征进行训练与识别分类。本发明用于人体行为识别，其鲁棒性极好。

Description

基于对数欧式空间词袋模型的人体行为识别

技术领域

本发明属于数字图像处理技术领域，涉及计算机视觉、模式识别等相关理论知识，尤其是基于对数欧式空间词袋模型的人体行为识别。

背景技术

人体行为识别是计算机视觉领域的研究热点和难点，其核心是利用计算机视觉技术自动从视频序列中检测、跟踪、识别人并对其行为进行理解和描述。人体运动分析和行为识别算法是人体行为理解的核心内容，主要包括对视频人体检测，跟踪运动人体，获取人体行为的相关参数，最终达到理解人体行为的目的。

人体行为识别方法主要运用于智能监控系统，主动、实时地分析视频中人体行为，及时报告可疑行为；基于内容的视频检索，对视频内容进行分析和理解，简历结构和索引；还广泛应用于人体交互、机器人、智能房间和看护中心。

人体行为识别主要由人体行为表示和人体行为识别分类两个基本步骤构成，它们对人体行为识别率有显著的影响。当前人体行为识别方法主要有：

一)：基于时空兴趣点云的行为识别。从不同的时间尺度提取兴趣点积累成点云，并避免对背景和静态前景检测。采用近邻分类或者支撑向量机SVM进行识别分类。该方式可以捕获平滑运动，对视角改变具有鲁棒性，遮挡处理代价小，详见文献“Matteo Bregonzio,Shaogang Gong and Tao Xiang.Recognising Action as Clouds of Space-TimeInterest Points.IEEE Conference on Computer Vision and Pattern Recognition(CVPR),June 2009.”；

二)：基于深度轨迹的行为识别。对每帧像素进行深度采样，并利用深度光流场中位移信息跟踪特征点。基于一机遇运动边界直方图的描述子，对相机运动具有鲁棒性。深度轨迹对不规则运动以及镜头边界具有鲁棒性，能很好的提取视频中的运动信息。实验结果表明比大部分特征描述方法具有更好的识别准确率，详见文献“Heng Wang,Klaser,A.,Schmid,C.,Cheng-Lin Liu.Action Recognition by Dense Trajectories.IEEEConference on Computer Vision and Pattern Recognition(CVPR),June 2011.”；

三)：基于协方差的行为识别方法。提取连续视频序列中的协方差特征，转换到对数欧式空间，使用对数欧式空间距离度量方式。采用最近邻分类算法或者稀疏线性估计算法进行识别分类。该方式框架简单，计算复杂度低，能很好的应对人体行为差异、视角变换以及低分辨率等问题，并且识别准确率极高，详见文献“Kai Guo,Prakash Ishwar,JanuszKonrad.Action Recognition from Video Using Feature Covariance Matrices.IEEETransactions on Image Processing,Mar 2013.”。

人体行为识别在实现时由于受到人体行为的类间变化和类内变化、行为执行环境和摄像机位置和人体行为在时空中的变化等因素的影响，大大限制了识别准确率的提升。行为表征中往往不能有效融合不同特征，降低特征表征力度，减少外界干扰。

发明内容

本发明的发明目的在于：针对上述存在的问题，提出了一种基于局部协方差特征的人体行为识别方法。

本发明的基于局部协方差特征的人体行为识别方法包括下列步骤：

步骤1：提取输入视频的行为特征：

将输入视频分成长度固定且相互重叠的视频段，再将视频段分为固定大小且相互重叠的时空立方块，按照时间轴的方向来看，则时空立方块为长方体；

对时空立方块中各像素点进行特征提取，得到像素点(x,y,t)的行为特征向量f(x,y,t)，其中(x,y)表示像素点的平面坐标，t表示像素点的视频帧信息；特征提取的方式为梯度光流特征或者形状特征：当采用梯度光流特征时，分别计算像素点(x,y,t)沿x、y方向的一阶、二阶梯度绝对值：|I_x|,|I_y|,|I_xx|,|I_yy|，沿x,y,t方向的光流u,v,w，以及u,v,w对t求偏导数，则f(x,y,t)＝[g,o]，其中当采用形状特征时，提取当前时空立方块的前景图像，再在前景图像中，分别计算坐标位置(x,y,t)到前景图像的轮廓边界的水平与垂直四个方向的距离d_E,d_w,d_S,d_N，坐标位置(x,y,t)到前景图像的轮廓的最小外接矩形的顶点的距离d_NE,d_SW,d_SE,d_NW；计算像素点(x,y,t)所在视频帧与当前时空立方块的起始帧的间隔帧数、与当前时空立方块的结束帧的间隔帧数，则

为了简化描述，用f(s)表示为特征向量f(x,y,t)，其中s对应像素点(x,y,t)。基于每个视频段的各时空立方块的行为特征f(s)构建协方差矩阵F，即一个时空立方块对应一个协方差矩阵F，

其中协方差矩阵F：其中S表示视频段的不同时空立方块对应的区域，|S|表示时空立方块S中像素点总数目，s表示区域S中的像素点；

步骤2：将协方差矩阵F转换为对数协方差矩阵，再转换为对数欧式空间的向量，采用词袋模型进行行为建模，并对所述对数欧式空间的向量进行谱聚类，生成行为特征码本；

步骤3：基于行为特征码本，采用基于局部坐标编码LLC对所述对数欧式空间的向量进行编码，得到编码行为特征；

步骤4：采用SVM分类对编码行为特征进行行为分类器训练，得到不同行为的行为分类器；

步骤5：对待识别视频执行步骤1-4，基于行为分类器进行人体行为识别处理。

优选的，在将协方差矩阵F转换为对数协方差矩阵前，还包括采用对称正定矩阵降维方法对协方差矩阵F进行降维处理。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

(1)提出两种特征表示方法(特征提取方式)，梯度光流特征或者形状协方差特征，能够有效地描述人体运动信息，从而保证识别准确率。

(2)在对称正定矩阵空间对协方差进行降维，不仅可以降低特征维数并且可以提高特征类内聚合度以及类间离散度，从而提高计算速度和识别准确率。

(3)采用谱聚类方式生成码本，其建立在谱图理论基础上，能在任意形状空间上聚类且收敛于全局最优解的优点。

(4)采用LLC对行为特征进行编码，使编码具有良好的重构性，保持局部平滑，并且具有解析解。

附图说明

图1是具体实施方式中，本发明的处理流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合实施方式和附图，对本发明作进一步地详细描述。

参见图1，本发明的实现包括下列步骤：

步骤S01：输入视频。

步骤S02：提取输入视频的协方差特征，即提取行为特征向量f(s)。

首先，将输入视频分成长度为L帧(一个完整的人体行为大约为0.4s～0.6s，L的长度至少设置为涵盖完整人体行为，通常L可取20)且相互重叠的视频段。提取视频段的移动步长可根据实际情况调整(如设置为8帧)。将视频段分为相互重叠的长方体块，即将每个视频段划分为多个固定大小且重叠的时空立方块，视频段的每帧图像按照相同的划分方式将图像划分为多个固定大小且重叠的图像块，视频段所有图像帧的同一位置的图像块构成一个时空立方块。图像块的大小根据图像像素设置(如12*12)，移动步长决定重叠区域，根据实验进行调整(如4(像素))。相互重叠的时空立方块是为了保持局部特征以及空间位置特征。

对时空立方块中各像素点进行特征提取，得到像素点(x,y,t)的行为特征向量f(x,y,t)，令f(s)＝f(x,y,t)，对行为特征向量f(s)进行组合计算协方差矩阵F，即其中其中cov(F)表示协方差矩阵F，S表示视频段的不同时空立方块对应的区域，|S|表示时空立方块S中像素点总数目，s表示区域S中的像素点。若对像素点(x,y,t)采用梯度光流特征进行行为特征向量提取时，则可得到12*12维的协方差矩阵F；若对像素点(x,y,t)采用形状特征进行行为特征向量提取时，则可得到13*13维的协方差矩阵F。

采用对称正定矩阵降维方法对cov(F)进行降维，得到降维后的协方差矩阵F′，其中F′为n*n维协方差矩阵。

步骤S03：对协方差矩阵F′进行对数变化得到对数协方差矩阵log(F′)，其中即将协方差矩阵F′进行特征值分解为F′＝U diag(λ₁,λ₂,…,λ_n)U^T，diag(λ₁,λ₂,…,λ_n)是协方差矩阵F′的特征值构成的对角矩阵，再基于特征值分解Udiag(λ₁,λ₂,…,λ_n)U^T得到log(F′)。

将log(F′)转换为对数欧式空间的向量其中F′为n*n维对数协方差矩阵。

步骤S04：对步骤S03中得到的对数欧式空间的向量vec(F′)进行谱聚，输出聚类结果；

步骤S05：基于步骤S04输出的聚类结果，生成行为特征码本；

步骤S06：基于行为特征码本，采用基于局部坐标编码LLC对vec(F′)进行编码，得到编码行为特征；

步骤S07：采用交叉验证的方法随机提取各人体行为对应的视频段的编码行为特征进行分类器训练，得到不同行为的行为分类器；

在样本测试时，将基于步骤S01-S06得到的对应视频段的编码行为特征作为各行为分类器的输入，输出匹配结果，取最佳匹配结果作为当前测试的视频段的识别结果。

将本发明在标准人体行为数据库Weizmann、KTH、ADL进行实验表明，本发明提出的技术方案相较于传统方案具有更好的识别准确率，并对视角变化、人体行为差异以及低分辨率具有良好的鲁棒性。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合。

Claims

1.一种基于对数欧式空间词袋模型的人体行为识别，其特征在于，包括下列步骤：

步骤1：提取输入视频的行为特征：

将输入视频分成长度固定且相互重叠的视频段，再将视频段分为固定大小且相互重叠的时空立方块；

对时空立方块中各像素点进行特征提取，得到像素点(x,y,t)的行为特征向量f(x,y,t)，其中(x,y)表示像素点的平面坐标，t表示像素点的视频帧信息；

特征提取的方式为梯度光流特征或者形状协方差特征：当采用梯度光流特征时，分别计算像素点(x,y,t)沿x、y方向的一阶、二阶梯度绝对值：|I_x|,|I_y|,|I_xx|,|I_yy|，沿x,y,t方向的光流u,v,w，以及u,v,w对t求偏导数，则f(x,y,t)＝[g,o]，其中当采用形状特征时，提取当前时空立方块的前景图像，再在前景图像中，分别计算坐标位置(x,y,t)到前景图像的轮廓边界的水平与垂直四个方向的距离d_E,d_w,d_S,d_N，坐标位置(x,y,t)到前景图像的轮廓的最小外接矩形的顶点的距离d_NE,d_SW,d_SE,d_NW；计算像素点(x,y,t)所在视频帧与当前时空立方块的起始帧的间隔帧数与当前时空立方块的结束帧的间隔帧数则

基于每个视频段的各时空立方块的行为特征向量f(x,y,t)构建协方差矩阵F：其中S表示视频段的不同时空立方块对应的区域，|S|表示时空立方块S中像素点总数目；

步骤2：采用对称正定矩阵降维方法对协方差矩阵F进行降维处理，得到降维后的协方差矩阵F′，其中F′为n*n维协方差矩阵；

将协方差矩阵F′进行特征值分解为F′＝Udiag(λ₁,λ₂,…,λ_n)U^T，diag(λ₁,λ₂,…,λ_n)是协方差矩阵F′的特征值构成的对角矩阵，再基于特征值分解F′＝Udiag(λ₁,λ₂,…,λ_n)U^T得到对数协方差矩阵log(F′)，其中log(F′)＝Udiag(log(λ₁),log(λ₂),…,log(λ_n))U^T；

将log(F′)转换为对数欧式空间的向量：

采用词袋模型进行行为建模，并对所述对数欧式空间的向量vec(F′)进行谱聚类；再基于聚类结果生成行为特征码本；

步骤3：基于行为特征码本，采用基于局部坐标编码LLC对所述对数欧式空间的向量vec(F′)进行编码，得到编码行为特征；