CN107316005B

CN107316005B - 基于稠密轨迹核协方差描述子的行为识别方法

Info

Publication number: CN107316005B
Application number: CN201710418650.1A
Authority: CN
Inventors: 同鸣; 赵梦傲; 汪厚峄; 闫娜
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2017-06-06
Filing date: 2017-06-06
Publication date: 2020-04-14
Anticipated expiration: 2037-06-06
Also published as: CN107316005A

Abstract

本发明公开了一种基于稠密轨迹核协方差描述子的行为识别方法，主要解决现有技术未能考虑不同特征之间的非线性相关性，导致行为识别准确率低的问题。实现步骤是：1)提取稠密轨迹，对轨迹立方体中的每个像素点提取特征获取底层特征矩阵；2)计算底层特征矩阵的核协方差矩阵，并将其映射到欧式空间获取向量化的特征表示；3)利用轨迹立方体中所有的特征表示构建基于稠密轨迹的核协方差矩阵描述子；4)对核协方差矩阵描述子用BOW模型进行编码获取码字直方图，利用训练集的码字直方图训练SVM，将测试集的码字直方图在训练好的SVM中进行测试，获取行为识别结果。本发明进一步提高了对行为的描述能力，可用于视频监控等复杂环境中。

Description

基于稠密轨迹核协方差描述子的行为识别方法

技术领域

本发明属于视频处理技术领域，特别涉及一种行为识别方法，可用于视频监控复杂环境中对视频行为的描述。

背景技术

视频行为识别在人机交互、虚拟现实、视频监控以及视频检索和分析等领域的广泛应用，引起了越来越多研究者的兴趣，具有重要的学术研究价值和很强的实用价值。在行为识别领域，视角变化，复杂背景等因素的存在增加了行为识别的难度，在这种情况下，由于人工局部特征对视频噪声，光照变化和复杂背景等影响具有鲁棒性，已经成为一个重要的研究方向。目前最流行的人工局部特征是基于稠密轨迹提取的梯度方向直方图HOG，光流方向直方图HOF和运动边界直方图MBH描述子，在各种具有挑战的数据库中能够获得较好的性能。然而，它们忽略了特征之间的联合统计特性，这对行为识别是非常重要的，另外，虽然协方差矩阵能够获取特征之间的相关性，但在复杂环境中，特征之间存在着较为复杂的关系，而协方差仅只能度量特征之间的线性关系，对行为主体的描述能力有限。

目前已提出的获取特征之间相关性的方法有：

(1)Bilinski P,Bremond F.Video covariance matrix logarithm for humanaction recognition in videos[C]//IJCAI 2015-24th International JointConference on Artificial Intelligence(IJCAI).2015，这种方法在稠密轨迹的基础上，提出视频协方差矩阵对数(VCML)描述子，模拟不同底层静态特征之间线性关系。该方法虽然考虑到了不同特征之间的关系，但只考虑了静态特征，并未考虑行为主体的动态特征，导致行为识别的准确率低。

(2)Yi Y,Wang H.Motion keypoint trajectory and covariance descriptorfor human action recognition[J].The Visual Computer,2017:1-13，这种方法在运动关键点轨迹的基础上构建了一个基于轨迹的协方差描述子，可以表示不同运动变量之间的线性关系，然而，该方法忽略了特征之间的非线性关系，无法在具有复杂环境的行为识别中获取特征之间存在的复杂关系。

发明内容

本发明目的是针对上述已有技术的不足，提出一种基于稠密轨迹核协方差描述子的行为识别方法，通过获取不同特征之间的非线性联合统计特性，增强对视频行为的描述能力，进一步提高行为识别的准确率。

实现本发明的技术关键是对底层特征矩阵求取核协方差矩阵，有效模拟各个特征之间的非线性关系，以构造基于稠密轨迹的核协方差矩阵描述子KCMDT，实现步骤包括如下：

(1)对视频序列提取长度为L的稠密轨迹，在每一帧中以每一个运动轨迹点为中心选取W×H大小的图像块，得到大小为W×H×L的随轨迹弯曲的轨迹立方体；

(2)对轨迹立方体中的每一个像素点，提取静态和动态特征，获取维数为d的底层特征向量；

(3)将轨迹立方体中视频帧t对应的空间区域表示为R_t，利用R_t中每个像素的底层特征向量，构建底层特征矩阵

其中，F_(s,t)表示R_t中第s个像素的底层特征向量，s∈[1,n]，n表示R_t中像素点的个数；

(4)利用对R_t构建的底层特征矩阵M_t计算核矩阵K[M_t,h]，其中，h表示特征空间的正交基；

(5)利用核矩阵K[M_t,h]求取核协方差矩阵C_t ^*，并将C_t ^*投影到欧式空间，获取R_t的向量化特征表示Q_t；

(6)将轨迹立方体分为轨迹子块，利用每个子块中所有Q_t的平均矢量作为子块的描述子，将所有子块的描述子进行串接，获取基于稠密轨迹的核协方差矩阵描述子KCMDT；

(7)将所有视频的核协方差矩阵描述子KCMDT分为训练集VF_tr和测试集VF_te，采用BOW方法进行编码,得到训练集的码字直方图VH_tr和测试集的码字直方图VH_te；

(8)利用训练集的码字直方图VH_tr训练SVM分类模型，将测试集的码字直方图VH_te输入到训练好的SVM分类模型中进行测试，获取行为识别结果。

本发明与现有技术相比具有以下优点：

本发明由于通过计算静态和动态底层特征之间的核协方差矩阵，构造了KCMDT描述子，因而能够获取底层特征之间的非线性相关性，从而进一步提高了对复杂环境中视频行为的描述能力，最终，提高了行为识别的准确率。

附图说明

图1是本发明的实现流程图。

具体实施方式

下面结合附图对本发明的实施作进一步详细描述。

参照图1，本发明的基于稠密轨迹核协方差描述子的行为识别步骤如下：

步骤1，对视频序列提取稠密轨迹，获取随轨迹弯曲的轨迹立方体。

(1.1)对视频序列进行稠密采样，以获取特征点；

(1.2)对获取的特征点在随后的视频帧中进行跟踪，获取长度为L＝15的稠密轨迹；

(1.3)在每条轨迹中，以轨迹上的每个轨迹点为中心选取W×H大小的图像块，得到大小为W×H×L的随轨迹弯曲的轨迹立方体，W＝32，H＝32；

本实例使用Wang H等人于2011年在Computer Vision and Pattern Recognition上发表的Action recognition by dense trajectories一文中的方法来提取稠密轨迹。

步骤2，对轨迹立方体中的每一个像素点获取维数为d的底层特征向量。

由于单独的静态特征或者动态特征无法对行为进行完整和全面的描述，因此，需要将静态和动态特征进行结合以获取底层特征向量，具体步骤如下：

(2.1)对轨迹立方体中的每个点，获取其空间位置信息，RGB颜色信息，并利用一维Sobel算子[-1,0,1]计算像素点I在x和y方向的梯度I_x和I_y：

由于空间梯度能够描述行为的外观信息，故可将每个像素点的空间位置信息、RGB颜色信息和I_x、I_y梯度作为底层静态特征；

(2.2)利用Gunnar

算法计算像素点的光流信息，并将光流沿x和y方向的分量表示为v_x和v_y，作为底层动态特征，光流描述了行为的运动速度信息；

(2.3)结合底层静态和动态特征，将轨迹立方体中的每个像素点用d＝13维的底层特征向量F来表示：

其中，X和Y表示空间位置；R,G,B分别表示红，绿，蓝三个通道的颜色信息；I_x和I_y为x和y方向的梯度，

和arctan(I_y/I_x)分别表示梯度的幅值和方向角；v_x和v_y为x和y方向的光流，

和arctan(v_y/v_x)分别表示光流的幅值和方向角。

步骤3，将轨迹立方体中视频帧t对应的空间区域表示为R_t，对R_t中每个像素利用步骤2中的方法获取底层特征向量，构建底层特征矩阵：

其中，F_(s,t)表示R_t中第s个像素的底层特征向量，n表示R_t中像素点的个数，n＝W×H，d为底层特征的维数。

步骤4，利用底层特征矩阵计算核矩阵K[M_t,h]。

在提取底层静态和动态特征后，虽然对行为的描述更加准确，但是没有考虑特征之间存在的非线性关系，对底层特征矩阵求取核协方差矩阵能够对特征之间的非线性关系进行描述，而求取核协方差矩阵需要首先计算核矩阵，具体步骤如下：

(4.1)通过如下公式计算核矩阵中第o行s列的元素值K_os[M_t,h]：

K_os[M_t,h]＝k(F_(s,t),h_o)，

其中，h为特征空间的正交基，h_o为正交基中第o个向量，o∈[1,d]，k(F_(s,t),ho)为核函数，该核函数可采用多项式核函数、高斯核函数、拉普拉斯核函数和幂指数核函数中的任意一种，本实例选取高斯核函数，但不限于此核函数；

(4.2)将d行n列中共d×n个元素值全部计算出来，构成核矩阵K[M_t,h]。

步骤5，利用核矩阵求取核协方差矩阵C_t ^*，并将C_t ^*投影到欧式空间，获取R_t的向量化特征表示Q_t。

对于协方差矩阵，通常有两种经典的距离度量方式：affine-invariant黎曼度量方式和Log-Euclidean黎曼度量方式，这两种度量方式有着相似的性能表现，但是Log-Euclidean度量方式比affine-invariant度量方式更加简单并且有效，因此，本实例选取Log-Euclidean度量方式将核协方差矩阵投影到欧式空间，以方便进一步对基于核协方差矩阵的描述子进行编码，步骤如下：

(5.1)利用以下公式求取核协方差矩阵C_t ^*：

C_t ^*＝K[M_t,h]*P*(K[M_t,h])^T，

其中，(·)^T表示转置，P为一个n×n的对称矩阵，P中第i行第j列的元素P_ij通过如下公式计算：

其中，i∈[1,n]，j∈[1,n]，*表示矩阵相乘；

(5.2)对核协方差矩阵C_t ^*进行奇异值分解，获取左奇异矩阵U，右奇异矩阵V和由奇异值构成的对角矩阵Σ＝diag(λ₁,λ₂,...,λ_g,...,λ_d)，其中，λ_g是C_t ^*的第g个奇异值，g∈[1,d]，diag(·)表示构成对角矩阵，利用以下公式计算矩阵对数

(5.3)计算R_t的特征表示

其中，Vec(·)表示将矩阵的上三角部分转换为一个矢量，因为核协方差矩阵是一个d×d维的对称矩阵，由d(d+1)/2个值决定，所以取上三角部分可以获取更加紧凑的形式。

步骤6，获取轨迹子块，利用每个子块中所有的Q_t计算轨迹子块的描述子，将所有轨迹子块的描述子进行串接获取基于稠密轨迹的核协方差矩阵描述子KCMDT。

(6.1)轨迹立方体的大小为W×H×L，将其进行均分，获取m个大小为W×H×l的轨迹子块，为了使每个子块均有一个紧凑的表示，将子块中所有Q_t的平均矢量作为子块的描述子：

其中，l为轨迹子块的帧长度，l＝5，m＝L/l；

(6.2)将m个轨迹子块的描述子串接，得到基于稠密轨迹的核协方差矩阵描述子KCMDT，用向量D_KCMDT来表示：

其中，

表示第c个轨迹子块的描述子，c∈[1,m]。

步骤7，利用BOW模型对基于稠密轨迹的核协方差矩阵描述子KCMDT进行编码，获取码字直方图。

将所有视频的核协方差矩阵描述子KCMDT分为训练集VF_tr和测试集VF_te，采用K-means聚类算法对训练集VF_tr进行聚类，得到包含K个码字的码书，K＝1000，将训练集VF_tr和测试集VF_te分别映射到码书中，得到训练集的码字直方图VH_tr和测试集的码字直方图VH_te。

步骤8，利用训练集的码字直方图VH_tr训练线性SVM分类模型，将测试集的码字直方图VH_te输入到训练好的线性SVM分类模型中进行测试，获取行为识别结果。

本发明的效果可通过以下实验结果进一步说明；

用本发明对较为复杂的标准人体行为数据库UCF-Sports进行行为识别实验，得到94.67％的识别正确率，实验结果证明了本发明的有效性。

以上描述仅是本发明的一个具体实例，不构成对本发明的任何限制，显然对于本领域的专业人员来说，在了解了本发明内容和原理后，都有可能在不背离本发明原理、结构的情况下，进行形式和细节上的各种修正和改变，但是，这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。

Claims

1.一种基于稠密轨迹核协方差描述子的行为识别方法，包括：

(4)利用对R_t构建的底层特征矩阵M_t计算核矩阵K[M_t,h]，按如下步骤进行：

(4a)计算核矩阵中第o行s列的元素值K_os[M_t,h]：

K_os[M_t,h]＝k(F_(s,t),h_o)

其中，h表示特征空间的正交基，h_o为正交基中第o个向量,o∈[1,d]，k(F_(s,t),h_o)为高斯核函数；

(4b)将d行n列中共d×n个元素值全部计算出来，构成核矩阵K[M_t,h]；

2.根据权利要求1所述的方法，其中步骤(2)中对轨迹立方体中的每一个像素点，提取静态和动态特征，获取维数为d的底层特征向量，按如下步骤进行：

(2a)对轨迹立方体中的每个像素点，获取其空间位置信息和RGB颜色信息，并利用一维Sobel算子[-1,0,1]计算像素点I在x和y方向的梯度I_x和I_y：

(2b)将每个像素点的空间位置信息，RGB颜色信息和梯度I_x和I_y作为底层静态特征；

(2c)利用Gunnar

算法计算像素点的光流v，并将光流v沿x和y方向的分量表示为v_x和v_y，作为底层动态特征；

(2d)将轨迹立方体中每个像素点获取的底层静态特征和底层动态特征进行结合，得到d维的底层特征向量F：

其中，X和Y表示像素点的空间位置；R,G,B分别表示红，绿，蓝三个通道的颜色信息；I_x和I_y分别为x和y方向的梯度，

和arctan(I_y/I_x)分别表示梯度的幅值和方向角；v_x和v_y分别为x和y方向的光流，

和arctan(v_y/v_x)分别表示光流的幅值和方向角。

3.根据权利要求1所述的方法，其中步骤(5)中利用核矩阵K[M_t,h]求取核协方差矩阵C_t ^*，并将C_t ^*投影到欧式空间，获取R_t的向量化特征表示Q_t，按如下步骤进行：

(5a)利用以下公式求取核协方差矩阵C_t ^*：

C_t ^*＝K[M_t,h]*P*(K[M_t,h])^T,

其中，K[M_t,h]为d×n的核矩阵，(·)^T表示转置，P为一个n×n的对称矩阵，P中第i行第j列的元素P_ij计算式如下：

其中，i∈[1,n]，j∈[1,n]，*表示矩阵相乘；

(5b)对核协方差矩阵C_t ^*进行奇异值分解，获取左奇异矩阵U，右奇异矩阵V和由奇异值构成的对角矩阵Σ＝diag(λ₁,λ₂,...,λ_g,...,λ_d)，其中，λ_g是C_t ^*的第g个奇异值，g∈[1,d]，diag(·)表示构成对角矩阵，利用以下公式计算矩阵对数

(5c)计算R_t的向量化特征表示

其中，Vec(·)表示将矩阵的上三角部分转换为一个矢量。

4.根据权利要求1所述的方法，其中步骤(6)中将轨迹立方体分为轨迹子块，利用每个子块中所有Q_t的平均矢量作为子块的描述子，将所有子块的描述子进行串接，按如下步骤进行：

(6a)轨迹立方体的大小为W×H×L，将其进行均分，得到m个大小为W×H×l的轨迹子块，将每个子块中所有Q_t的平均矢量作为子块的描述子

其中，l为轨迹子块的帧长度，m＝L/l；

(6b)串接m个轨迹子块的描述子以获取基于稠密轨迹的核协方差矩阵描述子：

其中，

表示第c个轨迹子块的描述子，c∈[1,m]。