CN108256435B

CN108256435B - 基于部件因果关系的视频行为识别方法

Info

Publication number: CN108256435B
Application number: CN201711415788.2A
Authority: CN
Inventors: 同鸣; 闫娜; 陈逸然; 田伟娟
Original assignee: Xian University of Electronic Science and Technology
Current assignee: Xian University of Electronic Science and Technology
Priority date: 2017-12-25
Filing date: 2017-12-25
Publication date: 2019-10-11
Anticipated expiration: 2037-12-25
Also published as: CN108256435A

Abstract

本发明公开了一种基于部件因果关系的视频行为识别方法，主要解决现有方法忽略了行为部件间的因果关系，而导致行为识别准确率低的问题。其实现步骤是：1)提取视频的稠密轨迹，获取轨迹点的3D坐标和轨迹底层特征；2)利用轨迹点的3D坐标进行轨迹聚类，以获取行为部件；3)计算部件间因果关系比率，训练成对部件对应的分类器并获取判分，以构建部件间因果关系描述子，并作为中层语义表示；4)对中层语义表示进行PCA降维，并利用SVM分类器进行行为识别。本发明能够获取更丰富的中层语义表示，进一步提高了行为识别的准确率，可用于人机交互。

Description

基于部件因果关系的视频行为识别方法

技术领域

本发明属于视频处理技术领域，特别涉及一种视频行为识别方法，可用于人机交互。

背景技术

视频人体行为识别是计算机视觉研究领域的关键问题，随着社会媒体共享的快速发展，人们需要及时处理大量的多媒体数据，尤其是包含人体行为的视频数据，人体行为识别作为视频分析和理解的关键技术，重要的学术价值、广泛的应用前景以及潜在的商业价值和社会价值，使其成为计算机视觉研究的研究热点。早期的行为识别方法通常只专注于底层特征的优化设计，虽取得了一定成就，但通常只表示了行为视频的底层视觉信息，表达能力非常有限，而中层特征涵盖了丰富的语义信息，越来越受到研究者的重视和青睐。目前比较主流的中层语义的提取方法主要包括以下两种，一种是基于深度学习的中层语义挖掘，另一种是基于部件的中层语义挖掘。基于深度学习的中层语义挖掘虽能挖掘到更抽象的特征信息，但需要较大的计算消耗。然而，以上两种方法构建的中层语义，虽然对底层特征进行了较好的提炼和总结，但并没有进一步挖掘中层语义间存在的较为复杂的交互关系，如因果关系等，而这种关系能够增强中层语义的表现力，进一步提高行为识别的准确率。

目前已提出的基于部件的中层语义表示方法主要有以下两种：

(1)J.Zhu,B.Wang,X.Yang,W.Zhang,Z.Tu等人于2013年在IEEE InternationalConference on Computer Vision提出了“利用actons进行行为识别的方法”，这种方法将池化思想引入中层语义中，通过对轨迹描述子的局部软量化编码特征进行池化，获取中层语义actons，实现了有效的行为识别，然而，该方法忽略了actons之间的因果相互关系，使中层语义的表达能力和识别效果受到限制。

(2)Lan T,Zhu Y,Roshan Zamir等人于2015年在Proceedings of the IEEEInternational Conference on Computer Vision提出了“一种利用中层行为元素进行行为识别的方法”，这种方法在轨迹特征的基础上，分别在时间和空间上对行为进行精细分割，使用线性SVM对谱聚类后获得的聚类簇进行判别式约束，筛选出差异性较大的聚类簇作为中层行为元素。该方法虽然考虑了中层行为元素之间的层次关系，但未准确描述各个中层行为元素之间存在的因果关系，阻碍了行为识别结果的进一步提高。

发明内容

本发明目的在于针对上述已有方法的不足，提出一种基于部件因果关系的视频行为识别方法，通过挖掘部件之间的因果关系，增强中层语义表示对行为的描述能力，进一步提高视频行为识别的准确率。

为实现上述目的，本发明包括：

(1)对所有行为视频提取稠密轨迹，获取所有轨迹点的3D坐标，并构建方向梯度直方图HOG和光流方向直方图HOF，将HOG和HOF进行串接后作为轨迹的底层特征；

(2)利用轨迹点的3D坐标，对轨迹进行k-means聚类，以获取行为部件；

(3)将行为视频V所属行为类别中的任意两个不同的行为部件表示为X_u和X_v，构成成对的部件表示(X_u,X_v)，利用X_u和X_v对应轨迹的底层特征，来训练(X_u,X_v)对应的部件分类器获取行为视频V在下的判分score(V,(X_u,X_v))，其中，u,v∈[1,b]且u≠v，b为行为视频V所属行为类别中的部件个数；

(4)利用格兰杰因果关系方法，计算两个部件的因果关系比率，其中包括X_u对X_v的因果关系比率CR_u,v，以及X_v对X_u的因果关系比率CR_v,u，并计算视频V在成对部件(X_u,X_v)下，X_u对X_v的因果关系强度以及X_v对X_u的因果关系强度

(5)将视频V在其所属类别中，所有成对部件下的因果关系强度进行串接，得到视频V的部件间因果关系描述子M_{Feat_cas}(V)，并将其作为中层语义表示；

(6)将获取的中层语义表示进行PCA降维，获取降维后的中层语义表示；

(7)将所有行为视频分为训练集和测试集，利用训练集对应降维后的中层语义表示，训练中层语义的SVM分类器，将测试集对应降维后的中层语义表示，输入到训练好的SVM分类器中进行测试，获取行为识别的结果。

本发明与现有技术相比具有以下优点：

本发明通过获取行为部件，将身体各个部位的运动分离出来，不仅对各个部件的运动分别进行了描述，而且考虑了各个部件之间存在的因果关系，能够获取更加丰富的语义信息，提高了对视频行为的描述能力，进一步提高了行为识别的准确率。

附图说明

图1是本发明的实现流程图。

具体实施方式

下面结合附图，对本发明的实施进一步详细描述。

参照图1，本发明的基于部件因果关系的行为识别方法，步骤如下：

步骤1，对所有行为视频提取稠密轨迹，并获取所有轨迹点的3D坐标和轨迹的底层特征。

本步骤使用Wang H等人于2013年在Proceedings of the IEEE InternationalConference on Computer Vision上发表的Action recognition with improvedtrajectories一文中的方法来提取稠密轨迹，其步骤如下：

(1.1)对视频进行稠密采样获取特征点，对特征点进行跟踪，得到长度为L＝15的稠密轨迹，获取所有轨迹点的3D坐标；

(1.2)以轨迹为中心，在轨迹周围提取N×N像素的子空间区域，得到随轨迹弯曲的轨迹立方体，N＝32；

(1.3)在得到的轨迹立方体中，分别提取方向梯度直方图HOG和光流方向直方图HOF特征，将这两个特征进行串接后作为轨迹的底层特征。

步骤2，分别对每类视频的轨迹进行k-means聚类，以获取行为部件。

在聚类过程中，为了保证轨迹之间的空间位置相近，采用空间距离进行相似性度量，具体步骤如下：

(2.1)对于每类视频中的任意两条轨迹T_f和T_m，其时域重叠区间为o(T_f,T_m)，轨迹T_f与T_m间的空间距离为d_fm计算如下：

其中，其中T_f表示第f条轨迹，T_m表示第m条轨迹，和分别表示轨迹T_f和T_m在第t帧上的轨迹点坐标，avg(·)表示求取平均值，||·||₂表示求取欧氏距离，f,m∈[1,B]且f≠m，B为轨迹的数目；

(2.2)利用轨迹间的空间距离，对每类视频的轨迹进行k-means聚类，获取k个聚类簇，也就是k个行为部件。

步骤3，训练成对部件(X_u,X_v)对应的分类器获取视频V在下的判分score(V,(X_u,X_v))。

将视频V所属类别中的任意两个行为部件表示为X_u和X_v，构成的成对部件表示为(X_u,X_v)，利用X_u和X_v所对应的轨迹底层特征，训练成对部件(X_u,X_v)对应的分类器并获取视频V在下的判分score(V,(X_u,X_v))，代表部件X_u和X_v同时在视频V中发生的概率，其中，u,v∈[1,b]且u≠v，b为视频V所属类别中的部件个数。

步骤4，利用格兰杰因果关系方法，计算部件X_u对X_v的因果关系比率CR_u,v，以及X_v对X_u的因果关系比率CR_v,u，并计算视频V在成对部件(X_u,X_v)下X_u对X_v的因果关系强度以及X_v对X_u的因果关系强度

在一个运动周期内，运动主体的各运动部件之间通常具有丰富的因果关系，可通过部件间因果关系强度来描述，捕捉这种关系能够更好地描述视频行为，具体步骤如下：

(4.1)根据格兰杰因果关系方法，将两个信号分别表示为p_t和q_t，对p_t进行预测有以下两种方式，一种方式是，只利用p_t过去的样本来预测p_t，表示如下：

另一种方式是，利用p_t和q_t过去的样本共同预测p_t，表示如下：

其中，B表示只利用p_t过去的样本来预测p_t时，p_t过去的样本对应的预测系数矩阵；

E表示利用p_t和q_t过去的样本共同预测p_t时，p_t过去样本对应的预测系数矩阵；

R表示利用p_t和q_t过去的样本共同预测p_t时，q_t过去样本对应的预测系数矩阵；

ε₁表示只利用p_t过去的样本来预测p_t产生的预测误差，其方差为Σ₁；

ε₂表示利用p_t和q_t过去的样本共同预测p_t产生的预测误差，其方差为Σ₂；

表示p_t延时了h的m阶信号，表示q_t延时了h的m阶信号，即：

其中，m＝3，h＝3；

(4.2)利用ε₁的方差Σ₁和ε₂的方差Σ₂，来计算q_t对p_t的因果关系比率CR_q,p＝trace(∑₁)/trace(∑₂)，trace(·)表示矩阵求迹；

(4.3)分别对部件X_u和X_v内的轨迹求平均，得到平均轨迹和将和视为两个信号，利用(4.1)～(4.2)中的方法，分别计算对的因果关系比率以及对的因果关系比率

(4.4)利用以下公式，分别计算部件X_u对X_v的因果关系比率CR_u,v，以及X_v对X_u的因果关系比率CR_v,u：

其中，N_u表示部件X_u中轨迹的数目，N_v表示部件X_v中轨迹的数目；

(4.5)利用以下公式，分别计算视频V在成对部件(X_u,X_v)下，X_u对X_v的因果关系强度以及X_v对X_u的因果关系强度

步骤5，将视频V在其所属类别中所有成对部件下的因果关系强度进行串接，得到视频V的部件间因果关系描述子M_{Feat_cas}(V)，并将其作为中层语义表示。

步骤6，将获取的中层语义表示进行PCA降维，获取降维后的中层语义表示。

常见的降维方法有PCA、ICA、LDA，LLE和KDA等，本实例选用PCA进行降维。

步骤7，利用所有视频降维后的中层语义表示，获取行为识别的结果。

(7.1)将所有的视频分为训练集和测试集，利用训练集对应降维后的中层语义表示，来训练中层语义的SVM分类器，在训练过程中学习SVM分类器的参数，得到训练好的SVM分类器；

(7.2)将测试集对应降维后中层语义表示，输入到训练好的SVM分类器中进行测试，获取行为识别的结果。

本发明的效果可通过以下实验结果进一步说明；

用本发明在标准人体行为数据库KTH和UCF-Sports上进行行为识别实验，能够分别得到95.65％和95.33％的识别正确率，实验结果证明了本发明的有效性。

以上描述仅是本发明的一个具体实例，不构成对本发明的任何限制，显然对于本领域的专业人员来说，在了解了本发明内容和原理后，都有可能在不背离本发明原理、结构的情况下，进行形式和细节上的各种修正和改变，但是，这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。

Claims

1.一种基于部件因果关系的视频行为识别方法，包括如下步骤：

(3)将行为视频V所属行为类别中的任意两个不同的行为部件表示为X_u和X_v，构成成对的部件表示(X_u,X_v)，利用X_u和X_v对应轨迹的底层特征，来训练(X_u,X_v)对应的部件分类器获取行为视频V在下的判分score(V,(X_u,X_v))，其中，u,v∈[1,b]且u≠v，u表示行为部件X_u的索引，v表示行为部件X_v的索引，b为行为视频V所属行为类别中的部件个数；

2.根据权利要求1所述的方法，其中所述步骤(2)，按如下步骤进行：

(2a)对于每类视频中的任意两条轨迹T_f和T_m，其时域重叠区间为o(T_f,T_m)，计算这两条轨迹T_f和T_m的空间距离为d_fm：

其中，T_f表示第f条轨迹，T_m表示第m条轨迹，和分别表示轨迹T_f和T_m在第t帧上的坐标，avg(·)表示求取平均值，||·||₂表示求取欧氏距离，f,m∈[1,B]且f≠m，B为轨迹的数目；

(2b)利用轨迹间的空间距离，对每类视频的轨迹进行k-means聚类，获取k个聚类簇，也就是k个行为部件。

3.根据权利要求1所述的方法，其中步骤(4)中利用格兰杰因果关系方法，计算两个部件的因果关系比率，按如下步骤进行：

(4a)根据格兰杰因果关系法，用p_t和q_t分别表示两个不同的信号；

(4b)p_t的两种预测表示形式为：

只利用p_t过去的样本，来预测p_t的形式：

利用p_t和q_t两种过去的样本，共同预测p_t的形式：

表示p_t延时了h的m阶信号；

表示q_t延时了h的m阶信号；

(4c)利用ε₁的方差Σ₁和ε₂的方差Σ₂，计算q_t对p_t的因果关系比率：CR_q,p＝trace(∑₁)/trace(∑₂)，trace(·)表示矩阵求迹；

(4d)分别对两个不同部件X_u和X_v内的轨迹求平均，得到平均轨迹和将和视为两个信号，利用(4a)～(4c)中的方法，分别计算对的因果关系比率和对的因果关系比率

(4e)进一步分别计算X_u对X_v的因果关系比率CR_u,v和X_v对X_u的因果关系比率CR_v,u：

其中，N_u和N_v分别表示部件X_u和X_v中轨迹的数目。