CN107203745B

CN107203745B - 一种基于跨域学习的跨视角动作识别方法

Info

Publication number: CN107203745B
Application number: CN201710330526.XA
Authority: CN
Inventors: 聂为之; 张欣
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2017-05-11
Filing date: 2017-05-11
Publication date: 2020-06-26
Anticipated expiration: 2037-05-11
Also published as: CN107203745A

Abstract

本发明公开了一种基于跨域学习的跨视角动作识别方法，所述方法包括以下步骤：对目标域和源域的视频数据分别提取视觉特征，采用视觉词袋模型作为视觉表示，形成原始特征向量集；通过变换矩阵将来自不同视图的原始特征变换到公共特征空间中，将原始特征和变换特征结合，分别形成目标域和源域新的特征映射函数，构成新的特征向量集；采用基于标准支持向量机的跨域学习方法训练变换矩阵，并为每个人体动作生成最终分类器；利用分类器对待测视频进行动作类别的判定，得到最终的识别结果。本发明避免了传统动作识别场景中对摄像机空间位置信息的依赖，应用两个变换矩阵使不同的视角域映射到一个共同的特征空间，有效地提高了跨视角动作识别的准确率。

Description

一种基于跨域学习的跨视角动作识别方法

技术领域

本发明涉及跨视角动作识别领域，尤其涉及一种基于跨域学习的跨视角动作识别方法。

背景技术

动作识别是计算机视觉领域的一个研究热点，其中人体动作识别已经吸引了越来越多的关注，它在视频监控，异常事件监测和人机交互中起着重要作用。近年来已有很多优秀的方法成功应用在单视图人类行为数据集^[1,2,3]中，但是现有的动作识别方法大多基于同一视角的假设，在固定的视角场景中提取动作特征并构建识别模型。而在真实的应用场景中，由于摄像机角度和位置的变化，同一动作的人体形态和运动轨迹均会发生显著的变化，相应的数据分布和所在的特征空间也会发生改变。因此，在多个视角中进行跨视角的动作识别仍然是一个具有挑战性的课题。

近年来，许多研究人员开始关注跨视角人类行为识别。人类行为是一种时空模型，所以存在两个重要的问题，分别是鲁棒的时空特征和视觉模型的建模。

在特征表示方面，很多研究方法都是基于局部兴趣点的。时空显著性的流行特征是时空兴趣点(Space time Interest Points,STIP)特征^[4]，它使用导向光流直方图(Histogramsof Oriented Optical Flow,HOF)^[5]和方向梯度直方图(Histogram ofOriented Gradient,HOG)^[6]的局部梯度和光流的分布；Shao等人^[7]提出了隐藏和嵌入动作识别不同的特征表示，用不同权重对不同特征进行编码以实现低维和鲁棒的特征，从而提高识别的准确性；Rao等人^[8]提出使用2D帧的时空结构捕获动作的戏剧性变化，这种方法需要可靠的身体关节检测和跟踪，这在计算机视觉中仍然很困难；最近，Zheng等人^[9]提出通过稀疏编码提取高级特征以减少不同视图之间的特征差异。

在模型学习方面，传统的跨域学习方法是基于目标域和辅助域具有相同分布的假设，然而这个假设在多视图人类行为识别中是不现实的。Wang等人^[10]使用重新加权的方法重新定义训练样本进行学习，减少两个领域之间的特征差距，同时应用自学方法寻找新的特征表示，以提高目标域的学习表现；Xu等人^[11]提出了一种改良的域转移支持向量机(Domain transfer support vector machine,DTSVM)学习方法，它利用两个域之间的距离矩阵作为训练分类器的惩罚函数，在网络视频概念检测中表现出很好的性能；Zhu等人^[12]提出了一种跨域字典弱监督学习方法，利用其他视域的弱标记数据作为辅助源数据，以增强原始学习系统，提高识别性能。

跨视角人体动作识别目前需要解决的两个关键问题是：

1)采用鲁棒的特征描述符来表征来自不同视角的人体动作；

2)采用优秀的机器学习方法，减少从不同视图提取的动作特征之间的差异。

发明内容

本发明提供了一种基于跨域学习的跨视角动作识别方法，本发明避免了传统动作识别场景中对摄像机空间位置信息的依赖，应用两个变换矩阵使不同的视角域映射到一个共同的特征空间，有效地提高了跨视角动作识别的准确率，详见下文描述：

一种基于跨域学习的跨视角动作识别方法，所述方法包括以下步骤：

对目标域和源域的视频数据分别提取视觉特征，采用视觉词袋模型作为视觉表示，形成原始特征向量集；

通过变换矩阵将来自不同视图的原始特征变换到公共特征空间中，将原始特征和变换特征结合，分别形成目标域和源域新的特征映射函数，构成新的特征向量集；

采用基于标准支持向量机的跨域学习方法训练变换矩阵，并为每个人体动作生成最终分类器；利用分类器对待测视频进行动作类别的判定，得到最终的识别结果。

其中，所述方法还包括：

采集不同视角下的人体动作视频数据，构建多视角的人体动作数据集，从人体动作数据集中选择一个视角作为目标域，其他数据作为源域。

其中，所述采用视觉词袋模型作为视觉表示，形成原始特征向量集的步骤具体为：

利用K均值分别将目标域、源域的特征描述符量化为若干个视觉词汇，形成码本；

根据码本生成直方图，形成目标域原始特征向量集和源域原始特征向量集。

本发明提供的技术方案的有益效果是：

1、避免了采集动作视频时对摄像机空间位置信息的依赖，可以用来处理跨视角人体动作数据库的动作识别问题，具有更广泛的适用性；

2、采用两个变换矩阵做特征映射，减少了不同域之间的差异，同时增加了训练样本的大小，提高分类器的性能；

3、模型学习中使用块加权核函数矩阵(即后续的核矩阵)来突出显著性分量，提高了模型的判别能力。

附图说明

图1为一种基于跨域学习的跨视角动作识别方法的流程图；

图2为IXMAS(洛桑联邦理工学院运动获取数据库)多视角人体动作数据集的样本示例。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

为了解决背景技术中存在的问题，需要提供一种能够全面、自动、准确对跨视角情况下的人体动作进行识别的方法。研究表明：将来自不同视图的动作特征变换到一个公共特征空间中，不同视角下的人体动作就可以在这个公共空间中进行比较。

实施例1

本发明实施例提出了一种基于跨域学习的跨视角动作识别方法，参见图1，详见下文描述：

101：对目标域和源域的视频数据分别提取视觉特征，采用视觉词袋模型作为视觉表示，形成原始特征向量集；

102：通过变换矩阵将来自不同视图的原始特征变换到公共特征空间中，将原始特征和变换特征结合，分别形成目标域和源域新的特征映射函数，构成新的特征向量集；

103：采用基于标准支持向量机的跨域学习方法训练变换矩阵，并为每个人体动作生成最终分类器；利用分类器对待测视频进行动作类别的判定，得到最终的识别结果。

在步骤101之前，本方法还包括：采集不同视角下的人体动作视频数据，构建多视角的人体动作数据集，从人体动作数据集中选择一个视角作为目标域，其他数据作为源域。

如上所述，本发明实施例避免了传统动作识别场景中对摄像机空间位置信息的依赖，应用两个变换矩阵使不同的视角域映射到一个共同的特征空间，有效地提高了跨视角动作识别的准确率。

实施例2

下面结合具体的计算公式、附图对实施例1中的方案进行进一步地介绍，详见下文描述：

201：采集不同视角下的人体动作视频数据，构建多视角的人体动作数据集，从人体动作数据集中选择一个视角作为目标域，其他数据作为源域(即辅助域)；

其中，人体动作视频数据来自于IXMAS多视角动作识别数据库^[13]。图2给出了IXMAS多视角数据集的样本示例，每列显示不同视角下的同一个动作。该数据集包含11个日常动作，分别是：检查手表、交叉臂、挠头、坐下、起床、转身、走路、招手、出拳、踢腿和捡东西，每个动作由10个非职业演员表演3次，并且由不同位置的5个摄像机(即5个视角，分别对应图2中的五行)同时拍摄每个动作。

本发明实例选择成对视图(两个视角)来进行测试。首先在IXMAS中选择一个视角(视角1)拍摄的数据作为目标域，另外一个视角(视角2)拍摄的数据作为源域；其次，再用视角2的数据用作目标域，视角1的数据用作辅助域，也进行相同的实验。因此，对于IXMAS，有10组实验。

即，实验1：视角1为目标域，2为源域；实验2：视角2为目标域，1为源域；实验3：视角1为目标域，3为源域；实验4：视角3为目标域，1为源域等。

在实验过程中，从目标域中选择一个人(任意1人)的动作作为测试数据，从目标域中随机选择其他人(另外9人)的动作数据与来自另一个视角的相同动作数据作为模型学习的训练样本。

例如：选择图2中的第一行的视角(作为视角1)拍摄的转身、捡东西等动作的数据作为目标域，第二行的视角(作为视角2)拍摄的转身、捡东西等动作的数据作为源域。在目标域中选择一个人的转身动作作为测试数据，其余9人的所有动作(包括转身、捡东西等)数据、与源域中的转身动作数据作为模型学习的训练样本。

这个实验设置可以保证目标域的训练样本的数量小于源域，同时更适合于现实世界。因为在现实世界中，很难得到目标域的视角信息，但是可以容易地获得源域的视角信息。

202：对目标域和源域的视频数据分别提取视觉特征，然后采用视觉词袋模型作为视觉表示，形成原始特征向量集；

其中，视觉特征采用STIP特征^[9]，应用导向光流直方图(HOF)和方向梯度直方图(HOG)描述兴趣点，其中HOF可以表示时间信息，HOG可以表示空间信息。

采用视觉词袋模型作为视觉表示，形成原始特征向量集的步骤具体为：

利用K均值分别将目标域和源域的STIP特征描述符量化为1000个视觉词汇形成码本，根据码本生成直方图，形成目标域原始特征向量集

和源域原始特征向量集

为目标样本，R为实数集，d_t为目标域特征维数，n_t为目标域样本个数，

为源域样本，d_s为源域特征维数，n_s为源域样本个数。

203：添加两个变换矩阵，将来自不同视图的原始特征变换到公共特征空间中，同时将原始特征和变换特征结合，分别形成目标域和源域新的特征映射函数，构成新的特征向量集；

其中，公共特征空间定义为

d_c为公共特征维数。则任何源域样本

和目标样本

可以分别通过使用两个变换矩阵

和

投影到公共特征空间上。

当使用P和Q将来自两个不同视图的动作特征变换到同一个空间的过程中，可能会丢失一些有用的信息，为避免这种情况，将变换特征与原始特征结合，通过如下的增强特征映射函数φ_s和φ_t增强源域样本

和目标样本

其中，

表示所有元素均为0的d×1维列向量。

204：采用基于标准支持向量机的跨域学习方法训练上述的两个变换矩阵，并为每个人体动作生成最终分类器；

在本部分，将上标’表示为向量或矩阵的转置。定义增强特征空间的特征权重向量w＝[w_c,w_s,w_t]，w_c，　w_s，w_t分别为向量中的元素，特征权重向量w的取值通过对下述公式(1)的优化问题迭代学习。

通过最小化标准支持向量机的结构风险函数^[14]，提出如下的公式学习变换矩阵P和Q以及权重向量w：

其中，

和

分别是样本

和

的标签，且

C＞0是调节训练样本损失的正则化参数；预定义λ_q,λ_p＞0用以分别控制P和Q的复杂度，其中

为SVM训练函数自带的参数，属于SVM基础理论，本发明实施例对这几个参数不做赘述。

其中，参数C、λ_q、λ_p的具体取值根据实际应用中的需要进行设定，本发明实施例对此不做限制。

为解方程(1)，首先导出方程(1)中关于w,b,

的内部优化问题的对偶形式(即每一个线性规划问题都伴随有另一个线性规划问题，该部分为本领域技术人员所公知，本发明实施例对此不做赘述)。

具体来说，为方程(2)中的约束引入双变量

和

通过设置方程(1)中关于w,b,

的拉格朗日导数等于零，获得Karush-Kuhn-Tucker(KKT)条件：

通过KKT条件，得到如下的替代优化问题：

其中，α是对偶变量的向量，y是标签向量，分别包括目标标签和源标签，K_P,Q为与P、Q有关的矩阵，

为所有元素为1的(n_s+n_t)×1维列向量，

为所有元素为0的(n_s+n_t)×1维列向量。

定义I_n为n×n单位矩阵，I_n×m为所有元素为零的n×m维矩阵；定义

为所有元素为0或1的n×1维列向量；不等式a≤b意味着对于i＝1,...,n.有a_i≤b_i；此外，

表示矢量a和b之间的逐元素积。

由式(2)导出的核矩阵K_P,Q如下所示：

其中，

为n_s×n_s单位矩阵，

为n_t×n_t单位矩阵。

通过观察，可以发现投影矩阵P和Q总是以P′P,P′Q,Q′P和Q′Q的形式出现，所以可以通过定义中间变量H＝[P，Q]'[P，Q]，丢弃P和Q，使公共子空间变成潜在的。

通过H的引入，将方程式(2)中的优化问题转换如下最后拟定的方法：

trace(H)≤λ,

其中，K_H为与中间变量H有关的矩阵，trace(H)为K_H的迹。

通过上述处理，通过迭代更新α和H来解决上述的方程(3)。

在获得解α和H之后，可以通过使用以下决策函数作为最终的分类器来预测目标域中的任何测试样本：

其中，

和k(x_i,x_j)＝φ(x_i)'φ(x_j)是两个数据样本x_i和x_j的预定义核函数。β_s和β_t的具体取值根据实际应用中的需要进行设定。

205：利用训练好的分类器对待测视频进行动作类别的判定，得到最终的识别结果。

参考文献

[1]S.Gourgari,G.Goudelis,K.Karpouzis,S.D.Kollias,THETIS:ThreeDimensional Tennis Shots a Human Action Dataset,CVPR Workshops,2013.pp.676–681.

[2]K.K.Reddy,N.P.Cuntoor,A.G.A.Perera,A.Hoogs,Human ActionRecognition in Large-Scale Datasets Using Histogram of SpatiotemporalGradients,AVSS,2012.pp.106–111.

[3]S.Singh,S.A.Velastin,H.Ragheb,MuHAVi:A Multicamera Human ActionVideo Dataset for the Evaluation of Action Recognition Methods,AVSS,2010.pp.48–55.

[4]H.Wang,M.M.Ullah,A.K

I.Laptev,C.Schmid,Evaluation of LocalSpatio-Temporal Features for Action Recognition,BMVC,2009.pp.1–11.

[5]J.

M.Hagara,One-Shot-Learning Gesture Recognition UsingHOG-HOF Features,CoRR abs/1312.4190,2013.

[6]K.Onishi,T.Takiguchi,Y.Ariki,3D Human Posture Estimation Using theHOG Features From Monocular Image,ICPR,2008.pp.1–4.

[7]L.Shao,L.Liu,M.Yu,Kernelized multiview projection for robustaction recognition,Int.J.Comput.Vis.(2015)http://dx.doi.org/10.1007/s11263-015-0861-6.

[8]C.Rao,A.Yilmaz,M.Shah,View-invariant representation andrecognition of actions,Int.J.Comput.Vis.50(2)(2002)203–226.

[9]J.Zheng,Z.Jiang,P.J.Phillips,R.Chellappa,Cross-View ActionRecognition via a Transferable Dictionary Pair,BMVC,2012.pp.1–11.

[10]H.Wang,F.Nie,H.Huang,Robust and Discriminative Self-TaughtLearning,ICML(3),2013.pp.298–306.

[11]L.Duan,I.W.-H.Tsang,D.Xu,S.J.Maybank,Domain Transfer SVM forVideo Concept Detection,CVPR,2009.pp.1375–1381.

[12]F.Zhu,L.Shao,Weakly-supervised cross-domain dictionary learningfor visual recognition,Int.J.Comput.Vis.109(1-2)(2014)42–59.http://dx.doi.org/10.1007/s11263-014-0703-y.

[13]D.Weinland,M.

P.Fua,Making Action Recognition Robust toOcclusions and Viewpoint Changes,ECCV(3),2010.pp.635–648.

[14]N.Cristianini,J.Shawe-Taylor,An introduction to support vectormachines[J].2000.

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。