CN106845386B

CN106845386B - 一种基于动态时间规整与多核学习的动作识别方法

Info

Publication number: CN106845386B
Application number: CN201710032607.1A
Authority: CN
Inventors: 郑慧诚; 岑杰鹏; 王敬
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2017-01-16
Filing date: 2017-01-16
Publication date: 2019-12-03
Anticipated expiration: 2037-01-16
Also published as: CN106845386A

Abstract

本发明针对视频的人体动作识别问题，提供了一种基于动态时间规整与多核学习的动作识别方法，该方法能充分利用动作序列的全局时间结构信息和局部特征的频率分布信息，主要的改进点在于：1）基于动态时间规整方法创建了动作平均模板，这一模板包含了BoW模型表示中忽略掉的动作序列的时间信息；2）通过增广特征多核学习的方法对动作平均模板表示和BoW表示进行结合，并通过引入学习权重调整两者的贡献度；通过以上两点改进，提高动作识别的准确率。

Description

一种基于动态时间规整与多核学习的动作识别方法

技术领域

本发明涉及动作识别领域，更具体地，涉及一种基于动态时间规整与多核学习的动作识别方法。

背景技术

人体的行为识别在人机交互、智能监控、运动分析、视频检索等方面有着广泛的应用前景。例如视频监控已广泛应用于城市公共场所，如公园、街道、商场等。各类应用中产生的大量视频数据，靠传统人工方式对其进行观察辨识几乎是不可能的。一方面这需要大量的人力去观察分析视频，另一方面人的眼睛长时间盯着视频会出现疲劳、视线模糊等状况，易于造成漏报，导致不能及时处理一些紧急情况。比如，现在侦破案件大多数是靠警察事后回放视频监控录像，难以实现实时干预。若采用基于计算机的视频分析技术，则能实时分析可疑动作，及时发出警报，从而避免案件的发生。因此，基于视频的人体行为识别研究具有重要的现实意义。而在实际场景中采集到的动作视频，因其不受控因素较多，例如背景杂乱、视角变化等，实现准确可靠的动作识别仍是一个有挑战性的工作。

目前，根据视频数据的不同，可以将基于视频的动作识别研究分为基于RGB视频和基于RGB-D视频两大类。基于RGB-D视频的动作识别方法，为了获得深度图，需要采用昂贵的深度摄像头来采集视频样本。相比之下，基于RGB视频的动作识别方法则提供了较为廉价的解决方案。因此，研究基于RGB视频的动作识别问题在目前更具有实际意义。

基于RGB视频的动作识别方法主要有两大类：一类是基于深度学习的端到端模型的方法，另一类则是基于人工设计特征的传统方法。基于深度学习的端到端模型为了取得好的识别效果需要用大量的标注数据进行训练，而目前可以用于训练的动作视频数据并不多。因此将深度学习的方法用在动作识别领域取得成功，而传统方法因其训练高效、效果显著等优点仍被广泛关注和使用。

词袋模型(BoW,Bag of Words)是目前在动作识别中比较常用的一种模型。BoW模型的基本思想是将一个动作视频表示成视觉词汇的统计直方图。与其他表示方法相比，BoW模型表示对噪声、相机运动更加鲁棒，而且适合低分辨率的输入。然而，虽然BoW模型中视觉词汇的统计分布提供了对动作视频的抽象和简洁的表示，但其往往忽略了局部描述子的全局时空分布信息，而这些信息对识别动作又是相当重要的，因此该模型并不能完全表达动作的特性。为了解决这个问题，有研究人员提出了建立动作序列时间上的对齐关系的方法。但这类方法往往仅基于序列时间上的匹配进行动作识别，而这种匹配对噪声比较敏感。

发明内容

本发明为解决以上现有技术的难题，提供了一种动作识别方法，该方法通过增广特征多核学习实现了动作平均模板表示和BoW表示的结合，提高了动作识别的准确性。

为实现以上发明目的，采用的技术方案是：

一种基于动态时间规整与多核学习的动作识别方法，包括以下步骤：

一、建立BoW表示

S11.记动作类别总数为C，令第j类动作的训练动作样本集为j＝1,2,..,C，其中表示第j类动作的第i个训练动作样本，i＝1,2,..,N_j,N_j表示第j类动作的训练动作样本数；定义包含C类训练动作样本的集合其中为训练动作样本总数；

S12.对训练动作样本T_i的每帧图像提取底层描述子，基于提取的底层描述子建立起训练动作样本T_i的自相似矩阵SSM，然后基于自相似矩阵对每帧图像进行Z个不同时间尺度的SSM描述子提取；训练动作样本T_i各帧图像提取的SSM描述子按照各帧顺序形成描述子序列其中Q_i表示训练动作样本T_i的帧数目，表示第k帧的Z个SSM描述子；

S13.对各个训练动作样本进行步骤S12的操作；

S14.从所有训练动作样本的Z个时间尺度下的描述子中随机选取e个SSM描述子，然后利用k-means算法将其聚类成p个簇，p<<e，得到包含有p个词汇的码本；

S15.计算训练动作样本T_i中各个SSM描述子与码本各个词汇之间的距离，然后将训练动作样本T_i中的各个SSM描述子分别与距离最接近的词汇关联起来，即利用码本对SSM描述子进行量化，码本各个词汇关联的SSM描述子的数量形成一个直方图表示，即为训练动作样本T_i的BoW表示；

S16.对各个训练动作样本进行步骤S15的操作获取各个训练动作样本的BoW表示；

二、建立动作平均模板表示

S21.初始化j的值为1；

S22.为第j类动作构建一个初始的空的平均模板初始化i的值为1；

S23.若i＝1，令其中为训练动作样本的SSM描述子序列，跳到步骤S26；否则，利用动态时间规整方法计算平均模板与描述子序列的累加距离：

其中c_k＝(i_k,j_k)表示第k对帧，表示平均模板中的第i_k帧与描述子序列中的第j_k帧对齐，d(c_k)表示第k对帧的SSM描述子的欧式距离，ω(c_k)表示加权系数且ω(c_k)＝i_k-i_k-1+j_k-j_k-1；

S24.基于公式(1)，由最后一对对齐帧回溯至最早一对对齐帧，获得最优路径p＝{c′_l}，其中c′_l＝(i′_l,j′_l)，表示平均模板中的第i′_l帧与描述子序列中的第j′_l帧对齐，对应的描述子映射集为

S25.利用平均模板描述子序列计算新的平均模板

其中，表示新的平均模板的第l帧的描述子，表示平均模板第i′_l帧的描述子，表示描述子序列第j′_l帧的描述子，L表示最优路径上对齐帧的数目，β＝1/i；

S26.令i＝i+1然后执行步骤S23～S25，直至i＞N_j，得到第j类动作的最终的平均模板R_j；

S27.令j＝j+1然后执行步骤S22～S26，直至j＞C；

S28.通过步骤S21～S27的计算，获得C个平均模板组成的平均模板集合R＝{R₁,R₂...,R_C}，其中R_j表示第j类动作的最终的平均模板；

S29.对平均模板和训练动作样本进行量化：

S291.从所有训练动作样本的描述子中随机选取e′个SSM描述子，然后利用k-means算法将其聚类成p′个簇，p′＜＜e′，得到包含有p′个词汇的码本；

S292.分别计算训练动作样本T_i的描述子序列中每帧的SSM描述子与步骤S291中获得的码本的各个词汇之间的距离，将每帧的SSM描述子分别与距离最接近的词汇关联起来，得到训练动作样本T_i量化的描述子序列；

S293.对各个训练动作样本进行步骤S292的操作；通过步骤S292中同样的方式对各个平均模板进行量化，可得到各个平均模板量化的描述子序列；

S210.对训练动作样本T_i的量化描述子序列利用动态时间规整方法计算其与各个平均模板的量化描述子序列的平均距离，训练动作样本T_i的量化描述子序列到各个平均模板的量化描述子序列的平均距离构成一个C维向量，该C维向量为训练动作样本T_i的平均模板表示；对动作样本集合T中各训练动作样本进行同样操作获取各训练动作样本的平均模板表示；

S211.为Z个不同时间尺度分别建立平均模板表示，具体地，针对每一个时间尺度，在步骤S21～S210中利用该时间尺度的描述子进行该时间尺度下的动作平均模板的构建、码本的构建以及平均模板表示的构建；将某个训练动作样本在Z个时间尺度下分别获得的平均模板表示拼接成一个向量，作为该训练动作样本最终的平均模板表示；

三、结合BoW表示和平均模板表示的动作表示

S31.利用增广特征多核学习(AFMKL)结合BoW表示和平均模板表示，增广特征多核学习的决策函数如下：

其中x表示BoW表示，x′表示平均模板表示，ω和β表示学习权重，表示对BoW表示的非线性映射函数，φ表示对平均模板表示的非线性映射函数，b为偏置项，d₁和d₂为对BoW表示、平均模板表示进行加权的系数；

S32.通过最小化结构风险函数，建立以下的最优化问题：

其中

s.t.表示服从后面的约束，d＝[d₁,d₂]^T表示加权系数向量，表示二次正则化项，x_i表示第i个训练动作样本的BoW表示，x′_i表示第i个训练动作样本的平均模板表示，y_i∈{+1,-1}表示第i个训练动作样本的正负标签，ξ＝(ξ₁,ξ₂,...,ξ_N)^T表示松弛变量向量，ξ_i表示第i个训练动作样本的松弛变量，λ表示惩罚参数，N为训练动作样本的数目；

S33.为式(3)中每个不等式约束引入拉格朗日乘子α_i，并记α＝(α₁,α₂,...,α_N)^T为对偶变量，将式(3)中的优化问题转换为其对偶形式：

其中，α_i和α_j分别表示对第i个训练动作样本、第j个训练动作样本构成的不等式约束所引入的拉格朗日乘子；为核函数；

S34.对公式(2)在训练动作样本集上进行优化求解：

S341.固定加权系数向量d，(4)中的对偶问题转换成关于对偶变量α的优化问题，此时利用标准的SVM的求解方法对对偶变量α进行求解；

S342.固定对偶变量α，利用梯度下降的方法对加权系数向量d进行求解；

S343.迭代地进行S341和S342，直至式(2)收敛或达到最大迭代数。

S35.利用步骤S34确定加权系数向量d和对偶变量α后，得到最终的决策函数：

四、对测试动作样本进行动作识别

S41.利用第一部分的内容求取测试动作样本的BoW表示；

S42.利用第二部分的内容求取测试动作样本的平均模板表示；

S43.将测试动作样本的BoW表示、平均模板表示输入至最终的决策函数中，决策函数输出分类结果。

优选地，所述训练动作样本/测试动作样本平均模板表示中，动作样本与平均模板之间的平均距离的具体过程如下：

其中D_min表示用动态时间规整方法求取的训练动作样本/测试动作样本与平均模板之间的最短距离，ω(c′_l)表示最优路径上帧对c′_l的加权系数。

与现有技术相比，本发明的有益效果是：

本发明提供的方法主要的改进点在于：1)基于动态时间规整方法创建了动作平均模板，这一模板包含了BoW模型表示中忽略掉的动作序列的时间信息；2)通过增广特征多核学习的方法对动作平均模板表示和BoW表示进行结合，并通过引入学习权重调整两者的贡献度；通过以上两点改进，提高动作识别的准确率。

附图说明

图1为动作识别方法的流程图。

图2为构建决策函数的示意图。

图3为决策函数对测试样本进行识别的示意图。

图4为提取SSM描述子的示意图。

图5为构建动作平均模板的示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

以下结合附图和实施例对本发明做进一步的阐述。

实施例1

如图1～4所示，本发明提供的基于动态时间规整与多核学习的动作识别方法，包括以下步骤：

一、建立BoW表示

S12.考虑到不同动作样本中，动作执行的时间长度不同和执行速度的不规则变化，本发明中采用了多个时间尺度的SSM描述子；具体地，对训练动作样本T_i的每帧图像提取底层描述子，基于提取的底层描述子建立起训练动作样本T_i的自相似矩阵SSM，然后基于自相似矩阵对每帧图像进行Z个不同时间尺度的SSM描述子提取；训练动作样本T_i各帧图像提取的SSM描述子按照各帧顺序形成描述子序列其中Q_i表示训练动作样本T_i的帧数目，表示第k帧的Z个SSM描述子；

S13.对各个训练动作样本进行步骤S12的操作；

S15.计算训练动作样本T_i中各个SSM描述子与码本各个词汇之间的距离，然后将训练动作样本T_i中的各个SSM描述子分别与距离最接近的词汇关联起来，码本各个词汇关联的SSM描述子的数量形成一个直方图表示，即为训练动作样本T_i的BoW表示；

二、建立动作平均模板表示

S21.初始化j的值为1；

S25.利用平均模板描述子序列计算新的平均模板

S27.令j＝j+1然后执行步骤S22～S26，直至j＞C；

为了提高鲁棒性，获得的最终的平均模板并不直接用于构建平均模板表示，而是先将其与对应类别的训练动作样本的描述子进行关联结合。具体地，对于第j类动作，利用动态时间规整方法分别获取该类动作的训练动作样本集T^j中每个训练动作样本的描述子序列与该类动作的平均模板R_j的帧对齐关系，将与平均模板R_j同一帧对齐的训练动作样本的描述子集合在一起，并与平均模板R_j的对应帧相关联。则在后续步骤中构建某个动作样本的平均模板表示时，动作样本第f帧的描述子与平均模板R_j第g帧的描述子距离定义为：动作样本第f帧的描述子与平均模板R_j第g帧所关联的训练动作样本的描述子集合里所有描述子的距离中的最小值。

S29.为减少后续步骤中构建动作样本平均模板表示时的距离计算的计算量，对平均模板和动作样本进行量化：

S210.对训练动作样本T_i的量化描述子序列，利用动态时间规整方法计算其与各个平均模板的量化描述子序列的平均距离，训练动作样本T_i的量化描述子序列到各个平均模板的量化描述子序列的平均距离构成一个C维向量，该C维向量为训练动作样本T_i的平均模板表示；对动作样本集合T中各训练动作样本进行同样操作获取各训练动作样本的平均模板表示；

三、结合BoW表示和平均模板表示的动作表示

S32.通过最小化结构风险函数，建立以下的最优化问题：

其中

S34.对公式(2)在训练动作样本集上进行优化求解：

S343.迭代地进行S341和S342，直至式(2)收敛或达到最大迭代数。

四、对测试动作样本进行动作识别

S41.利用第一部分的内容求取测试动作样本的BoW表示；

S42.利用第二部分的内容求取测试动作样本的平均模板表示；

本发明在IXMAX数据库上进行实验。IXMAS数据集是一个多视角动作数据集。它包含11个日常动作类别，每类动作由12个人执行3次并同时从5个不同的视角录制视频，共有1980个动作样本。

首先，进行实验验证动作平均模板表示的性能。动作平均模板表示(记为AAT)和BoW表示(记为BoW)的对比实验结果如表1所示，分类器采用了SVM。表中行为训练视角，列为测试视角。如结果所示，AAT在25对视角对上的平均动作识别准确率为74.6％，明显优于BoW的平均准确率73.3％，说明了基于动态时间规整的动作平均模板表示的有效性。

表1动作平均模板表示与BoW表示的对比实验结果

进一步进行实验验证结合动作平均模板表示与BoW表示的性能。为了说明本发明提出的增广特征多核学习(AFMKL)的有效性，实验中探讨了一种已有的结合方式：增广特征SVM(AFSVM)，并将实验结果与AFMKL进行对比。直观上看，AFSVM可以利用动作平均模板和动作序列之间的相似性和区分性。其判决函数为

与公式(2)比较可得，AFSVM与AFMKL的判决函数的区别是：AFSVM没有学习权重去对两种表示进行加权。实验结果如表2所示。AFMKL的平均准确率是77.6％，比AFSVM的平均准确率76.2％高了1.4％。而无论是利用AFMKL还是AFSVM进行表示结合，其平均准确率都比仅用动作平均模板表示(74.6％)或者仅用BoW表示(73.3％)要高，说明了两者存在互补的作用，结合两种表示比单独使用某种表示能取得更好的效果，验证了本发明所提出的方法的有效性。

表2 AFMKL和AFSVM的对比实验结果

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于动态时间规整与多核学习的动作识别方法，其特征在于：包括以下步骤：

一、建立BoW表示

S11.记动作类别总数为C，令第j类动作的训练动作样本集为其中T_i ^j表示第j类动作的第i个训练动作样本，i＝1,2,..,N_j,N_j表示第j类动作的训练动作样本数；定义包含C类训练动作样本的集合其中为训练动作样本总数；

S13.对各个训练动作样本进行步骤S12的操作；

二、建立动作平均模板表示

S21.初始化j的值为1；

S23.若i＝1，令其中为训练动作样本T_i ^j的SSM描述子序列，跳到步骤S26；否则，利用动态时间规整方法计算平均模板与描述子序列的累加距离：

S25.利用平均模板描述子序列计算新的平均模板

S27.令j＝j+1然后执行步骤S22～S26，直至j＞C；

S29.对平均模板和训练动作样本进行量化：

三、结合BoW表示和平均模板表示的动作表示

S32.通过最小化结构风险函数，建立以下的最优化问题：

d_m≥0,m＝1,2.

其中

0≤α_i≤λ,i＝1,...,N.

S34.对公式(2)在训练动作样本集上进行优化求解：

S343.迭代地进行S341和S342，直至式(2)收敛或达到最大迭代数；

四、对测试动作样本进行动作识别

S41.利用第一部分的内容求取测试动作样本的BoW表示；

S42.利用第二部分的内容求取测试动作样本的平均模板表示；

2.根据权利要求1所述的基于动态时间规整与多核学习的动作识别方法，其特征在于：所述训练动作样本/测试动作样本平均模板表示中，动作样本与平均模板之间的平均距离的具体过程如下：