CN111488840A

CN111488840A - 一种基于多任务学习模型的人体行为分类方法

Info

Publication number: CN111488840A
Application number: CN202010293489.1A
Authority: CN
Inventors: 徐增敏; 李姣芬; 李向利; 丁勇; 李春海; 蒙儒省; 罗劲锋; 徐波
Original assignee: Guilin Anview Technology Co ltd; Guilin University of Electronic Technology
Current assignee: Guilin Anview Technology Co ltd; Guilin University of Electronic Technology
Priority date: 2020-04-15
Filing date: 2020-04-15
Publication date: 2020-08-04

Abstract

本发明公开了一种基于多任务学习模型的人体行为分类方法，包括划分有标签数据和无标签数据；基于类内相似图模型和类间相似图模型建立多流形和标签一致性模型；基于图嵌入方法对多流形和分类器训练建立多任务学习模型；提取训练集特征并对特征进行降维；获取特征输入至多任务学习模型进行训练得到分类器结果。通过对视频中人物动作的数据分布和特征关联进行分析，结合多流形分析和多任务学习重新定义目标函数，挖掘出行为特征之间的内在联系；利用谱投影梯度方法和KKT条件求解多分类器目标函数的最优值；运用半监督学习算法，将已标注视频和未标注视频样本作为训练样本，同时放入分类器训练过程以提高分类器性能，从而提高了识别精度。

Description

一种基于多任务学习模型的人体行为分类方法

技术领域

本发明涉及视频处理技术领域，尤其涉及一种基于多任务学习模型的人体行为分类方法。

背景技术

人体行为检测是计算机科学领域的一个重点研究方向，它可以运用于智能安防监控以及网络不良视频审核等等方面。随着信息时代与大数据时代的到来，大量的视频数据被人们生产创造出来，这有利于人体行为检测研究的进展。目前大多数研究工作均采用深度学习方法来实现行为识别，这有赖于大量人工标注的训练样本数据。当面对大量未标注的样本数据时，手工标注的时间成本和人力成本都非常高。虽然已经有一些大型公开数据集可供使用，如Sports1M、YouTube8M和ActivityNet，但是这些数据集中的视频仅限于体育竞赛、电影娱乐或日常自拍等，而且整理这些视频需要大量的时间和精力。相比之下，在实际监控应用中却很难采集到异常行为事件的视频片段，例如与犯罪有关的真实视频画面等，而采集大量未标注的正常行为视频较前者则更为容易。另外，诸如Sports1M、YouTube8M、ActivityNet等多媒体娱乐视频，在内容、背景、设备噪声、操作复杂性、视角和数据规模等方面，均与监控视频存在差异。而且，深度学习方法倾向于从视频中发掘行为动作的特定表观形式，而不是解析各种视频类型的行为动作，因此面向多媒体娱乐视频的深度学习模型，可能并不适用于实际监控场景的视频人体行为识别。深度学习方法不仅依赖于大规模的标注训练数据，容易受到GPU资源的限制，还存在过拟合的问题。尤其是在训练数据有限的情况下，如何利用未标注样本在小数据集上进行训练学习，是值得持续关注的科学问题。

在机器学习中半监督学习是结合监督学习和无监督学习的一种机器学习方法。半监督学习方法从原始特征空间出发，充分利用标注数据和非标注数据，探索特征间的相关性，能有利于提高人体行为检测因数据量不足带来的性能损失。但是现有半监督动作识别算法存在着局限性。假设不同行为之间拥有相同的共享结构，但没有同时考虑类内紧凑性和类间可分性，造成识别精度低。

发明内容

本发明的目的在于提供一种基于多任务学习模型的人体行为分类方法，采集少量真实的有标签人体数据，同时借助大量无标签人体数据参与协同训练，能够利用少量有标签人体数据建立稳定的半监督分类器映射模型，准确预测人体特征参数，提高识别精度。

为实现上述目的，本发明提供了一种基于多任务学习模型的人体行为分类方法，包括：

获取训练集的视频行为样本数据，划分样本数据为有标签数据和无标签数据；

基于类内相似图模型和类间相似图模型建立多流形和标签一致性模型；

基于图嵌入方法对多流形和分类器训练建立多任务学习模型；

提取训练集特征并对特征进行降维；

获取特征输入至所述多任务学习模型进行训练得到分类器结果。

在一实施方式中，基于类内相似图模型和类间相似图模型建立多流形和标签一致性模型，具体包括：

目标样本点属于目标样本点相邻的同类样本点的子集，则类内相似图模型输出结果为1；

目标样本点不属于目标样本点相邻的同类样本点的子集，则类内相似图模型输出结果为0。

在一实施方式中，基于类内相似图模型和类间相似图模型建立多流形和标签一致性模型，具体还包括：

目标样本点属于目标样本点相邻的不同类样本点的子集，则类间相似图模型输出结果为1；

目标样本点不属于目标样本点相邻的不同类样本点的子集，则类间相似图模型输出结果为0。

在一实施方式中，基于图嵌入方法对多流形和分类器训练建立多任务学习模型，具体包括：

基于范数正则化损失函数，更新目标函数。

在一实施方式中，提取训练集特征并对特征进行降维，具体包括：

基于描述符提取改进的稠密轨迹特征iDTs；

通过主成分分析原理和L₂范数进行归一化处理，将维数D降为198；

基于256000个随机采样特征用K阶高斯训练高斯混合模型字典，每个动作视频经过PowerL₂归一化后形成2DK维的FV表示，其中2DK等于6336。

在一实施方式中，提取训练集特征并对特征进行降维，具体还包括：

选取卷积神经网络的深度特征，将空间层和时间层的8个归一化深度特征串联起来，令组合后的TDDs维数为D，其中D等于64乘以8得到的512；

将合并后的TDDs编码成FV来作为深度特征，当K等于16时，每个视频的维数更新为2DK，2DK为16384。

在一实施方式中，获取特征输入至多任务学习模型进行训练得到分类器结果，具体包括：

基于谱投影梯度方法和迹运算，迭代求解常规无约束极小化问题，得到新的目标函数；

判断新的目标函数是否满足迭代终止条件；

若满足，则得到目标函数的目标解，输出分类结果；

若不满足，则重新计算得到新的目标函数进行判断直至满足迭代终止条件。

本发明的一种基于多任务学习模型的人体行为分类方法，通过获取训练集的视频行为样本数据，划分样本数据为有标签数据和无标签数据；基于类内相似图模型和类间相似图模型建立多流形和标签一致性模型；基于图嵌入方法对多流形和分类器训练建立多任务学习模型；提取训练集特征并对特征进行降维；获取特征输入至所述多任务学习模型进行训练得到分类器结果。对视频中人物动作的数据分布和特征关联进行分析，结合多流形分析和多任务学习重新定义目标函数，挖掘出行为特征之间的内在联系；其次，利用谱投影梯度方法和KKT条件求解多分类器目标函数的最优值；最后，运用半监督学习算法，将已标注视频和未标注视频样本作为训练样本，同时放入分类器训练过程以提高分类器性能，从而提高识别精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于多任务学习模型的人体行为分类方法的流程示意图；

图2是FV编码中不同gmmSize对于JHMDB数据集识别率的影响示意图；

图3是在JHMDB上使用iDT特征，固定α和μ时调整参数β对DML性能的影响示意图；

图4是在JHMDB上使用iDT特征，令β＝10^-2时调整参数α和μ对DML性能的影响示意图；

图5在HMDB51上使用TSN特征，固定α和μ时调整参数β对DML性能的影响；

图6在HMDB51上使用TSN特征，令β＝10^-2时调整参数α和μ对DML性能的影响。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

请参阅图1，图1是本发明实施例提供的一种基于多任务学习模型的人体行为分类方法的流程示意图，具体的，所述基于多任务学习模型的人体行为分类方法可以包括以下步骤：

S101、获取训练集的视频行为样本数据，划分样本数据为有标签数据和无标签数据；

本发明实施例中，为了利用特征相关性识别视频人体行为，本章将训练集的视频行为样本定义为

然后定义其真实标注矩阵Y＝[y₁,…,y_n]^T∈{0,1}^n×c。

为第i个训练样本，n为X的维度。所提方法的目标是学习出c个预测函数作为分类器

每一个c代表一个类，c代表类别数。通常，预测函数f可定义为：

其中x为训练样本数据，

为权重向量。令

则上述函数为：

f(x)＝w^Tx； (1)

f(X)＝X^TW； (2)

最小二乘损失函数的性能可以与其他损失函数相媲美，如合页损失或逻辑斯谛损失。为了得到投影矩阵W，可采用最小二乘法求解以下最优化问题：

其中α为正则化参数，

表示F范数，

控制了模型的复杂度，避免过度拟合。

将训练数据集重新定义为

其中X_l＝[x₁,…,x_m]^T和X_l＝[x_m+1,…,x_n]^T分别表示有标签和无标签数据的两个子集。X的标签矩阵为

其中Y_l＝[y₁,…,y_m]^T∈0,1^m×c和

是一个全为零的矩阵。

S102、基于类内相似图模型和类间相似图模型建立多流形和标签一致性模型；

本发明实施例中，近邻样本的数据点很可能具有相同的类别标签。图模型A的边表示相连的顶点对，A表示具有描述数据点对之间相似性的元素的对称矩阵。基于图嵌入的标签预测矩阵F应与类内相似图模型A_w和类间相似图模型A_b，以及真实标签矩阵Y保持一致。

即目标样本点属于目标样本点相邻的同类样本点的子集，则类内相似图模型输出结果为1；目标样本点不属于目标样本点相邻的同类样本点的子集，则类内相似图模型输出结果为0。

即目标样本点属于目标样本点相邻的不同类样本点的子集，则类间相似图模型输出结果为1；

在公式(5)中，N_w(x_j)是与样本点x_i相邻的同类样本点x_j子集。N_b(x_j)表示与样本点x_i相邻的不同类样本点x_j子集。

本方法目标是将样本点映射到新的流形空间，即w:X_i→F_i。为了更好地说明流形上的数据分布与特征相关性之间的关系，定义了一个预测的标签矩阵

对于X中所有的训练视频样本，

是第i个数据x_i∈X的预测标签向量。本发明旨在最小化类内流形紧凑性的同时，最大限度地提高类间流形的可分性。为了使A_W的连接点尽可能靠近，而A_b的连接点尽可能拉远，可定义以下两个目标函数来实现：

其中F_il是F_i的第l个元素。f₁负责惩罚那些映射较远的同类近邻点，而f₂负责惩罚那些映射较近的不同类样本点。因此，整体判别信息可以表示为：

其中，β是一个控制类内流形紧凑性和类间流形可分性的正则化参数。

其中D_b是一个对角矩阵，

因此，(8)式可改写为

多流形和标签一致性模型为：

其中

是第i个数据x_i∈X的预测标签向量，

是第j个数据x_j∈X的预测标签向量，F_il是F_i的第l个元素，F_jl是F_j的第l个元素。β是一个控制类内流形紧凑性和类间流形可分性的正则化参数。tr(·)为求迹运算，D_w为对角矩阵，

L_w＝D_w-A_w为拉普拉斯矩阵。

本发明将判别分析加入到一个半监督的算法框架中，并使用已标注数据点来最大化不同类之间的可分性。由于标注训练数据量大、耗时长、成本高，因此可以将未标注样本加入模型训练过程，通过半监督学习来挖掘数据相关性，这对提高数据分析能力和节省人力成本都是有益的，本发明通过对未标注数据点的挖掘，估计出数据分布的内在几何结构，具体是通过多任务学习框架学习全局一致性和局部几何结构，从而通过挖掘多个相关任务之间的相关性来提高性能。现有的识别方法引入一个变换矩阵Q来描述共享信息，并在不同特征之间使用共享信息的正则化项。通过综合求导和交替最小二乘迭代算法求解约束非凸优化问题。然而，在优化过程中，所推导逆矩阵可能存在近似奇异或缩放不当的问题，导致计算结果不够精确。而本发明提供的识别方法假设相同类别的样本可映射到相同流形上，不同类别的样本可映射到不同流形上，而且多流形空间的投影变换能将判别信息最大化。通过构建一个类内相似图A_W和类间相似图A_b，建立局部几何流形结构，丢弃共享结构正则化项，并删除选择矩阵函数U，定义了一个基于半监督判别流形学习的目标函数。在目标函数最优化求解过程中，引入谱投影梯度方法和KKT条件，避免矩阵求逆的同时，在数值计算上取得更精确的收敛性。

S103、基于图嵌入方法对多流形和分类器训练建立多任务学习模型；

本发明实施例中，多任务学习模型为：

其中，μ＞0,α＞0和β＞0是正则化参数，使用了Frobenius范数正则化损失函数，再将目标函数重写为：

S104、提取训练集特征并对特征进行降维；

本发明实施例中，为了减小特征的维度，对特征做SVD奇异值分解，保留协方差矩阵中非零特征值对应的所有特征向量。提取训练集特征这里分为手工制作特征与深度学习特征。对于手工制作特征，使用HOG+HOF+MBH描述符提取改进的稠密轨迹特征，如iDTs、RGB、FLOW等非深度特征，或者其它深度特征TDDs。通过主成分分析原理PCA和L₂范数归一化，将维数D降为198。在基于256000个随机采样特征的用K阶高斯训练高斯混合模型GMM字典，每个动作视频经过PowerL₂归一化后形成2DK维的FV函数表示，其中2DK等于6336，FV函数是基于固定利率及等额分期付款方式，返回某项投资的未来值；对于深度学习特征，选择基于卷积神经网络的深度特征，如轨迹池化卷积描述符TDDs和时序分割网络TSNs。将空间conv4+conv5层和时间conv3+conv4层的8个归一化深度特征串联起来，令组合后的TDDs维数为D＝64×8＝512，由于每个TDDs的视频维数都是由PCA去相关到64的。然后将合并后的TDDs编码成FV来作为深度特征，当K＝16时，每个视频的最终维数可以改变为2DK＝16384。

S105、获取特征输入至所述多任务学习模型进行训练得到分类器结果。

本发明实施例中，基于谱投影梯度方法和迹运算，迭代求解常规无约束极小化问题，得到新的目标函数g(F,W)取代公式(14)：

对公式(14)的F和W分别偏导数，可以得到：

(F^*,W^*)是公式(15)的一个近似静止点，它满足公式(15)的KKT(Karush-Kuhn-Tucker)条件：

迭代终止条件为：

其中，ε是一个极小非负常数。

求解公式(15)，当满足公式(19)，得到最优解W^*，即判断新的目标函数是否满足迭代终止条件；

若满足，则得到目标函数的目标解，输出分类结果；

本发明仅采集少量真实的有标签人体数据，同时借助无标签人体数据参与协同训练，能够利用少量有标签人体数据建立稳定的半监督分类器映射模型，准确预测人体特征参数。

为了验证本发明提供的识别方法，分别选用手工特征和深度特征表示人体行为数据，在极具挑战的公开数据集上进行实验，验证所提方法的有效性。

实验中使用了四个数据集，分别是JHMDB、HMDB51、UCF50和UCF101。JHMDB是HMDB51的一个子集，有928个剪辑视频，包含21类行为。HMDB51数据集包含6766个视频序列，记录51个行为类别。UCF50数据集则有50个行为类别，由来自YouTube的真实视频组成。UCF50中有6618个视频剪辑。UCF101数据集收集了13320个视频剪辑，包括101个行为类别。在测试集方面，沿用提供的JHMDB和HMDB51的标准测试集，以及UCF50和UCF101上split1分组的测试集。由于本实验是随机选择训练样本，因此需重复实验10次并报告平均精度和均方差。

对于JHMDB和HMDB51数据集，使用提供的标准数据分组。对于UCF50和UCF101数据集，由于计算复杂度和内存资源有限，在此只使用了提供的split1分组。需要注意的是，本实验从每类样本中随机选取30个视频数据作为子训练集，包括已标注和未标注的样本，并沿用原测试集进行结果对比。

对于手工制作特征，使用HOG+HOF+MBH描述符提取改进的稠密轨迹特征iDTs。通过PCA和L₂范数归一化，将维数D降为198。在基于256000个随机采样特征的用K阶高斯训练GMM字典，每个动作视频经过PowerL₂归一化后形成2DK维的FV表示，其中2DK等于6336，当K等于16时如表1至表4所示。

对于深度学习特征，选择基于卷积神经网络的深度特征，如轨迹池化卷积描述符TDDs和时序分割网络TSNs。将空间conv4+conv5层和conv3+conv4时间层的8个归一化深度特征串联起来，令组合后的TDDs维数为D＝64×8＝512，由于每个TDDs的视频维数都是由PCA去相关到64的。然后将合并后的TDDs编码成FV来作为深度特征，当K＝16时，每个视频的最终维数可以改变为2DK＝16384，如图2所示。与此同时，重新训练3×c、5×c、10×c、15×c的TSN模型，然后提取3×c、5×c、10×c、15×c的全局池化特征，分别通过相应的TSN模型，将rgb+flow2048维度与PowerL₂归一化，识别结果详见表5至表8。

表1标注3×c训练样本时基于手工特征(平均精度±均方差)的性能比较

	JHMDB	HMDB51	UCF50	UCF101
					DML	0.4238±0.0185	0.2738±0.0115	0.6184±0.0174	0.5075±0.0132
SFS	0.3258±0.0243	0.1973±0.0147	0.5465±0.0177	0.4315±0.0168
					SFC	0.3440±0.0187	0.2246±0.0120	0.5571±0.0166	0.4362±0.0150
MFC	0.3552±0.0167	0.2405±0.0127	0.5803±0.0185	0.4588±0.0133
					SVM-x<sup>2</sup>	0.3324±0.0213	0.2019±0.0132	0.5420±0.0198	0.4204±0.0162
SVM-linear	0.3773±0.0180	0.2351±0.0168	0.5851±0.0182	0.4681±0.0145

表2标注5×c训练样本时基于手工特征(平均精度±均方差)的性能比较

	JHMDB	HMDB51	UCF50	UCF101
					DML	0.4658±0.0178	0.3293±0.0118	0.6743±0.0187	0.5963±0.0113
SFS	0.3775±0.0189	0.2645±0.0083	0.5905±0.0183	0.5265±0.0121
					SFC	0.3998±0.0233	0.2719±0.0069	0.6183±0.0240	0.5264±0.0135
MFC	0.4135±0.0152	0.2830±0.0122	0.6373±0.0177	0.5486±0.0128
					SVM-x<sup>2</sup>	0.3748±0.0143	0.2616±0.0153	0.6007±0.0164	0.5127±0.0157
SVM-linear	0.4120±0.0122	0.2902±0.0058	0.6320±0.0212	0.5501±0.0140

表3标注10×c训练样本时基于手工特征(平均精度±均方差)的性能比较

	JHMDB	HMDB51	UCF50	UCF101
					DML	0.5479±0.0181	0.3980±0.0073	0.8007±0.0193	0.6843±0.0128
SFS	0.4836±0.0185	0.3177±0.0126	0.7315±0.0217	0.6280±0.0135
					SFC	0.5029±0.0169	0.3473±0.0105	0.7311±0.0180	0.6273±0.0142
MFC	0.5143±0.0173	0.3598±0.0082	0.7558±0.0178	0.6396±0.0078
					SVM-x<sup>2</sup>	0.4618±0.0226	0.3235±0.0114	0.7384±0.0207	0.6057±0.0137
SVM-linear	0.4957±0.0218	0.3617±0.0078	0.7570±0.0226	0.6425±0.0153

表4标注15×c训练样本时基于手工特征(平均精度±均方差)的性能比较

	JHMDB	HMDB51	UCF50	UCF101
					DML	0.5822±0.0093	0.4407±0.0092	0.8578±0.0085	0.7218±0.0076
SFS	0.5341±0.0120	0.3613±0.0131	0.7811±0.0091	0.6437±0.0122
					SFC	0.5278±0.01180	0.3822±0.0099	0.7955±0.0089	0.6320±0.0103
MFC	0.5334±0.0084	0.4035±0.0077	0.8140±0.0135	0.6701±0.0078
					SVM-x<sup>2</sup>	0.5090±0.0136	0.3637±0.0125	0.7782±0.0075	0.6324±0.0119
SVM-linear	0.5341±0.0085	0.4020±0.0071	0.8104±0.0083	0.6796±0.0080

表5标注3×c训练样本时基于cnn深度特征(平均精度±均方差)的性能比较

	JHMDB	HMDB51	UCF50	UCF101
					DML	0.5020±0.0165	0.3231±0.0120	0.6829±0.0174	0.6861±0.0128
SFS	0.4309±0.0134	0.2617±0.0133	0.6208±0.0177	0.6257±0.0136
					SFC	0.4721±0.0178	0.3011±0.0108	0.6394±0.0166	0.6429±0.0136
MFC	0.4783±0.0153	0.3031±0.0127	0.6543±0.0185	0.6527±0.0137
					SVM-x<sup>2</sup>	0.4289±0.0202	0.2608±0.0112	0.6117±0.0198	0.6231±0.0121
SVM-linear	0.4534±0.0180	0.2913±0.0141	0.6245±0.0182	0.6447±0.0133

表6标注5×c训练样本时基于cnn深度特征(平均精度±均方差)的性能比较

表7标注10×c训练样本时基于cnn深度特征(平均精度±均方差)的性能比较

	JHMDB	HMDB51	UCF50	UCF101
					DML	0.7284±0.0157	0.4897±0.0106	0.8427±0.0187	0.8477±0.0112
SFS	0.6723±0.0164	0.4172±0.0112	0.7844±0.0183	0.8054±0.0101
					SFC	0.6934±0.0183	0.4423±0.0087	0.7993±0.0240	0.8107±0.0114
MFC	0.7034±0.0145	0.4623±0.0134	0.8141±0.0177	0.8266±0.0115
					SVM-x<sup>2</sup>	0.6710±0.0134	0.4206±0.0152	0.7767±0.0164	0.8001±0.0137
SVM-linear	0.6909±0.0132	0.4512±0.0057	0.7770±0.0212	0.8173±0.0103

表8标注15×c训练样本时基于cnn深度特征(平均精度±均方差)的性能比较

	JHMDB	HMDB51	UCF50	UCF101
					DML	0.7410±0.0082	0.5830±0.0090	0.8899±0.0085	0.8683±0.0078
SFS	0.6923±0.0113	0.5200±0.0123	0.8253±0.0091	0.7898±0.0102
					SFC	0.7110±0.0100	0.5373±0.0108	0.8290±0.0089	0.8070±0.0084
MFC	0.7148±0.0089	0.5542±0.0087	0.8513±0.0135	0.8419±0.0087
					SVM-x<sup>2</sup>	0.6941±0.0116	0.5189±0.0115	0.8179±0.0075	0.8131±0.0098
SVM-linear	0.7134±0.0086	0.5370±0.0068	0.8439±0.0083	0.8448±0.0070

其中，c表示为每个数据集的类别数(JHMDB、HMDB51、UCF50和UCF101的c＝21、51、50、101。

本发明方法始终获得了最佳的识别性能，该半监督算法训练出的分类器识别效果，甚至优于常用的全监督分类器线性SVM。通过手工特征iDT和深度特征CNN的对比，验证了本发明方法的有效性。

本发明所提方法在标注样本数据量很少的情况下，达到相对较好的性能。例如，当3×c(即在JHMDB训练集的660个训练样本中只取63个标注数据)个训练数据被标记时，本发明方法的识别精度达到42.38％，优于其它半监督方法。

考虑到视频人体行为的样本数据可能位于一个多流形子空间，本发明提供的基于多任务学习模型的人体行为分类方法首次提出同时考虑多流形子空间中的类内流形紧凑性和类间流形可分性，通过判别学习和半监督学习，对特征空间变换矩阵(即行为分类器)进行建模。为了解决无约束凸优化问题，本发明结合谱投影梯度和KKT条件，避免求逆矩阵时可能会出现的奇异性问题，从而得到更好的收敛性和更精确的解，并且通过实验说明了算法的收敛性。本发明提供的方法不仅在半监督行为识别中引入了多流形分析，而且设计了一种有效的目标函数最优值求解方法。实验表明本发明所提方法在四个数据集上，均取得了最好的半监督识别效果。与现有的半监督算法相比，提出的分类器训练方法速度最快。

为评估发明方法的性能，本实验选出五个先进的分类器方法，包括x²核的SVM、线性SVM、SFS(即空间特征选择算法)、SFC(即子空间特征相关性算法)和MFC(即多特征相关性算法)。注意，SFS、SFC和MFC都是半监督学习方法，而且SFC和MFC也使用了数据流形转换特征空间。为了验证所提方法的优越性，本实验使用了这些方法的开源代码，并在不同数据集上进行实验比对。

对于训练阶段，先将c表示为每个数据集的类别数(JHMDB、HMDB51、UCF50和UCF101的c＝21、51、50、101)。由于半监督训练集包含已标注样本和未标注样本，故随机选择每类30个视频作为子训练集，其中每个类别抽取m个已标注的视频样本(m＝3、5、10、15)，随机分为3×c、5×c、10×c、15×c，其余训练样本均为未标注视频样本。

对于测试阶段，本实验沿用了JHMDB和HMDB51数据集的原测试集。由于计算资源有限，本实验只在UCF50和UCF101数据集上进行了split1分组的实验测试。

对于半监督参数，包括SFS、SFC、MFC、DML(即判别流形学习算法)的μ,α和β，本实验使用的取值范围为{10^-4,10^-3,10^-2,10^-1,1,10¹,10²,10³,10⁴}。

对于谱投影梯度参数，由于这些参数对发明所提算法并不敏感,所以设置M＝10,α_min＝10^-15,α_max＝10¹⁵，充分减小参数γ＝10^-4，安全保护参数δ₁＝0.1,δ₂＝0.9,λ_new＝(1/2)(δ₁λ+δ₂λ)。初值α₀∈(α_min,α_max)是任意的，本实验设置α₀＝1。由于FV的维数较高，仅减去后两个目标函数值就很难停止迭代，因此将目标函数值的相对误差作为算法3-1中的迭代终止条件，其中公式(3-19)中的非负极小常数设为10^-6。

图2至图6列出了不同数量的标注样本作为训练数据时，各种gmmSize参数、谱投影梯度参数、半监督参数对于不同数据集行为识别的性能影响。

本实验以全监督线性分类器SVM作为基准线，分别计算了3×c、5×c、10×c、15×c的平均识别率。当使用iDT特征时，本发明所提算法DML在JHMDB、HMDB51、UCF50和UCF101上的平均精度分别提高了5.02％、3.82％、4.16％和4.24％.当使用TSN特征时，与线性SVM相比，本发明的DML在JHMDB、HMDB51、UCF50和UCF101上的平均识别率分别提高了4.06％、3.92％、5.06％和3.39％.实验表明，合理利用未标注的训练样本数据也可以提高分类器性能。

基于大规模标注数据的深度学习方法，已经在图像分类和行为识别的应用上取得成功。不过为了验证深度学习方法在小规模数据集上的性能，本实验设置提取深度特征TDDs，用PCA将TDDs去相关性降维至D＝64，按K＝256训练GMM字典，再将每个视频的TDDs编码为FV，并在JHMDB上使用线性SVM识别行为。注意，在此使用了空间conv4+conv5和时间conv3+conv4网络的组合TDDs。

图2阐述了不同gmmSize在JHMDB数据集上的行为识别效果。对人体行为视频分别提取iDT和TDD特征，分别用15×c个已标注训练样本，以及原训练集的全部标注训练样本，将半监督算法DML算法与全监督线性分类器SVM进行对比。实验结果显示，无论是半监督学习还是全监督学习，DML的性能始终优于线性SVM。

为了验证所提出的算法能够通过谱投影梯度法和KKT条件得到最优解，本实验利用目标函数值的收敛曲线对四组数据集进行对比分析。每个数据集的标注训练样本数设为15×c，参数设为取值范围的中间值。结果表明，目标函数值经过几次迭代后开始收敛。本发明非单调递减最优化方法谱投影梯度能在数值计算中取得全局最优解。

本发明还做了一个实验来比较上述半监督算法的计算速度。在JHMDB数据集以15×c标注样本为例，给出的子训练集，用K＝16训练GMM码本，然后计算split1分组的平均运行时间。在SFS、SFC和MFC中，由于原始特征的维度较高，故先执行SVD来降低原始特征的维度。由于多流形建模方法的公式推导，以及谱投影梯度方法的非单调性，DML更容易收敛。与SFS、SFC和MFC相比，DML的运行时间分别提高了1.06倍、4.15倍、2.50倍，如表9所示。

表9 JHMDB上的平均运行时间(以秒为单位)

DML	SFS	SFC	MFC
				41.93	44.63	173.93	104.83

本发明算法涉及两类参数，即半监督参数和谱投影梯度参数。为了研究它们如何影响行为识别的分类性能和迭代过程，本实验对参数敏感度进行了充分调研。

对于半监督参数，先在图3和图5中验证了DML的优点，接着使用JHMDB和HMDB51数据集的split2分组，研究半监督参数对DML算法的分类性能影响。选取15×c的标注样本作为训练数据，根据经验值设定α＝10^-3,μ＝10³，调整β的取值范围。可以看出，随着β从10^-4变化到10^-2，分类精度相应增加，并在β＝10^-2时达到峰值。注意，图3和图5可以看作是类内流形与类间流形占比对分类器精度的影响。

假定类内流形结构的比例常数为1，那么更大的

意味着要DML会使用更大比例的类间流形结构，反之亦然。当β＝0时，表示没有使用类间流形结构。因此，如果α→+∞，则表示没有使用类内流形结构。实验结果表明，在多流形子空间中，适当使用类内紧凑性和类间可分性，可以进一步提高识别性能。图4和图6还列举了β＝10^-2时，测试参数α,μ敏感度的实验结果。从这些数据可以看出，挖掘多个学习任务之间的相关性有利于提高分类性能。除此之外，本实验在HMDB51上使用TSN特征，也分析了三个半监督参数的敏感度，如图4和图5所示。从图2至图6可以看出，当所有超参数都在一定范围内取值时，分类器性能可以达到比较稳定的高精度。经过本章反复实验，得知α范围在{10^-2,10^-1,1}，β范围在{10^-3,10^-2,10^-1,1}，以及μ范围在{10^-1,1,10¹}时，可以在大幅缩小取值范围的同时，取得很好的行为识别精度。

对于谱投影梯度参数，本实验用步长M和识别精度分别反映迭代变化和性能的影响，其中M表示计算不等式的前一次迭代次数。新的目标函数值

应该与前M个目标函数值比较。图2给出了四个数据集上M的迭代变化。在图2中，迭代过程随着M值的不同而略有变化，这些参数值的不同影响应该与特征表示的特征有关。一般来说，M对DML的迭代并不敏感。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种基于多任务学习模型的人体行为分类方法，其特征在于，包括：

提取训练集特征并对特征进行降维；

2.如权利要求1所述的基于多任务学习模型的人体行为分类方法，其特征在于，基于类内相似图模型和类间相似图模型建立多流形和标签一致性模型，具体包括：

3.如权利要求2所述的基于多任务学习模型的人体行为分类方法，其特征在于，基于类内相似图模型和类间相似图模型建立多流形和标签一致性模型，具体还包括：

4.如权利要求1所述的基于多任务学习模型的人体行为分类方法，其特征在于，基于图嵌入方法对多流形和分类器训练建立多任务学习模型，具体包括：

基于范数正则化损失函数，更新目标函数。

5.如权利要求1所述的基于多任务学习模型的人体行为分类方法，其特征在于，提取训练集特征并对特征进行降维，具体包括：

基于描述符提取改进的稠密轨迹特征iDTs；

6.如权利要求5所述的基于多任务学习模型的人体行为分类方法，其特征在于，提取训练集特征并对特征进行降维，具体还包括：

7.如权利要求1所述的基于多任务学习模型的人体行为分类方法，其特征在于，获取特征输入至多任务学习模型进行训练得到分类器结果，具体包括：

判断新的目标函数是否满足迭代终止条件；

若满足，则得到目标函数的目标解，输出分类结果；