CN111488840A - 一种基于多任务学习模型的人体行为分类方法 - Google Patents

一种基于多任务学习模型的人体行为分类方法 Download PDF

Info

Publication number
CN111488840A
CN111488840A CN202010293489.1A CN202010293489A CN111488840A CN 111488840 A CN111488840 A CN 111488840A CN 202010293489 A CN202010293489 A CN 202010293489A CN 111488840 A CN111488840 A CN 111488840A
Authority
CN
China
Prior art keywords
features
model
training
learning model
classifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010293489.1A
Other languages
English (en)
Inventor
徐增敏
李姣芬
李向利
丁勇
李春海
蒙儒省
罗劲锋
徐波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin Anview Technology Co ltd
Guilin University of Electronic Technology
Original Assignee
Guilin Anview Technology Co ltd
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin Anview Technology Co ltd, Guilin University of Electronic Technology filed Critical Guilin Anview Technology Co ltd
Priority to CN202010293489.1A priority Critical patent/CN111488840A/zh
Publication of CN111488840A publication Critical patent/CN111488840A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多任务学习模型的人体行为分类方法,包括划分有标签数据和无标签数据;基于类内相似图模型和类间相似图模型建立多流形和标签一致性模型;基于图嵌入方法对多流形和分类器训练建立多任务学习模型;提取训练集特征并对特征进行降维;获取特征输入至多任务学习模型进行训练得到分类器结果。通过对视频中人物动作的数据分布和特征关联进行分析,结合多流形分析和多任务学习重新定义目标函数,挖掘出行为特征之间的内在联系;利用谱投影梯度方法和KKT条件求解多分类器目标函数的最优值;运用半监督学习算法,将已标注视频和未标注视频样本作为训练样本,同时放入分类器训练过程以提高分类器性能,从而提高了识别精度。

Description

一种基于多任务学习模型的人体行为分类方法
技术领域
本发明涉及视频处理技术领域,尤其涉及一种基于多任务学习模型的人体行为分类方法。
背景技术
人体行为检测是计算机科学领域的一个重点研究方向,它可以运用于智能安防监控以及网络不良视频审核等等方面。随着信息时代与大数据时代的到来,大量的视频数据被人们生产创造出来,这有利于人体行为检测研究的进展。目前大多数研究工作均采用深度学习方法来实现行为识别,这有赖于大量人工标注的训练样本数据。当面对大量未标注的样本数据时,手工标注的时间成本和人力成本都非常高。虽然已经有一些大型公开数据集可供使用,如Sports1M、YouTube8M和ActivityNet,但是这些数据集中的视频仅限于体育竞赛、电影娱乐或日常自拍等,而且整理这些视频需要大量的时间和精力。相比之下,在实际监控应用中却很难采集到异常行为事件的视频片段,例如与犯罪有关的真实视频画面等,而采集大量未标注的正常行为视频较前者则更为容易。另外,诸如Sports1M、YouTube8M、ActivityNet等多媒体娱乐视频,在内容、背景、设备噪声、操作复杂性、视角和数据规模等方面,均与监控视频存在差异。而且,深度学习方法倾向于从视频中发掘行为动作的特定表观形式,而不是解析各种视频类型的行为动作,因此面向多媒体娱乐视频的深度学习模型,可能并不适用于实际监控场景的视频人体行为识别。深度学习方法不仅依赖于大规模的标注训练数据,容易受到GPU资源的限制,还存在过拟合的问题。尤其是在训练数据有限的情况下,如何利用未标注样本在小数据集上进行训练学习,是值得持续关注的科学问题。
在机器学习中半监督学习是结合监督学习和无监督学习的一种机器学习方法。半监督学习方法从原始特征空间出发,充分利用标注数据和非标注数据,探索特征间的相关性,能有利于提高人体行为检测因数据量不足带来的性能损失。但是现有半监督动作识别算法存在着局限性。假设不同行为之间拥有相同的共享结构,但没有同时考虑类内紧凑性和类间可分性,造成识别精度低。
发明内容
本发明的目的在于提供一种基于多任务学习模型的人体行为分类方法,采集少量真实的有标签人体数据,同时借助大量无标签人体数据参与协同训练,能够利用少量有标签人体数据建立稳定的半监督分类器映射模型,准确预测人体特征参数,提高识别精度。
为实现上述目的,本发明提供了一种基于多任务学习模型的人体行为分类方法,包括:
获取训练集的视频行为样本数据,划分样本数据为有标签数据和无标签数据;
基于类内相似图模型和类间相似图模型建立多流形和标签一致性模型;
基于图嵌入方法对多流形和分类器训练建立多任务学习模型;
提取训练集特征并对特征进行降维;
获取特征输入至所述多任务学习模型进行训练得到分类器结果。
在一实施方式中,基于类内相似图模型和类间相似图模型建立多流形和标签一致性模型,具体包括:
目标样本点属于目标样本点相邻的同类样本点的子集,则类内相似图模型输出结果为1;
目标样本点不属于目标样本点相邻的同类样本点的子集,则类内相似图模型输出结果为0。
在一实施方式中,基于类内相似图模型和类间相似图模型建立多流形和标签一致性模型,具体还包括:
目标样本点属于目标样本点相邻的不同类样本点的子集,则类间相似图模型输出结果为1;
目标样本点不属于目标样本点相邻的不同类样本点的子集,则类间相似图模型输出结果为0。
在一实施方式中,基于图嵌入方法对多流形和分类器训练建立多任务学习模型,具体包括:
基于范数正则化损失函数,更新目标函数。
在一实施方式中,提取训练集特征并对特征进行降维,具体包括:
基于描述符提取改进的稠密轨迹特征iDTs;
通过主成分分析原理和L2范数进行归一化处理,将维数D降为198;
基于256000个随机采样特征用K阶高斯训练高斯混合模型字典,每个动作视频经过PowerL2归一化后形成2DK维的FV表示,其中2DK等于6336。
在一实施方式中,提取训练集特征并对特征进行降维,具体还包括:
选取卷积神经网络的深度特征,将空间层和时间层的8个归一化深度特征串联起来,令组合后的TDDs维数为D,其中D等于64乘以8得到的512;
将合并后的TDDs编码成FV来作为深度特征,当K等于16时,每个视频的维数更新为2DK,2DK为16384。
在一实施方式中,获取特征输入至多任务学习模型进行训练得到分类器结果,具体包括:
基于谱投影梯度方法和迹运算,迭代求解常规无约束极小化问题,得到新的目标函数;
判断新的目标函数是否满足迭代终止条件;
若满足,则得到目标函数的目标解,输出分类结果;
若不满足,则重新计算得到新的目标函数进行判断直至满足迭代终止条件。
本发明的一种基于多任务学习模型的人体行为分类方法,通过获取训练集的视频行为样本数据,划分样本数据为有标签数据和无标签数据;基于类内相似图模型和类间相似图模型建立多流形和标签一致性模型;基于图嵌入方法对多流形和分类器训练建立多任务学习模型;提取训练集特征并对特征进行降维;获取特征输入至所述多任务学习模型进行训练得到分类器结果。对视频中人物动作的数据分布和特征关联进行分析,结合多流形分析和多任务学习重新定义目标函数,挖掘出行为特征之间的内在联系;其次,利用谱投影梯度方法和KKT条件求解多分类器目标函数的最优值;最后,运用半监督学习算法,将已标注视频和未标注视频样本作为训练样本,同时放入分类器训练过程以提高分类器性能,从而提高识别精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种基于多任务学习模型的人体行为分类方法的流程示意图;
图2是FV编码中不同gmmSize对于JHMDB数据集识别率的影响示意图;
图3是在JHMDB上使用iDT特征,固定α和μ时调整参数β对DML性能的影响示意图;
图4是在JHMDB上使用iDT特征,令β=10-2时调整参数α和μ对DML性能的影响示意图;
图5在HMDB51上使用TSN特征,固定α和μ时调整参数β对DML性能的影响;
图6在HMDB51上使用TSN特征,令β=10-2时调整参数α和μ对DML性能的影响。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
请参阅图1,图1是本发明实施例提供的一种基于多任务学习模型的人体行为分类方法的流程示意图,具体的,所述基于多任务学习模型的人体行为分类方法可以包括以下步骤:
S101、获取训练集的视频行为样本数据,划分样本数据为有标签数据和无标签数据;
本发明实施例中,为了利用特征相关性识别视频人体行为,本章将训练集的视频行为样本定义为
Figure BDA0002451307800000041
然后定义其真实标注矩阵Y=[y1,…,yn]T∈{0,1}n×c
Figure BDA0002451307800000042
为第i个训练样本,n为X的维度。所提方法的目标是学习出c个预测函数作为分类器
Figure BDA0002451307800000043
每一个c代表一个类,c代表类别数。通常,预测函数f可定义为:
其中x为训练样本数据,
Figure BDA0002451307800000044
为权重向量。令
Figure BDA0002451307800000045
则上述函数为:
f(x)=wTx; (1)
f(X)=XTW; (2)
最小二乘损失函数的性能可以与其他损失函数相媲美,如合页损失或逻辑斯谛损失。为了得到投影矩阵W,可采用最小二乘法求解以下最优化问题:
Figure BDA0002451307800000051
其中α为正则化参数,
Figure BDA0002451307800000052
表示F范数,
Figure BDA0002451307800000053
控制了模型的复杂度,避免过度拟合。
将训练数据集重新定义为
Figure BDA0002451307800000054
其中Xl=[x1,…,xm]T和Xl=[xm+1,…,xn]T分别表示有标签和无标签数据的两个子集。X的标签矩阵为
Figure BDA0002451307800000055
其中Yl=[y1,…,ym]T∈0,1m×c
Figure BDA0002451307800000056
是一个全为零的矩阵。
S102、基于类内相似图模型和类间相似图模型建立多流形和标签一致性模型;
本发明实施例中,近邻样本的数据点很可能具有相同的类别标签。图模型A的边表示相连的顶点对,A表示具有描述数据点对之间相似性的元素的对称矩阵。基于图嵌入的标签预测矩阵F应与类内相似图模型Aw和类间相似图模型Ab,以及真实标签矩阵Y保持一致。
Figure BDA0002451307800000057
即目标样本点属于目标样本点相邻的同类样本点的子集,则类内相似图模型输出结果为1;目标样本点不属于目标样本点相邻的同类样本点的子集,则类内相似图模型输出结果为0。
Figure BDA0002451307800000058
即目标样本点属于目标样本点相邻的不同类样本点的子集,则类间相似图模型输出结果为1;
目标样本点不属于目标样本点相邻的不同类样本点的子集,则类间相似图模型输出结果为0。
在公式(5)中,Nw(xj)是与样本点xi相邻的同类样本点xj子集。Nb(xj)表示与样本点xi相邻的不同类样本点xj子集。
本方法目标是将样本点映射到新的流形空间,即w:Xi→Fi。为了更好地说明流形上的数据分布与特征相关性之间的关系,定义了一个预测的标签矩阵
Figure BDA0002451307800000061
对于X中所有的训练视频样本,
Figure BDA0002451307800000062
是第i个数据xi∈X的预测标签向量。本发明旨在最小化类内流形紧凑性的同时,最大限度地提高类间流形的可分性。为了使AW的连接点尽可能靠近,而Ab的连接点尽可能拉远,可定义以下两个目标函数来实现:
Figure BDA0002451307800000063
Figure BDA0002451307800000064
其中Fil是Fi的第l个元素。f1负责惩罚那些映射较远的同类近邻点,而f2负责惩罚那些映射较近的不同类样本点。因此,整体判别信息可以表示为:
Figure BDA0002451307800000065
其中,β是一个控制类内流形紧凑性和类间流形可分性的正则化参数。
Figure BDA0002451307800000066
Figure BDA0002451307800000067
其中Db是一个对角矩阵,
Figure BDA0002451307800000068
因此,(8)式可改写为
Figure BDA0002451307800000069
多流形和标签一致性模型为:
Figure BDA0002451307800000071
其中
Figure BDA0002451307800000072
是第i个数据xi∈X的预测标签向量,
Figure BDA0002451307800000073
是第j个数据xj∈X的预测标签向量,Fil是Fi的第l个元素,Fjl是Fj的第l个元素。β是一个控制类内流形紧凑性和类间流形可分性的正则化参数。tr(·)为求迹运算,Dw为对角矩阵,
Figure BDA0002451307800000074
Lw=Dw-Aw为拉普拉斯矩阵。
本发明将判别分析加入到一个半监督的算法框架中,并使用已标注数据点来最大化不同类之间的可分性。由于标注训练数据量大、耗时长、成本高,因此可以将未标注样本加入模型训练过程,通过半监督学习来挖掘数据相关性,这对提高数据分析能力和节省人力成本都是有益的,本发明通过对未标注数据点的挖掘,估计出数据分布的内在几何结构,具体是通过多任务学习框架学习全局一致性和局部几何结构,从而通过挖掘多个相关任务之间的相关性来提高性能。现有的识别方法引入一个变换矩阵Q来描述共享信息,并在不同特征之间使用共享信息的正则化项。通过综合求导和交替最小二乘迭代算法求解约束非凸优化问题。然而,在优化过程中,所推导逆矩阵可能存在近似奇异或缩放不当的问题,导致计算结果不够精确。而本发明提供的识别方法假设相同类别的样本可映射到相同流形上,不同类别的样本可映射到不同流形上,而且多流形空间的投影变换能将判别信息最大化。通过构建一个类内相似图AW和类间相似图Ab,建立局部几何流形结构,丢弃共享结构正则化项,并删除选择矩阵函数U,定义了一个基于半监督判别流形学习的目标函数。在目标函数最优化求解过程中,引入谱投影梯度方法和KKT条件,避免矩阵求逆的同时,在数值计算上取得更精确的收敛性。
S103、基于图嵌入方法对多流形和分类器训练建立多任务学习模型;
本发明实施例中,多任务学习模型为:
Figure BDA0002451307800000081
其中,μ>0,α>0和β>0是正则化参数,使用了Frobenius范数正则化损失函数,再将目标函数重写为:
Figure BDA0002451307800000082
S104、提取训练集特征并对特征进行降维;
本发明实施例中,为了减小特征的维度,对特征做SVD奇异值分解,保留协方差矩阵中非零特征值对应的所有特征向量。提取训练集特征这里分为手工制作特征与深度学习特征。对于手工制作特征,使用HOG+HOF+MBH描述符提取改进的稠密轨迹特征,如iDTs、RGB、FLOW等非深度特征,或者其它深度特征TDDs。通过主成分分析原理PCA和L2范数归一化,将维数D降为198。在基于256000个随机采样特征的用K阶高斯训练高斯混合模型GMM字典,每个动作视频经过PowerL2归一化后形成2DK维的FV函数表示,其中2DK等于6336,FV函数是基于固定利率及等额分期付款方式,返回某项投资的未来值;对于深度学习特征,选择基于卷积神经网络的深度特征,如轨迹池化卷积描述符TDDs和时序分割网络TSNs。将空间conv4+conv5层和时间conv3+conv4层的8个归一化深度特征串联起来,令组合后的TDDs维数为D=64×8=512,由于每个TDDs的视频维数都是由PCA去相关到64的。然后将合并后的TDDs编码成FV来作为深度特征,当K=16时,每个视频的最终维数可以改变为2DK=16384。
S105、获取特征输入至所述多任务学习模型进行训练得到分类器结果。
本发明实施例中,基于谱投影梯度方法和迹运算,迭代求解常规无约束极小化问题,得到新的目标函数g(F,W)取代公式(14):
Figure BDA0002451307800000083
对公式(14)的F和W分别偏导数,可以得到:
Figure BDA0002451307800000084
Figure BDA0002451307800000091
(F*,W*)是公式(15)的一个近似静止点,它满足公式(15)的KKT(Karush-Kuhn-Tucker)条件:
Figure BDA0002451307800000092
迭代终止条件为:
Figure BDA0002451307800000093
其中,ε是一个极小非负常数。
求解公式(15),当满足公式(19),得到最优解W*,即判断新的目标函数是否满足迭代终止条件;
若满足,则得到目标函数的目标解,输出分类结果;
若不满足,则重新计算得到新的目标函数进行判断直至满足迭代终止条件。
本发明仅采集少量真实的有标签人体数据,同时借助无标签人体数据参与协同训练,能够利用少量有标签人体数据建立稳定的半监督分类器映射模型,准确预测人体特征参数。
为了验证本发明提供的识别方法,分别选用手工特征和深度特征表示人体行为数据,在极具挑战的公开数据集上进行实验,验证所提方法的有效性。
实验中使用了四个数据集,分别是JHMDB、HMDB51、UCF50和UCF101。JHMDB是HMDB51的一个子集,有928个剪辑视频,包含21类行为。HMDB51数据集包含6766个视频序列,记录51个行为类别。UCF50数据集则有50个行为类别,由来自YouTube的真实视频组成。UCF50中有6618个视频剪辑。UCF101数据集收集了13320个视频剪辑,包括101个行为类别。在测试集方面,沿用提供的JHMDB和HMDB51的标准测试集,以及UCF50和UCF101上split1分组的测试集。由于本实验是随机选择训练样本,因此需重复实验10次并报告平均精度和均方差。
对于JHMDB和HMDB51数据集,使用提供的标准数据分组。对于UCF50和UCF101数据集,由于计算复杂度和内存资源有限,在此只使用了提供的split1分组。需要注意的是,本实验从每类样本中随机选取30个视频数据作为子训练集,包括已标注和未标注的样本,并沿用原测试集进行结果对比。
对于手工制作特征,使用HOG+HOF+MBH描述符提取改进的稠密轨迹特征iDTs。通过PCA和L2范数归一化,将维数D降为198。在基于256000个随机采样特征的用K阶高斯训练GMM字典,每个动作视频经过PowerL2归一化后形成2DK维的FV表示,其中2DK等于6336,当K等于16时如表1至表4所示。
对于深度学习特征,选择基于卷积神经网络的深度特征,如轨迹池化卷积描述符TDDs和时序分割网络TSNs。将空间conv4+conv5层和conv3+conv4时间层的8个归一化深度特征串联起来,令组合后的TDDs维数为D=64×8=512,由于每个TDDs的视频维数都是由PCA去相关到64的。然后将合并后的TDDs编码成FV来作为深度特征,当K=16时,每个视频的最终维数可以改变为2DK=16384,如图2所示。与此同时,重新训练3×c、5×c、10×c、15×c的TSN模型,然后提取3×c、5×c、10×c、15×c的全局池化特征,分别通过相应的TSN模型,将rgb+flow2048维度与PowerL2归一化,识别结果详见表5至表8。
表1标注3×c训练样本时基于手工特征(平均精度±均方差)的性能比较
JHMDB HMDB51 UCF50 UCF101
DML 0.4238±0.0185 0.2738±0.0115 0.6184±0.0174 0.5075±0.0132
SFS 0.3258±0.0243 0.1973±0.0147 0.5465±0.0177 0.4315±0.0168
SFC 0.3440±0.0187 0.2246±0.0120 0.5571±0.0166 0.4362±0.0150
MFC 0.3552±0.0167 0.2405±0.0127 0.5803±0.0185 0.4588±0.0133
SVM-x<sup>2</sup> 0.3324±0.0213 0.2019±0.0132 0.5420±0.0198 0.4204±0.0162
SVM-linear 0.3773±0.0180 0.2351±0.0168 0.5851±0.0182 0.4681±0.0145
表2标注5×c训练样本时基于手工特征(平均精度±均方差)的性能比较
JHMDB HMDB51 UCF50 UCF101
DML 0.4658±0.0178 0.3293±0.0118 0.6743±0.0187 0.5963±0.0113
SFS 0.3775±0.0189 0.2645±0.0083 0.5905±0.0183 0.5265±0.0121
SFC 0.3998±0.0233 0.2719±0.0069 0.6183±0.0240 0.5264±0.0135
MFC 0.4135±0.0152 0.2830±0.0122 0.6373±0.0177 0.5486±0.0128
SVM-x<sup>2</sup> 0.3748±0.0143 0.2616±0.0153 0.6007±0.0164 0.5127±0.0157
SVM-linear 0.4120±0.0122 0.2902±0.0058 0.6320±0.0212 0.5501±0.0140
表3标注10×c训练样本时基于手工特征(平均精度±均方差)的性能比较
JHMDB HMDB51 UCF50 UCF101
DML 0.5479±0.0181 0.3980±0.0073 0.8007±0.0193 0.6843±0.0128
SFS 0.4836±0.0185 0.3177±0.0126 0.7315±0.0217 0.6280±0.0135
SFC 0.5029±0.0169 0.3473±0.0105 0.7311±0.0180 0.6273±0.0142
MFC 0.5143±0.0173 0.3598±0.0082 0.7558±0.0178 0.6396±0.0078
SVM-x<sup>2</sup> 0.4618±0.0226 0.3235±0.0114 0.7384±0.0207 0.6057±0.0137
SVM-linear 0.4957±0.0218 0.3617±0.0078 0.7570±0.0226 0.6425±0.0153
表4标注15×c训练样本时基于手工特征(平均精度±均方差)的性能比较
JHMDB HMDB51 UCF50 UCF101
DML 0.5822±0.0093 0.4407±0.0092 0.8578±0.0085 0.7218±0.0076
SFS 0.5341±0.0120 0.3613±0.0131 0.7811±0.0091 0.6437±0.0122
SFC 0.5278±0.01180 0.3822±0.0099 0.7955±0.0089 0.6320±0.0103
MFC 0.5334±0.0084 0.4035±0.0077 0.8140±0.0135 0.6701±0.0078
SVM-x<sup>2</sup> 0.5090±0.0136 0.3637±0.0125 0.7782±0.0075 0.6324±0.0119
SVM-linear 0.5341±0.0085 0.4020±0.0071 0.8104±0.0083 0.6796±0.0080
表5标注3×c训练样本时基于cnn深度特征(平均精度±均方差)的性能比较
JHMDB HMDB51 UCF50 UCF101
DML 0.5020±0.0165 0.3231±0.0120 0.6829±0.0174 0.6861±0.0128
SFS 0.4309±0.0134 0.2617±0.0133 0.6208±0.0177 0.6257±0.0136
SFC 0.4721±0.0178 0.3011±0.0108 0.6394±0.0166 0.6429±0.0136
MFC 0.4783±0.0153 0.3031±0.0127 0.6543±0.0185 0.6527±0.0137
SVM-x<sup>2</sup> 0.4289±0.0202 0.2608±0.0112 0.6117±0.0198 0.6231±0.0121
SVM-linear 0.4534±0.0180 0.2913±0.0141 0.6245±0.0182 0.6447±0.0133
表6标注5×c训练样本时基于cnn深度特征(平均精度±均方差)的性能比较
Figure BDA0002451307800000111
Figure BDA0002451307800000121
表7标注10×c训练样本时基于cnn深度特征(平均精度±均方差)的性能比较
JHMDB HMDB51 UCF50 UCF101
DML 0.7284±0.0157 0.4897±0.0106 0.8427±0.0187 0.8477±0.0112
SFS 0.6723±0.0164 0.4172±0.0112 0.7844±0.0183 0.8054±0.0101
SFC 0.6934±0.0183 0.4423±0.0087 0.7993±0.0240 0.8107±0.0114
MFC 0.7034±0.0145 0.4623±0.0134 0.8141±0.0177 0.8266±0.0115
SVM-x<sup>2</sup> 0.6710±0.0134 0.4206±0.0152 0.7767±0.0164 0.8001±0.0137
SVM-linear 0.6909±0.0132 0.4512±0.0057 0.7770±0.0212 0.8173±0.0103
表8标注15×c训练样本时基于cnn深度特征(平均精度±均方差)的性能比较
JHMDB HMDB51 UCF50 UCF101
DML 0.7410±0.0082 0.5830±0.0090 0.8899±0.0085 0.8683±0.0078
SFS 0.6923±0.0113 0.5200±0.0123 0.8253±0.0091 0.7898±0.0102
SFC 0.7110±0.0100 0.5373±0.0108 0.8290±0.0089 0.8070±0.0084
MFC 0.7148±0.0089 0.5542±0.0087 0.8513±0.0135 0.8419±0.0087
SVM-x<sup>2</sup> 0.6941±0.0116 0.5189±0.0115 0.8179±0.0075 0.8131±0.0098
SVM-linear 0.7134±0.0086 0.5370±0.0068 0.8439±0.0083 0.8448±0.0070
其中,c表示为每个数据集的类别数(JHMDB、HMDB51、UCF50和UCF101的c=21、51、50、101。
本发明方法始终获得了最佳的识别性能,该半监督算法训练出的分类器识别效果,甚至优于常用的全监督分类器线性SVM。通过手工特征iDT和深度特征CNN的对比,验证了本发明方法的有效性。
本发明所提方法在标注样本数据量很少的情况下,达到相对较好的性能。例如,当3×c(即在JHMDB训练集的660个训练样本中只取63个标注数据)个训练数据被标记时,本发明方法的识别精度达到42.38%,优于其它半监督方法。
考虑到视频人体行为的样本数据可能位于一个多流形子空间,本发明提供的基于多任务学习模型的人体行为分类方法首次提出同时考虑多流形子空间中的类内流形紧凑性和类间流形可分性,通过判别学习和半监督学习,对特征空间变换矩阵(即行为分类器)进行建模。为了解决无约束凸优化问题,本发明结合谱投影梯度和KKT条件,避免求逆矩阵时可能会出现的奇异性问题,从而得到更好的收敛性和更精确的解,并且通过实验说明了算法的收敛性。本发明提供的方法不仅在半监督行为识别中引入了多流形分析,而且设计了一种有效的目标函数最优值求解方法。实验表明本发明所提方法在四个数据集上,均取得了最好的半监督识别效果。与现有的半监督算法相比,提出的分类器训练方法速度最快。
为评估发明方法的性能,本实验选出五个先进的分类器方法,包括x2核的SVM、线性SVM、SFS(即空间特征选择算法)、SFC(即子空间特征相关性算法)和MFC(即多特征相关性算法)。注意,SFS、SFC和MFC都是半监督学习方法,而且SFC和MFC也使用了数据流形转换特征空间。为了验证所提方法的优越性,本实验使用了这些方法的开源代码,并在不同数据集上进行实验比对。
对于训练阶段,先将c表示为每个数据集的类别数(JHMDB、HMDB51、UCF50和UCF101的c=21、51、50、101)。由于半监督训练集包含已标注样本和未标注样本,故随机选择每类30个视频作为子训练集,其中每个类别抽取m个已标注的视频样本(m=3、5、10、15),随机分为3×c、5×c、10×c、15×c,其余训练样本均为未标注视频样本。
对于测试阶段,本实验沿用了JHMDB和HMDB51数据集的原测试集。由于计算资源有限,本实验只在UCF50和UCF101数据集上进行了split1分组的实验测试。
对于半监督参数,包括SFS、SFC、MFC、DML(即判别流形学习算法)的μ,α和β,本实验使用的取值范围为{10-4,10-3,10-2,10-1,1,101,102,103,104}。
对于谱投影梯度参数,由于这些参数对发明所提算法并不敏感,所以设置M=10,αmin=10-15max=1015,充分减小参数γ=10-4,安全保护参数δ1=0.1,δ2=0.9,λnew=(1/2)(δ1λ+δ2λ)。初值α0∈(αminmax)是任意的,本实验设置α0=1。由于FV的维数较高,仅减去后两个目标函数值就很难停止迭代,因此将目标函数值的相对误差作为算法3-1中的迭代终止条件,其中公式(3-19)中的非负极小常数设为10-6
图2至图6列出了不同数量的标注样本作为训练数据时,各种gmmSize参数、谱投影梯度参数、半监督参数对于不同数据集行为识别的性能影响。
本实验以全监督线性分类器SVM作为基准线,分别计算了3×c、5×c、10×c、15×c的平均识别率。当使用iDT特征时,本发明所提算法DML在JHMDB、HMDB51、UCF50和UCF101上的平均精度分别提高了5.02%、3.82%、4.16%和4.24%.当使用TSN特征时,与线性SVM相比,本发明的DML在JHMDB、HMDB51、UCF50和UCF101上的平均识别率分别提高了4.06%、3.92%、5.06%和3.39%.实验表明,合理利用未标注的训练样本数据也可以提高分类器性能。
基于大规模标注数据的深度学习方法,已经在图像分类和行为识别的应用上取得成功。不过为了验证深度学习方法在小规模数据集上的性能,本实验设置提取深度特征TDDs,用PCA将TDDs去相关性降维至D=64,按K=256训练GMM字典,再将每个视频的TDDs编码为FV,并在JHMDB上使用线性SVM识别行为。注意,在此使用了空间conv4+conv5和时间conv3+conv4网络的组合TDDs。
图2阐述了不同gmmSize在JHMDB数据集上的行为识别效果。对人体行为视频分别提取iDT和TDD特征,分别用15×c个已标注训练样本,以及原训练集的全部标注训练样本,将半监督算法DML算法与全监督线性分类器SVM进行对比。实验结果显示,无论是半监督学习还是全监督学习,DML的性能始终优于线性SVM。
为了验证所提出的算法能够通过谱投影梯度法和KKT条件得到最优解,本实验利用目标函数值的收敛曲线对四组数据集进行对比分析。每个数据集的标注训练样本数设为15×c,参数设为取值范围的中间值。结果表明,目标函数值经过几次迭代后开始收敛。本发明非单调递减最优化方法谱投影梯度能在数值计算中取得全局最优解。
本发明还做了一个实验来比较上述半监督算法的计算速度。在JHMDB数据集以15×c标注样本为例,给出的子训练集,用K=16训练GMM码本,然后计算split1分组的平均运行时间。在SFS、SFC和MFC中,由于原始特征的维度较高,故先执行SVD来降低原始特征的维度。由于多流形建模方法的公式推导,以及谱投影梯度方法的非单调性,DML更容易收敛。与SFS、SFC和MFC相比,DML的运行时间分别提高了1.06倍、4.15倍、2.50倍,如表9所示。
表9 JHMDB上的平均运行时间(以秒为单位)
DML SFS SFC MFC
41.93 44.63 173.93 104.83
本发明算法涉及两类参数,即半监督参数和谱投影梯度参数。为了研究它们如何影响行为识别的分类性能和迭代过程,本实验对参数敏感度进行了充分调研。
对于半监督参数,先在图3和图5中验证了DML的优点,接着使用JHMDB和HMDB51数据集的split2分组,研究半监督参数对DML算法的分类性能影响。选取15×c的标注样本作为训练数据,根据经验值设定α=10-3,μ=103,调整β的取值范围。可以看出,随着β从10-4变化到10-2,分类精度相应增加,并在β=10-2时达到峰值。注意,图3和图5可以看作是类内流形与类间流形占比对分类器精度的影响。
假定类内流形结构的比例常数为1,那么更大的
Figure BDA0002451307800000151
意味着要DML会使用更大比例的类间流形结构,反之亦然。当β=0时,表示没有使用类间流形结构。因此,如果α→+∞,则表示没有使用类内流形结构。实验结果表明,在多流形子空间中,适当使用类内紧凑性和类间可分性,可以进一步提高识别性能。图4和图6还列举了β=10-2时,测试参数α,μ敏感度的实验结果。从这些数据可以看出,挖掘多个学习任务之间的相关性有利于提高分类性能。除此之外,本实验在HMDB51上使用TSN特征,也分析了三个半监督参数的敏感度,如图4和图5所示。从图2至图6可以看出,当所有超参数都在一定范围内取值时,分类器性能可以达到比较稳定的高精度。经过本章反复实验,得知α范围在{10-2,10-1,1},β范围在{10-3,10-2,10-1,1},以及μ范围在{10-1,1,101}时,可以在大幅缩小取值范围的同时,取得很好的行为识别精度。
对于谱投影梯度参数,本实验用步长M和识别精度分别反映迭代变化和性能的影响,其中M表示计算不等式的前一次迭代次数。新的目标函数值
Figure BDA0002451307800000161
应该与前M个目标函数值比较。图2给出了四个数据集上M的迭代变化。在图2中,迭代过程随着M值的不同而略有变化,这些参数值的不同影响应该与特征表示的特征有关。一般来说,M对DML的迭代并不敏感。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。

Claims (7)

1.一种基于多任务学习模型的人体行为分类方法,其特征在于,包括:
获取训练集的视频行为样本数据,划分样本数据为有标签数据和无标签数据;
基于类内相似图模型和类间相似图模型建立多流形和标签一致性模型;
基于图嵌入方法对多流形和分类器训练建立多任务学习模型;
提取训练集特征并对特征进行降维;
获取特征输入至所述多任务学习模型进行训练得到分类器结果。
2.如权利要求1所述的基于多任务学习模型的人体行为分类方法,其特征在于,基于类内相似图模型和类间相似图模型建立多流形和标签一致性模型,具体包括:
目标样本点属于目标样本点相邻的同类样本点的子集,则类内相似图模型输出结果为1;
目标样本点不属于目标样本点相邻的同类样本点的子集,则类内相似图模型输出结果为0。
3.如权利要求2所述的基于多任务学习模型的人体行为分类方法,其特征在于,基于类内相似图模型和类间相似图模型建立多流形和标签一致性模型,具体还包括:
目标样本点属于目标样本点相邻的不同类样本点的子集,则类间相似图模型输出结果为1;
目标样本点不属于目标样本点相邻的不同类样本点的子集,则类间相似图模型输出结果为0。
4.如权利要求1所述的基于多任务学习模型的人体行为分类方法,其特征在于,基于图嵌入方法对多流形和分类器训练建立多任务学习模型,具体包括:
基于范数正则化损失函数,更新目标函数。
5.如权利要求1所述的基于多任务学习模型的人体行为分类方法,其特征在于,提取训练集特征并对特征进行降维,具体包括:
基于描述符提取改进的稠密轨迹特征iDTs;
通过主成分分析原理和L2范数进行归一化处理,将维数D降为198;
基于256000个随机采样特征用K阶高斯训练高斯混合模型字典,每个动作视频经过PowerL2归一化后形成2DK维的FV表示,其中2DK等于6336。
6.如权利要求5所述的基于多任务学习模型的人体行为分类方法,其特征在于,提取训练集特征并对特征进行降维,具体还包括:
选取卷积神经网络的深度特征,将空间层和时间层的8个归一化深度特征串联起来,令组合后的TDDs维数为D,其中D等于64乘以8得到的512;
将合并后的TDDs编码成FV来作为深度特征,当K等于16时,每个视频的维数更新为2DK,2DK为16384。
7.如权利要求1所述的基于多任务学习模型的人体行为分类方法,其特征在于,获取特征输入至多任务学习模型进行训练得到分类器结果,具体包括:
基于谱投影梯度方法和迹运算,迭代求解常规无约束极小化问题,得到新的目标函数;
判断新的目标函数是否满足迭代终止条件;
若满足,则得到目标函数的目标解,输出分类结果;
若不满足,则重新计算得到新的目标函数进行判断直至满足迭代终止条件。
CN202010293489.1A 2020-04-15 2020-04-15 一种基于多任务学习模型的人体行为分类方法 Pending CN111488840A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010293489.1A CN111488840A (zh) 2020-04-15 2020-04-15 一种基于多任务学习模型的人体行为分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010293489.1A CN111488840A (zh) 2020-04-15 2020-04-15 一种基于多任务学习模型的人体行为分类方法

Publications (1)

Publication Number Publication Date
CN111488840A true CN111488840A (zh) 2020-08-04

Family

ID=71810971

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010293489.1A Pending CN111488840A (zh) 2020-04-15 2020-04-15 一种基于多任务学习模型的人体行为分类方法

Country Status (1)

Country Link
CN (1) CN111488840A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114897955A (zh) * 2022-04-25 2022-08-12 电子科技大学 一种基于可微几何传播的深度补全方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107784293A (zh) * 2017-11-13 2018-03-09 中国矿业大学(北京) 一种基于全局特征和稀疏表示分类的人体行为识别方法
CN107832711A (zh) * 2017-11-13 2018-03-23 常州大学 一种基于迁移学习的行人重识别方法
CN108416370A (zh) * 2018-02-07 2018-08-17 深圳大学 基于半监督深度学习的图像分类方法、装置和存储介质
CN108846384A (zh) * 2018-07-09 2018-11-20 北京邮电大学 融合视频感知的多任务协同识别方法及系统
CN109063743A (zh) * 2018-07-06 2018-12-21 云南大学 基于半监督多任务学习的医疗数据分类模型的构建方法
US20190087965A1 (en) * 2016-03-18 2019-03-21 President And Fellows Of Harvard College Automatically classifying animal behavior
CN109947954A (zh) * 2018-07-09 2019-06-28 北京邮电大学 多任务协同识别方法及系统
CN110059662A (zh) * 2019-04-26 2019-07-26 山东大学 一种深度视频行为识别方法及系统
US20190321583A1 (en) * 2018-04-20 2019-10-24 Neuroenhancement Lab, LLC System and method for inducing sleep by transplanting mental states
CN110399808A (zh) * 2019-07-05 2019-11-01 桂林安维科技有限公司 一种基于多目标跟踪的人体行为识别方法及系统
US20200078688A1 (en) * 2018-09-07 2020-03-12 Valve Corporation Machine-learned trust scoring for player matchmaking
CN110929578A (zh) * 2019-10-25 2020-03-27 南京航空航天大学 一种基于注意力机制的抗遮挡行人检测方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190087965A1 (en) * 2016-03-18 2019-03-21 President And Fellows Of Harvard College Automatically classifying animal behavior
CN107784293A (zh) * 2017-11-13 2018-03-09 中国矿业大学(北京) 一种基于全局特征和稀疏表示分类的人体行为识别方法
CN107832711A (zh) * 2017-11-13 2018-03-23 常州大学 一种基于迁移学习的行人重识别方法
CN108416370A (zh) * 2018-02-07 2018-08-17 深圳大学 基于半监督深度学习的图像分类方法、装置和存储介质
US20190321583A1 (en) * 2018-04-20 2019-10-24 Neuroenhancement Lab, LLC System and method for inducing sleep by transplanting mental states
CN109063743A (zh) * 2018-07-06 2018-12-21 云南大学 基于半监督多任务学习的医疗数据分类模型的构建方法
CN108846384A (zh) * 2018-07-09 2018-11-20 北京邮电大学 融合视频感知的多任务协同识别方法及系统
CN109947954A (zh) * 2018-07-09 2019-06-28 北京邮电大学 多任务协同识别方法及系统
US20200078688A1 (en) * 2018-09-07 2020-03-12 Valve Corporation Machine-learned trust scoring for player matchmaking
CN110059662A (zh) * 2019-04-26 2019-07-26 山东大学 一种深度视频行为识别方法及系统
CN110399808A (zh) * 2019-07-05 2019-11-01 桂林安维科技有限公司 一种基于多目标跟踪的人体行为识别方法及系统
CN110929578A (zh) * 2019-10-25 2020-03-27 南京航空航天大学 一种基于注意力机制的抗遮挡行人检测方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
ZENGMIN XU 等: "Semisupervised Discriminant Multimanifold Analysis for Action Recognition", 《IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS》 *
储彬彬: "基于深度学习的人类行为分析技术的研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
卢乐炜: "基于深度学习的行为识别算法的实现与优化", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
叶东升: "多流形嵌入子空间聚类方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
游苏英: "基于视频序列的人体异常行为检测研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
钱莉: "基于多任务学习的人体行为识别算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114897955A (zh) * 2022-04-25 2022-08-12 电子科技大学 一种基于可微几何传播的深度补全方法
CN114897955B (zh) * 2022-04-25 2023-04-18 电子科技大学 一种基于可微几何传播的深度补全方法

Similar Documents

Publication Publication Date Title
CN113378632B (zh) 一种基于伪标签优化的无监督域适应行人重识别方法
CN110443143B (zh) 多分支卷积神经网络融合的遥感图像场景分类方法
Jia et al. A semisupervised Siamese network for hyperspectral image classification
Khan et al. Deep unified model for face recognition based on convolution neural network and edge computing
US7724961B2 (en) Method for classifying data using an analytic manifold
CN111126488B (zh) 一种基于双重注意力的图像识别方法
Audebert et al. Generative adversarial networks for realistic synthesis of hyperspectral samples
CN109831392B (zh) 半监督网络流量分类方法
Nasfi et al. A novel approach for modeling positive vectors with inverted dirichlet-based hidden markov models
Cao et al. Adversarial learning with local coordinate coding
CN111695456A (zh) 一种基于主动判别性跨域对齐的低分辨人脸识别方法
CN114998602B (zh) 基于低置信度样本对比损失的域适应学习方法及系统
Xu et al. Semisupervised discriminant multimanifold analysis for action recognition
Zhang et al. Large-scale aerial image categorization using a multitask topological codebook
CN112232395B (zh) 一种基于联合训练生成对抗网络的半监督图像分类方法
CN106778714B (zh) 基于非线性特征和模型合并的lda人脸识别方法
Wang et al. Multiple manifolds metric learning with application to image set classification
Zheng et al. A subspace learning approach to multishot person reidentification
CN113297936B (zh) 一种基于局部图卷积网络的排球群体行为识别方法
CN113762326A (zh) 一种数据识别方法、装置、设备及可读存储介质
CN113761282A (zh) 视频查重方法、装置、电子设备以及存储介质
CN111488840A (zh) 一种基于多任务学习模型的人体行为分类方法
Dong et al. A supervised dictionary learning and discriminative weighting model for action recognition
CN111401440A (zh) 目标分类识别方法、装置、计算机设备及存储介质
Pryor et al. Deepfake Detection Analyzing Hybrid Dataset Utilizing CNN and SVM

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200804