CN111507243B - 一种基于格拉斯曼流形分析的人体行为识别方法 - Google Patents

一种基于格拉斯曼流形分析的人体行为识别方法 Download PDF

Info

Publication number
CN111507243B
CN111507243B CN202010293342.2A CN202010293342A CN111507243B CN 111507243 B CN111507243 B CN 111507243B CN 202010293342 A CN202010293342 A CN 202010293342A CN 111507243 B CN111507243 B CN 111507243B
Authority
CN
China
Prior art keywords
function
training samples
class
grassmann manifold
grassmann
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010293342.2A
Other languages
English (en)
Other versions
CN111507243A (zh
Inventor
徐增敏
李姣芬
李向利
丁勇
李春海
蒙儒省
罗劲锋
徐波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin Anview Technology Co ltd
Guilin University of Electronic Technology
Original Assignee
Guilin Anview Technology Co ltd
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin Anview Technology Co ltd, Guilin University of Electronic Technology filed Critical Guilin Anview Technology Co ltd
Priority to CN202010293342.2A priority Critical patent/CN111507243B/zh
Publication of CN111507243A publication Critical patent/CN111507243A/zh
Application granted granted Critical
Publication of CN111507243B publication Critical patent/CN111507243B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于格拉斯曼流形分析的人体行为识别方法,包括获取数据集的所有训练样本映射到格拉斯曼流形空间;对类内样本点距离和类间样本点距离进行建模;重新定义数据集上的训练样本;建立组合学习模型;对组合学习模型进行迭代求解。以多种特征建模设计分类器模型。从已标注和未标注的行为视频中,基于自定义图模型,通过标签传播方法生成未标注视频的虚拟标签,并使用多流形分析揭示特征数据相关性。对于每种类型特征,既单独保留近邻数据点的局部结构一致性,又在训练集中使用多种特征数据点的全局一致性,来预测未标注样本的标签数据,在标注数据不足时,训练出一种人体行为视频的多分类器,从而提高人体行为识别的准确度。

Description

一种基于格拉斯曼流形分析的人体行为识别方法
技术领域
本发明涉及视频分析处理技术领域,尤其涉及一种基于格拉斯曼流形分析的人体行为识别方法。
背景技术
人体行为识别是智能视频分析领域的研究热点,近几年来受到学术界及工程界的广泛重视。面向的应用包括人体行为属性分析与预判、视频监控、智能家具、人机交互等等。然而,提升人体行为识别的准确率和效率依旧是一个难题。其主要在于以下几个方面:一、类内和类间数据的差异:对于不同的行为之间,存在较大的差异。但是也存在一些特殊的类别之间差异很小,比如KTH数据库中的慢跑和跑步,二者相似度高;二、场景和视频采集条件:随着多媒体时代的到来,互联网上涌现出大量的视频资源,这些视频主要的场景都是以自我为角度下进行拍摄与监控场景下的角度完全不同,并且极少数的监控视频会放到互联网上。目前国内外有多个人体行为数据库供研究人员使用,但仍然难以达到工业级需求。
在过去的几十年里,对人体行为识别的研究主要分成了主要的两种:传统人工特征提取以及近几年流行的深度学习特征提取。常见的行为特征可分为静态特征、动态特征、时空特征和描述性特征。静态特征主要提取的是人体的尺寸大小,边缘,轮廓等等。静态特征可以很好的表示人体的整体信息,为行为识别提供有效信息。但是静态特征依赖着对背景环境的分割,在复杂背景下难以提取较好的静态特征;动态特征不考虑人体的整体信息,从视频中提取出人体运动的信息,其主要包括了人体的运动方向,运动轨迹以及运动速度等等。运动特征表示的是人体的运动信息,其容易收到噪声,颜色等影响。一般用光流法提取运动特征;时空特征利用一段有序的视频序列作为一个整体来分析和处理。时空特征在视频尺度、视频方向和拍摄视频时光照的改变下依然具有良好的稳定性,但是时空特征容易受到背景物体运动所带来的影响。描述性特征主要是对视频人体行为进行描述分类,其能准确的表示人体行为,不过依赖于标注者的专业程度以及标注同类视频的数量,其人工成本消耗最大。
虽然现有行为识别方法可以降低学习动作模型的难度,但这些模型仍存在局限性:现有的行为识别算法评估了不同动作之间共享结构的重要性,但是忽略了类内紧凑性和类间可分性;而近年来流行的半监督学习可以从原始特征空间出发,探索特征间的相关性,充分利用现有数据。能有利于提高人体行为识别因数据量不足带来的性能损失。当前半监督方法虽然可以通过矩阵变换,及交替最小二乘法求解非凸优化问题,但特征子空间中的样本距离度量方法在标注数据不足时可能失准,从而导致人体行为识别精度低。
发明内容
本发明的目的在于提供一种基于格拉斯曼流形分析的人体行为识别方法,旨在解决标注数据不足时,人体行为识别准确度低的问题。
为实现上述目的,本发明提供了一种基于格拉斯曼流形分析的人体行为识别方法,包括:
获取视频数据集的所有训练样本,并将训练样本映射到格拉斯曼流形空间,并定义预测函数;
对格拉斯曼流形空间上的类内样本点距离和类间样本点距离进行建模;
重新定义数据集上的训练样本;
在格拉斯曼流形空间上建立组合学习模型,作为分类器训练的损失函数;
对组合学习模型进行迭代求解,直至满足终止条件停止计算,输出分类结果,并基于分类结果建立人体行为识别的特征空间转换模型。
在一实施方式中,获取视频数据集的所有训练样本,并将训练样本映射到格拉斯曼流形空间,并定义预测函数,具体包括:
基于映射函数将样本点映射至格拉斯曼流形空间;
对数据集的所有训练样本定义一个预测标签矩阵;
基于度量流形空间上数据点相似性的核函数方法和线性约束定义预测函数。
在一实施方式中,对格拉斯曼流形空间上的类内样本点距离和类间样本点距离进行建模,具体包括:
在格拉斯曼流形空间上标定第一数量个已标注样本点;
基于类内最近邻图和类间最近邻图建模。
在一实施方式中,重新定义数据集上的训练样本,具体包括:
划分训练样本为已标注训练样本和未标注训练样本;
基于预测标签矩阵、类内最近邻图、类间最近邻图和对角标注矩阵,建立格拉斯曼流形与标签一致性函数。
在一实施方式中,在格拉斯曼流形空间上建立组合学习模型,作为分类器训练的损失函数,具体包括:
采用范数正则化损失函数,更新格拉斯曼流形与标签一致性函数。
在一实施方式中,对组合学习模型进行迭代求解,直至满足终止条件停止计算,输出分类结果,并基于分类结果建立人体行为识别的特征空间转换模型,具体包括:
基于PBB方法和迹运算,重新标定更新后的格拉斯曼流形与标签一致性函数为目标函数;
基于目标函数的近似静止点,得到迭代终止条件,当满足迭代终止条件时,则停止计算输出分类结果。
本发明的一种基于格拉斯曼流形分析的人体行为识别方法,通过获取视频数据集的所有训练样本,并将训练样本映射到格拉斯曼流形空间,并定义预测函数;对格拉斯曼流形空间上的类内样本点距离和类间样本点距离进行建模;重新定义数据集上的训练样本;在格拉斯曼流形空间上建立组合学习模型,作为分类器训练的损失函数;对组合学习模型进行迭代求解,直至满足终止条件停止计算,输出分类结果,并基于分类结果建立人体行为识别的特征空间转换模型。以多种特征建模的方式来设计人体行为识别的分类器模型。从已标注和未标注的行为视频中,可以提取出的多种特征包括底层动作特征、视频类别标签、转换空间特征三类。基于自定义图模型,可以通过标签传播方法生成未标注视频的虚拟标签,并使用多流形分析来揭示特征数据的相关性。对于每种类型的特征,既能单独保留近邻数据点的局部结构一致性,又能在训练集中使用多种特征数据点的全局一致性,来预测未标注样本的标签数据。通过这种半监督学习方式,在标注数据不足时,训练出一种人体行为视频的多分类器,从而提高人体行为识别的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种基于格拉斯曼流形分析的人体行为识别方法的流程示意图;
图2是各分类器算法在3个公开数据集上,每类使用3个标注样本协同训练的性能对比图;
图3是各分类器算法在3个公开数据集上,每类使用5个标注样本协同训练后的性能对比图;
图4是各分类器算法在3个公开数据集上,每类使用10个标注样本协同训练后的性能对比图;
图5是各分类器算法在3个公开数据集上,每类使用15个标注样本协同训练后的性能对比图;
图6是三种最优化方法在JHMDB数据集上的收敛曲线示意图;
图7是类内流形和类间流形对KGMA性能的影响示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
请参阅图1,图1是本发明实施例提供的一种基于格拉斯曼流形分析的人体行为识别方法的流程示意图,具体的,所述基于格拉斯曼流形分析的人体行为识别方法可以包括以下步骤:
S101、获取视频数据集的所有训练样本,并将训练样本映射到格拉斯曼流形空间,并定义预测函数;
本发明实施例中,基于映射函数将样本点映射至格拉斯曼流形空间;为了发掘行为识别应用中的特征相关性,在格拉斯曼流形空间中有n个训练样本点
Figure GDA0002511303380000051
其中
Figure GDA0002511303380000052
为了保持局部几何结构的同时,最大化样本点的判别能力,可通过映射函数α:Xi→Fi,将样本点Xi映射到一个新的流形空间Fi。对数据集
Figure GDA0002511303380000053
的所有训练样本,定义了一个预测标签矩阵
Figure GDA0002511303380000054
其中
Figure GDA00025113033800000517
是第i个样本数据点
Figure GDA0002511303380000056
的预测向量。存在度量流形空间上数据点相似性的核函数方法ki,j=<Xi,Xj>。通过线性约束
Figure GDA0002511303380000057
可将预测函数F定义为:
f(Xi)=Fi=(<α1,Xi〉,〈α2,Xi〉,...,〈αr,Xi〉)T; (1)
可定义Al=(al1,...,aln)T,Ki=(ki1,...,kin)T,得到
Figure GDA0002511303380000058
因此
Figure GDA0002511303380000059
其中
Figure GDA00025113033800000510
与合页损失(hinge loss)和逻辑斯谛损失(logist loss)等其它损失函数相比,最小二乘损失函数在求解速度和精度上相对更优。定义对角矩阵
Figure GDA00025113033800000511
其中Yi∈{0,1}n×1是第i个样本数据点
Figure GDA00025113033800000512
对应真实标签所做对角矩阵的向量。为了求出投影变换矩阵
Figure GDA00025113033800000513
并以此作为新训练出的多分类器,可以通过最小二乘回归求解以下最优化问题:
Figure GDA00025113033800000514
其中η为正则化参数,
Figure GDA00025113033800000515
表示Frobenius范数,
Figure GDA00025113033800000516
负责控制模型复杂度以防止过拟合。
S102、对格拉斯曼流形空间上的类内样本点距离和类间样本点距离进行建模;
本发明实施例中,线性判别分析(LDA)是一种有监督统计学习方法,通过寻找一种线性投影,可以最大化类间不相似性,以及最小化类内不相似性。由于LDA已经成功应用于各种计算机视觉问题(如人脸识别等),但这种方法仍无法获取数据的局部结构信息,而且难以处理多模态聚类与数据离群值等问题。因此,考虑使用邻域嵌入来定义一个图模型(V,G),并用V表示对应顶点的集合,以及连接顶点对的边的集合;而对称矩阵G描述顶点对之间的相似性。基于图模型的对角矩阵D和拉普拉斯矩阵L可定义为L=D-G,D的对角元素为
D(i,i)=∑j≠iG(i,j)。
可在格拉斯曼流形空间上进行基于图嵌入模型的特征分析。在向量空间中给定一张图,通过将数据点映射到另一个向量空间,且保持图顶点对之间的相似性,图嵌入分析能最大化特征的判别力。该问题可通过广义特征分析进行求解。首先,在格拉斯曼流形空间M上,给定第一数量即N个已标注样本点
Figure GDA0002511303380000061
其中
Figure GDA0002511303380000062
C表示类别数。格拉斯曼流形空间M的局部几何结构,可通过定义类内最近邻图Gw和类间最近邻图Gb来建模,公式如下:
Figure GDA0002511303380000063
Figure GDA0002511303380000064
公式(4)中Nw(Xi)是v个近邻点
Figure GDA0002511303380000065
组成的集合,且对应标签li相同,而公式(5)中Nb(Xi)则表示v个不同类别标签的近邻点。
令映射函数为α:Xi→Yi,可将格拉斯曼流形空间M上的数据点映射到一个新的流形空间M′。为了使得相同类图模型Gw的相连顶点尽量靠近,且不同类图模型Gb的相连顶点尽量拉远,可定义以下2个目标函数:
Figure GDA0002511303380000066
Figure GDA0002511303380000067
公式(6)将惩罚那些在新流形空间M′映射得较远的同类近邻点,而公式(7)则惩罚那些在新流形空间M′映射得较近的不同类样本点。存在一种格拉斯曼核函数方法ki,j=〈Xi,Xj〉,可在流形空间上度量数据点之间的相似性,通过线性约束
Figure GDA0002511303380000068
可将映射后的函数Y定义为:
Yi=(〈α1,Xi>,<α2,Xi>,...,<αr,Xi>)T; (8)
可定义Al=(al1,...,aln)T,Ki=(ki1,...,kin)T,得到
Figure GDA0002511303380000069
因此公式(6)可以简化为:
Figure GDA0002511303380000071
其中
Figure GDA0002511303380000072
由于Lb=Db-Gb,故公式(7)可简化为:
Figure GDA0002511303380000073
可在公式(6)上加入一个约束项,使得这个最小化问题转为最大化问题,即令
Figure GDA0002511303380000074
等于一个常量1,公式(6)可变为以下最大化问题:
Figure GDA0002511303380000075
服从约束
Figure GDA0002511303380000076
通过转换公式,整体最优化目标函数可得:
Figure GDA0002511303380000077
其中β是一个拉格朗日乘子,负责目标函数的正则化。通过以下广义特征值求解问题可以算出公式(13)的最优解:
Figure GDA0002511303380000078
所求投影变换矩阵
Figure GDA0002511303380000079
等价于求解瑞利商的r个最大特征向量:
Figure GDA00025113033800000710
通过求出的映射矩阵
Figure GDA00025113033800000711
在格拉斯曼流形上的图像匹配问题已经变为向量空间的分类问题。对于任一待查询图像集Xq,可用一个映射矩阵
Figure GDA00025113033800000712
和一个核函数的向量来表达,即
Figure GDA00025113033800000713
其中Kq=(〈X1,Xq>,<X2,Xq〉,...,〈XN,Xq〉)T。与此相似,一个检索结果数据点Xi可以用
Figure GDA0002511303380000081
的r维向量来表达,并使用最近邻法和支持向量机等分类方法对Xq进行标注。在格拉斯曼流形空间上的类内样本点距离和类间样本点距离,可通过公式(4)和(5)的最近邻图Gw和类间最近邻图Gb来建模。将格拉斯曼流形空间的判别信息定义为:
Figure GDA0002511303380000082
其中,β是一个控制类内流形紧凑性和类间流形可分性的正则化参数。tr(·)为迹运算,Lw=Dw-Gw为拉普拉斯矩阵,DW和Db为对角矩阵,且
Figure GDA0002511303380000083
S103、重新定义数据集上的训练样本;
本发明实施例中,为了让已标注样本和未标注样本数据同时参与基于图模型的半监督训练,划分训练样本为已标注训练样本和未标注训练样本;具体为重新定义训练数据集为
Figure GDA0002511303380000084
其中
Figure GDA0002511303380000085
Figure GDA0002511303380000086
分别表示已标注训练样本和未标注训练样本两个子集。
Figure GDA0002511303380000087
的标注矩阵为
Figure GDA0002511303380000088
其中
Figure GDA0002511303380000089
图嵌入预测标签矩阵
Figure GDA00025113033800000810
应该与Gw,Gb和对角标注矩阵
Figure GDA00025113033800000811
保持一致性,因此格拉斯曼流形与标签一致性的公式可以定义为:
Figure GDA00025113033800000812
S104、在格拉斯曼流形空间上建立组合学习模型,作为分类器训练的损失函数;
本发明实施例中,为了整合多特征分析和以上公式,在格拉斯曼流形空间上提出一个新的组合学习模型。采用Frobenius范数正则化损失函数,更新格拉斯曼流形与标签一致性函数,即公式(17)可重写为:
Figure GDA00025113033800000813
其中,μ>0,η>0,β>0为正则项。
由于公式(18)是一个无约束凸优化问题,因此可用交替最小二乘法(ALS)来求全局最优解。虽然相关性矩阵只会在极少数情况下出现奇异,但是投影梯度法能避免矩阵求逆求解问题,并得出比ALS更好的最优解。
S105、对组合学习模型进行迭代求解,直至满足终止条件停止计算,输出分类结果,并基于分类结果建立人体行为识别的特征空间转换模型。
本发明实施例中,通用无约束最小化问题可以用PBB方法和迹运算来迭代求解,重新标定更新后的格拉斯曼流形与标签一致性函数为目标函数,即将公式(18)重新定义为一个新的目标函数
Figure GDA0002511303380000091
Figure GDA0002511303380000092
如果
Figure GDA0002511303380000093
是公式(1-19)的一个近似静止点,那么它应该满足公式(19)的KKT条件,即迭代终止条件可改写为:
Figure GDA0002511303380000094
其中ε是一个非负极小值,当满足迭代终止条件时,则停止计算输出分类结果。
梯度方法会通过以下公式生成一些数值点
Figure GDA0002511303380000095
Figure GDA0002511303380000096
其中σt为非单调线性搜索的步长,
Figure GDA00025113033800000913
作为可调线性搜索步长,由以下公式决定:
Figure GDA0002511303380000097
可调线性搜索步长有2种选择
Figure GDA0002511303380000098
Figure GDA0002511303380000099
其中
Figure GDA00025113033800000910
由于公式(23)的可调线性搜索步长能令目标函数变成非单调函数,因此
Figure GDA00025113033800000911
的值可能会在迭代过程中忽然增高引起震荡。为了保证
Figure GDA00025113033800000912
的收敛性,使用了全局非单调线性搜索技术:
Figure GDA0002511303380000101
其中Ct为Armoji线性搜索方法的参数。为了克服非线性搜索技术的缺点,使用加权平均函数值以取代传统最大函数值:
Figure GDA0002511303380000102
其中τ∈(0,1]。
Figure GDA0002511303380000103
Figure GDA0002511303380000111
实验及结果分析,为了比较PBB、SPG和ALS在求解目标函数公式(19)上的差异,在此将使用SPG求解核化流形空间目标函数的方法称为核化谱投影梯度法(KSPG),将使用ALS求解核化流形空间目标函数的方法称为核化交替最小二乘法(KALS)。实验中使用了三个数据集,分别是JHMDB、HMDB51和UCF101。JHMDB是HMDB51的一个子集,有928个剪辑视频,包含21个动作类别。HMDB51数据集包含6766个视频序列,记录51个动作类别。UCF101数据集收集了13320个视频剪辑,包括101个动作类别。在测试集方面,提供JHMDB和HMDB51数据集上的标准测试集,以及UCF101数据集上第一个分组的测试集。
对于JHMDB和HMDB51数据集进行分组。对于UCF101数据集,由于计算复杂度和内存资源有限,故在此只使用了第一个分组的训练集和测试集。其中,将每一类随机选取30个视频作为训练样本,包括有标签的和无标签的样本,并沿用原始测试集来比较平均识别率。
对于手工制作的特征,使用HOG+HOF+MBH描述符提取改进的稠密轨迹特征iDT。通过PCA和L2范数归一化,将维数D降为198。在基于256000个随机采样特征的用K阶高斯训练GMM码本,每个动作视频经过PowerL2归一化后形成2DK=6336维的Fv表示,其中K=16。当gmmSize=16时行为识别的结果如图2至图5所示。
对于深度学习特征,选用时序分割网络TSN提取的深度特征。重新训练3×c、5×c、10×c、15×c的TSN模型,然后提取3×c、5×c、10×c、15×c的全局池化特征,分别通过相应的TSN模型,将rgb+flow 2048维度与Power L2归一化,行为识别结果如表1所示。
表1算法性能对比,使用深度特征TSN,15c个已标注样本和15c个未标注样本
Figure GDA0002511303380000112
Figure GDA0002511303380000121
以JHMDB数据集为例,实验先从原训练集中,随机选取每类30个视频样本组成一个新的子训练集(即30×c个训练样本)。从子训练集中随机选取每类m(m=3,5,10,15)个视频作为已标注样本。当m=10时,表示有10×c个标注样本,剩下30×c-10×c个视频作为为标注样本,一起参与半监督学习的训练过程。验证集和训练集均沿用原数据集的验证集和测试集。由于随机选择训练样本可能出现误差,故重复实验10次计算平均精度和均方差。
为了验证发明所提方法在半监督行为识别应用中的有效性,本实验对比算法SVM-x2、SVM-linear、SFC(子空间特征相关性算法)、SFS(即子空间特征选择算法)、MFC(即多特征相关性算法)的基础上,增加了KSPG、KALS两种算法进行性能对比。其中SFC、SFS、MFC、KGMA、KSPG、和KALS都是半监督学习算法,而SVM-x2、SVM-linear属于全监督分类器。
对于半监督参数,包括SFS、SFC、MFC、KGMA、KSPG、KALS的η,β,μ,使用的取值范围为{10-4,10-3,10-2,10-1,1,101,102,103,104}。由于KGMA使用了PBB求解目标函数(19)的最优值,导致训练迭代过程中会出现函数值震荡的非单调收敛情况,如图6所示,因此仅用绝对误差很难停止迭代,所以将训练过程中前后两次目标函数值的相对误差作为迭代终止条件,其中公式(20)的非负极小常数ε设为10-4
实验还评估了投影映射核k[proj]、以及典型相关核k[CC]、以及两者组合的核函数k[proj+CC]。实验结果指出,在某些数据集上k[proj]会比k[CC]效果更好,反之亦然,这可能是因为这两种核适用于不同的数据分布。对于k[proj+CC]而言,混合系数δ[proj][CC]均设为1。通过δ[proj+CC]组合两种核函数发现,这比单独使用两种核时效果更好,进一步说明了k[proj]和k[CC]分别表征了核化流形空间上不同的数据分布,验证了所提出典型相关核函数方法的有效性。
最优方法对比,针对发明所提目标函数(19),表2列出了三种最优化方法的数值计算结果。在JHMDB数据集上,当使用维度2048的深度特征TSN时,仅用每类15个标注样本和15个未标注样本进行训练,并设置相同的半监督参数η,β,μ,即可通过运行时间、迭代次数、误差、相对误差和目标函数值,来比较相同目标函数求解过程中的性能差异。其中图6为三种最优化方法的收敛曲线图,需要注意的是,由于SPG和PBB都是非单调最优化方法,而且函数值震荡幅度较大,为避免ALS单调收敛的数值能够看出迭代次数和收敛过程,因此在图6中忽略了SPG和PBB前29次的收敛曲线,只从第30步迭代开始显示数据。
如表2所示,对于随机选取的一个视频行为数据样本,经过TSN网络提取出的深度特征,ALS的迭代次数最少,运行时间最短,单次计算速度最快,仅为0.1220秒;PBB的迭代次数最多,运行时间最长,单次计算速度最慢,竟达0.4212秒;而SPG各项指标均属适中。结合图2至图5和表1可知,虽然本发明所提算法KGMA采用了PBB最优化方法,但是整体识别率仍然在核化格拉斯曼流形空间上取得最高性能。
表2三种最优化方法的数值计算结果(JHMDB上用15 c个已标注样本)
Figure GDA0002511303380000131
本实验以线性分类器SVM作为基准线,根据表1和图2至图5的结果显示:本发明所提方法在三个数据集上,对比所有半监督算法和全监督算法,均取得了最高的识别率。如图2至图5所示,当增加已标注样本数量,或者扩大半监督参数η,β,μ的取值范围时,所有半监督分类器都能取得更好的识别效果。当使用手工特征iDT+FV时,将3×c、5×c、10×c、15×c的各项识别率做平均之后,本发明所提算法在JHMDB、HMDB51、UCF101上分别提升了2.97%、2.59%、2.40%,当使用深度特征TSN时,所提算法的平均识别率在JHMDB、HMDB51、UCF101上分别提升了2.21%、3.77%、2.23%,与只用已标注样本的全监督线性分类器SVM相比,使用了未标注样本的行为识别效果更好。
以上结果可以说明:首先,本发明算法不仅利用了半监督学习的优点,还利用了类内紧凑性和类间可分性的特点。因此,当标注样本数量较少时,可以比其它方法提升更多的性能。其次,引入更多未标注样本增加训练样本数,通过核化格拉斯曼流形特征分析,加强了特征子空间的几何结构信息,使用PBB方法和KKT条件求解目标函数最优化问题,在数值计算精度上得到了一定程度提高,并在三个数据集上取得了最好的行为识别结果。
本实验也评估了类内流形和类间流形对KGMA性能的影响,见图7。在JHMDB的split2分组上仅用15×c个已标注样本,根据经验设置半监督参数η=103,μ=10-1,并令β的值从10-4变到104。从图7可以看出,识别精度出现明显震荡,当β=104时当前行为识别精度达到最高值。由于β控制着类内流形和类间流形结构的比例,所以当类内流形结构看作常量1时,可以认为
Figure GDA0002511303380000141
表示类间流形结构作用更大,反之亦然。当β=0时,表示没有使用类间流形结构;而当β→+∞时,表示没有使用类内流形结构。综上所述,当格拉斯曼流形空间同时使用适当比例的类内紧凑性和类间可分性时,本发明识别方法可以进一步提高转换矩阵的分类器性能。
本发明提出了一个新的半监督学习算法,通过在格拉斯曼流形空间上的核化多特征分析,发掘多种特征之间的相关性以提升行为识别性能。在三个数据集上所做实验表明,当标注样本相对较少时,半监督学习训练出的转换矩阵,可以当作行为识别的分类器,并且比同类半监督算法的精度更优。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。

Claims (1)

1.一种基于格拉斯曼流形分析的人体行为识别方法,其特征在于,包括:
获取视频数据集的所有训练样本,并将训练样本映射到格拉斯曼流形空间,并定义预测函数;
对格拉斯曼流形空间上的类内样本点距离和类间样本点距离进行建模;
重新定义数据集上的训练样本;
在格拉斯曼流形空间上建立组合学习模型,作为分类器训练的损失函数;
对组合学习模型进行迭代求解,直至满足终止条件停止计算,输出分类结果,并基于分类结果建立人体行为识别的特征空间转换模型;
所述获取视频数据集的所有训练样本,并将训练样本映射到格拉斯曼流形空间,并定义预测函数,具体包括:
基于映射函数将样本点映射至格拉斯曼流形空间;
具体的,在格拉斯曼流形空间中有n个训练样本点
Figure FDA0003689173190000011
其中
Figure FDA0003689173190000012
对数据集的所有训练样本定义一个预测标签矩阵;
具体的,通过映射函数α:Xi→Fi,将样本点Xi映射到一个新的流形空间Fi,对数据集
Figure FDA0003689173190000013
的所有训练样本,定义了一个预测标签矩阵
Figure FDA0003689173190000014
其中
Figure FDA0003689173190000015
是第i个样本数据点
Figure FDA0003689173190000016
的预测向量;
基于度量流形空间上数据点相似性的核函数方法和线性约束定义预测函数;
具体的,存在度量流形空间上数据点相似性的核函数方法ki,j=<Xi,Xj>,通过线性约束
Figure FDA0003689173190000017
可将预测函数F定义为:
f(Xi)=Fi=(<α1,Xi>,<α2,Xi>,...,<αr,Xi>)T
可定义Al=(al1,...,aln)T,Ki=(ki1,...,kin)T,得到
Figure FDA0003689173190000018
因此
Figure FDA0003689173190000019
其中
Figure FDA00036891731900000110
所述对格拉斯曼流形空间上的类内样本点距离和类间样本点距离进行建模,具体包括:
在格拉斯曼流形空间M上标定第一数量个已标注样本点
Figure FDA00036891731900000111
其中
Figure FDA00036891731900000112
C表示类别数;
基于类内最近邻图和类间最近邻图建模;
具体的,格拉斯曼流形空间M的局部几何结构,可通过定义类内最近邻图Gw和类间最近邻图Gb来建模,公式如下:
Figure FDA0003689173190000021
Figure FDA0003689173190000022
公式中Nw(Xi)是v个近邻点
Figure FDA0003689173190000023
组成的集合,且对应标签li相同,Nb(Xi)则表示v个不同类别标签的近邻点;
所述重新定义数据集上的训练样本,具体包括:
划分训练样本为已标注训练样本和未标注训练样本;
具体的,重新定义训练数据集为
Figure FDA0003689173190000024
其中
Figure FDA0003689173190000025
Figure FDA0003689173190000026
分别表示已标注训练样本和未标注训练样本两个子集;
基于预测标签矩阵、类内最近邻图、类间最近邻图和对角标注矩阵,建立格拉斯曼流形与标签一致性函数;
具体的,
Figure FDA0003689173190000027
的标注矩阵为
Figure FDA0003689173190000028
其中
Figure FDA0003689173190000029
Figure FDA00036891731900000210
图嵌入预测标签矩阵
Figure FDA00036891731900000211
应该与Gw,Gb和对角标注矩阵
Figure FDA00036891731900000212
保持一致性,因此格拉斯曼流形与标签一致性的公式可以定义为:
Figure FDA00036891731900000213
所述在格拉斯曼流形空间上建立组合学习模型,作为分类器训练的损失函数,具体包括:
采用范数正则化损失函数,更新格拉斯曼流形与标签一致性函数;
采用Frobenius范数正则化损失函数,更新格拉斯曼流形与标签一致性函数,即公式
Figure FDA00036891731900000214
可重写为:
Figure FDA00036891731900000215
其中,μ>0,η>0,β>0为正则项;
所述对组合学习模型进行迭代求解,直至满足终止条件停止计算,输出分类结果,并基于分类结果建立人体行为识别的特征空间转换模型,具体包括:
基于PBB方法和迹运算,重新标定更新后的格拉斯曼流形与标签一致性函数为目标函数;
即将公式
Figure FDA0003689173190000031
重新定义为一个新的目标函数
Figure FDA0003689173190000032
Figure FDA0003689173190000033
基于目标函数的近似静止点,得到迭代终止条件,当满足迭代终止条件时,则停止计算输出分类结果;
具体的,迭代终止条件可改写为:
Figure FDA0003689173190000034
其中ε是一个非负极小值,当满足迭代终止条件时,则停止计算输出分类结果。
CN202010293342.2A 2020-04-15 2020-04-15 一种基于格拉斯曼流形分析的人体行为识别方法 Active CN111507243B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010293342.2A CN111507243B (zh) 2020-04-15 2020-04-15 一种基于格拉斯曼流形分析的人体行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010293342.2A CN111507243B (zh) 2020-04-15 2020-04-15 一种基于格拉斯曼流形分析的人体行为识别方法

Publications (2)

Publication Number Publication Date
CN111507243A CN111507243A (zh) 2020-08-07
CN111507243B true CN111507243B (zh) 2022-08-19

Family

ID=71864816

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010293342.2A Active CN111507243B (zh) 2020-04-15 2020-04-15 一种基于格拉斯曼流形分析的人体行为识别方法

Country Status (1)

Country Link
CN (1) CN111507243B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112862020B (zh) * 2021-04-25 2021-08-03 北京芯盾时代科技有限公司 一种数据识别方法、装置及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105005757A (zh) * 2015-03-12 2015-10-28 电子科技大学 一种基于Grassmann流行的车牌字符识别方法
CN109389217A (zh) * 2017-08-04 2019-02-26 广东石油化工学院 基于格拉斯曼核的学习方法
CN109657642A (zh) * 2018-12-29 2019-04-19 山东建筑大学 一种基于黎曼距离的运动想象脑电信号分类方法及系统
CN110569819A (zh) * 2019-09-16 2019-12-13 天津通卡智能网络科技股份有限公司 一种公交车乘客再识别方法
CN110781766A (zh) * 2019-09-30 2020-02-11 广州大学 基于特征谱正则化的格拉斯曼流形判别分析图像识别方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8116566B2 (en) * 2006-08-28 2012-02-14 Colorado State University Research Foundation Unknown pattern set recognition
US11176370B2 (en) * 2018-07-02 2021-11-16 United States Of America As Represented By The Secretary Of The Air Force Diffusion maps and transfer subspace learning

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105005757A (zh) * 2015-03-12 2015-10-28 电子科技大学 一种基于Grassmann流行的车牌字符识别方法
CN109389217A (zh) * 2017-08-04 2019-02-26 广东石油化工学院 基于格拉斯曼核的学习方法
CN109657642A (zh) * 2018-12-29 2019-04-19 山东建筑大学 一种基于黎曼距离的运动想象脑电信号分类方法及系统
CN110569819A (zh) * 2019-09-16 2019-12-13 天津通卡智能网络科技股份有限公司 一种公交车乘客再识别方法
CN110781766A (zh) * 2019-09-30 2020-02-11 广州大学 基于特征谱正则化的格拉斯曼流形判别分析图像识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Grassmann image of non-isotropic surface of pseudo-Euclidean space";P.G.Stegantseva;《Russian Mathematics》;20170308;第61卷;第55-63页 *
"线性动态系统反演模型在人体行为识别的应用";丁文文;《中国图象图形学报》;20190916;第24卷(第09期);第1450-1457页 *
"迁移学习五——GFK";ZLBryant;《https://blog.csdn.net/qq_40824311/article/details/103984384》;20200122;第1-7页 *

Also Published As

Publication number Publication date
CN111507243A (zh) 2020-08-07

Similar Documents

Publication Publication Date Title
Yang et al. Visual sentiment prediction based on automatic discovery of affective regions
Bian et al. A survey on trajectory clustering analysis
Ghiasi et al. Occlusion coherence: Localizing occluded faces with a hierarchical deformable part model
Zhang et al. Detecting densely distributed graph patterns for fine-grained image categorization
CN112307995B (zh) 一种基于特征解耦学习的半监督行人重识别方法
Nasfi et al. A novel approach for modeling positive vectors with inverted dirichlet-based hidden markov models
WO2010062268A1 (en) A method for updating a 2 dimensional linear discriminant analysis (2dlda) classifier engine
Wu et al. Manifold kernel sparse representation of symmetric positive-definite matrices and its applications
Rabiee et al. Crowd behavior representation: an attribute-based approach
Hajati et al. Dynamic texture comparison using derivative sparse representation: Application to video-based face recognition
Zhang et al. Second-and high-order graph matching for correspondence problems
Chen et al. Collaborative multiview hashing
Yang et al. Recognizing cartoon image gestures for retrieval and interactive cartoon clip synthesis
Hu et al. An adaptive multi-projection metric learning for person re-identification across non-overlapping cameras
Wang et al. A novel multiface recognition method with short training time and lightweight based on ABASNet and H-softmax
Xu et al. An ordered-patch-based image classification approach on the image grassmannian manifold
Ning et al. A cpu real-time face alignment for mobile platform
Wanyan et al. Active exploration of multimodal complementarity for few-shot action recognition
Zeng et al. Deep context-sensitive facial landmark detection with tree-structured modeling
Yang et al. Sampling agnostic feature representation for long-term person re-identification
CN111507243B (zh) 一种基于格拉斯曼流形分析的人体行为识别方法
Sajid et al. Facial asymmetry-based feature extraction for different applications: a review complemented by new advances
CN112084353A (zh) 一种快速陆标-卷积特征匹配的词袋模型方法
Wu et al. Mvpn: Multi-view prototype network for 3d shape recognition
Ren et al. Nonnegative discriminative encoded nearest points for image set classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant