CN114627557B - 基于时空流形轨迹建图的3d骨架动作识别方法 - Google Patents
基于时空流形轨迹建图的3d骨架动作识别方法 Download PDFInfo
- Publication number
- CN114627557B CN114627557B CN202210287088.4A CN202210287088A CN114627557B CN 114627557 B CN114627557 B CN 114627557B CN 202210287088 A CN202210287088 A CN 202210287088A CN 114627557 B CN114627557 B CN 114627557B
- Authority
- CN
- China
- Prior art keywords
- space
- manifold
- skeleton
- time
- nodes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000009471 action Effects 0.000 title claims abstract description 77
- 238000000034 method Methods 0.000 title claims abstract description 70
- 238000010276 construction Methods 0.000 title claims abstract description 6
- 230000033001 locomotion Effects 0.000 claims abstract description 36
- 238000013507 mapping Methods 0.000 claims abstract description 25
- 210000000988 bone and bone Anatomy 0.000 claims abstract description 20
- 238000005096 rolling process Methods 0.000 claims abstract description 12
- 238000013519 translation Methods 0.000 claims abstract description 5
- 238000012360 testing method Methods 0.000 claims description 15
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 239000013598 vector Substances 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 8
- 238000013461 design Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 claims description 4
- 230000002093 peripheral effect Effects 0.000 claims description 3
- 238000000547 structure data Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 7
- 238000005516 engineering process Methods 0.000 abstract description 2
- 239000011159 matrix material Substances 0.000 description 10
- 238000003909 pattern recognition Methods 0.000 description 7
- 230000002123 temporal effect Effects 0.000 description 7
- 238000013473 artificial intelligence Methods 0.000 description 5
- 230000006399 behavior Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 241000965478 Darksidea epsilon Species 0.000 description 2
- 241001081179 Litsea Species 0.000 description 2
- 235000012854 Litsea cubeba Nutrition 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000003012 network analysis Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2137—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on criteria of topology preservation, e.g. multidimensional scaling or self-organising maps
- G06F18/21375—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on criteria of topology preservation, e.g. multidimensional scaling or self-organising maps involving differential geometry, e.g. embedding of pattern manifold
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
基于时空流形轨迹建图的3D骨架动作识别方法,涉及计算机视觉技术。准备动作识别方向骨架数据集,通过计算任意两对骨头之间的旋转平移关系,获取骨架动作序列的李群流形特征,根据李群流形特征的时序关系将该特征表现为时空轨迹曲线的形式;使用基于连续投影的节点建图方法,建成动作节点间的相似性联系图;将以时空轨迹曲线为特征的动作序列和节点相似性图作为输入传入图卷积,通过图卷积的迭代更新,不断更新图中边的权值,使相似节点间的边权值增加,断开不相似节点间的边,使得相似节点更接近,不相似节点更远。在多个公开数据集取得较好动作识别性能,能够有效地在流形空间中建图,并且结合图卷积模块可以有较好的动作识别效果。
Description
技术领域
本发明涉及计算机视觉技术,具体是涉及一种基于时空流形轨迹建图的3D骨架动作识别方法。
背景技术
人工智能的蓬勃发展和计算机视觉的兴起使得动作识别任务受到越来越多的重视[7][13][42]。在智能安防、人机交互和沉浸式游戏中,动作识别正发挥越来越重要的作用。利用动作识别可以进行危险动作预警,为人机交互提供更加方便的动作指令,并且使得沉浸式游戏中有着更加丰富和细腻的游戏体验。随着计算机算力的提高和捕获人体骨架运动的设备的发展,越来越多的注意力集中到了基于骨架的动作识别任务上。由于骨架序列数据的获取更加方便,同时也因为基于骨架的动作识别方法具有能够排除背景影响,视角不变性和能够更加关注到运动特征本身等优点,越来越多的研究者在基于骨架的动作识别任务上取得了进步。
现有动作识别方法主要有三类:基于骨架坐标的空间特征的方法、基于骨架坐标的时序信息的方法和基于时空联合特征的方法。基于骨架坐标空间特征方法中,关节位置轨迹的协方差矩阵是在时间层次上计算的,以建立骨骼序列的模型。或者关节的成对相对位置也被用来描述骨骼序列的姿态特征、运动特征和偏移特征,然后将主成分分析应用于归一化特征,计算特征关节作为表示。也有一些学者将身体各部分之间的旋转和平移被用作特征,并用傅里叶时间金字塔(Fourier Temporal Pyramid,FTP)对时间动态进行建模。这些方法更多地关注的是骨架运动特征中关节的空间变化关系,一定程度上弱化了对时间序列特征的关注。
基于时序信息的方法中,计算每个关节与其他关节的成对相对位置来表示骨架序列的每一帧,并建模时域信息。或者计算三维关节位置的直方图来表示骨架序列的每一帧,并使用HMMs来建模时间动力学。Kim等人提出使用时间卷积神经网络(TemporalConvolutional Network,TCN)的模型进行3D人体动作识别,与流行的基于LSTM的递归神经网络模型相比,在给定可解释的输入的情况下,TCN可以为提供更强的可解释性。这些方法能够兼顾运动特征的时空特征,但是可能会忽略一些具有全局性关联的空间特征,也不能够密切联系时间特征和空间特征。
基于时空联合特征的方法中,Yan等设计了包含时间信息的动作识别骨架序列图,利用时空图卷积网络学习动作序列中的时空特征。Ke等人使用深度卷积神经网络,得到骨架序列的时序特征,并使用多任务学习网络联合处理生成的片段的所有帧,结合骨架空域信息进行动作识别。还有一些学者使用GCN结合LSTM或双流网络结构来提取动作序列中的时空信息。这些方法能够关注到时空特征的密切联系,但是由于动作特征还具有时空共现性,这些方法不能够准确地描述这一特性。
为解决上面这些问题,本发明提出一种黎曼流形中的轨迹曲线特征,作为动作序列的特征。由于该特征中包含了骨架中任意两个骨头间的相对运动关系,表现为保留了时间序列和空间特征关系的流形轨迹曲线的形式。该特征是能够体现动作的运动时空特征的具有判别性的特征。但是由于将该特征直接放入神经网络中进行学习将带来很大的时间空间复杂度,同时目前的研究中,很难使用神经网络在保留流形约束的情况下较好地挖掘其中包含的丰富信息。最近,Wang等人提出了一种基于图节点的GCN来解决节点间连接预测问题。受到该方法的启发,本发明尝试将动作作为节点,在其流形轨迹特征上对所有节点进行相似性建图,使用图卷积进行连接预测,最后实现动作的分类。在这个问题上,本发明要解决的难点是如何在流形特征上实现动作节点建图。
建图方法目前常用于社交网络分析中成员的相似性确定中,基于此建图用作下一步的智能推荐。在这些应用中,任务的多维度特征通常是欧式空间中的数据,现有的KNN等方法可以解决这类问题。然而,在应用场景中,希望能够在流形数据特征上实现动作节点的建图。所以在本发明提出一种基于黎曼度量的流形中的建图方法,该方法可以尽可能地利用流形数据中的丰富信息,同时使用的黎曼度量方法可以使得运动数据在流形空间中和对应的映射空间中尽可能相等。
发明内容
本发明目的在于针对现有动作识别模型中存在的上述技术问题,提供一种基于时空流形轨迹建图的3D骨架动作识别方法;使用黎曼度量对用来表示骨架间相对运动关系的流形时空轨迹特征进行度量,用以初步建立动作节点间的相似性图,再通过图卷积实现对相似或同类间节点间拉近,相异或不同类节点间推远,让同类的动作节点聚集在一起形成簇,最后由伪标签传播,实现动作的分类。
本发明包括以下步骤:
1)准备基于骨架的动作识别数据集;
2)使用设计计算骨架序列中任意两对骨头间的相对运动关系的流形特征学习算法,通过该算法来提取动作序列中的时空轨迹的特征;
3)设计基于连续投影的节点相似性建图方法,对动作序列节点进行初始的相似性建图,得到相似性建图的邻接表;
4)设计深度时空流形特征学习子模块;
5)设计能够进行相似性学习的图卷积网络;
6)在大规模的骨架序列数据上,利用反向传播算法对时空流形特征学习子模块和图卷积网络进行端到端训练,得到最终训练好的模型;
7)利用训练好的模型进行动作识别,将最终网络模型的输出特征概率的最大值对应的标签作为动作识别的类别标签。
在步骤1)中,所述准备动作识别识别方向数据集的具体方法为:假设动作序列的帧数为F,关节数量为Nj,所以在第f帧的第n个关节的坐标表示为一个动作序列的三维坐标表示为/>
在步骤2)中,所述设计流形特征学习算法的获得的特征具体约束如下:
其中SE(3)是特殊欧氏运动群(Special Euclidean group),SO(3)是特殊正交群(Special Orthogonal group),R表示三维空间中的旋转关系,d表示三维空间中的平移关系。
在步骤3)中,所述得到相似性建图的邻接表的具体步骤如下:
(1)计算每个类在流形中的平均轨迹曲线;
(2)训练轨迹曲线沿着平均轨迹曲线/>方向,连续投影,得到连续投影后在切空间中的曲线Strain特征;
(3)所有测试集轨迹曲线沿着平均轨迹曲线/>方向,连续投影,得到测试集轨迹曲线/>在沿着M条平均曲线路径上连续展开的曲线集{S1,S2...SM};
(4)给定某个曲线Strain特征,利用DTW计算和该曲线最相似的K条轨迹曲线,得到训练数据节点的邻接表Ttrain;
(5)给定某个曲线Stest特征,利用DTW计算和该曲线最相似的K条轨迹曲线,得到测试数据节点的邻接表Ttest。
在步骤4)中,设计深度时空流形特征学习子模块的具体要求如下:
在轨迹曲线特征学习部分的第一个模块,先设置一个李群流形中的学习参数RS,然后对进行过流形学习的数据执行一次空间池化,这样一方面能够挑选出经过前一层学习后的更有判别性的空间特征,另一方面降低了空域特征的计算量,便于后一步计算;相似地,第二个模块也设置一个李群流形中的学习参数RT,然后再对数据执行一次时间池化,这样一方面能够挑选出经过前一层学习后的更有判别性的时间特征,另一方面降低了时域特征的计算量。
在这里RS∈SE(3),RT∈SE(3)。不妨假设每次传入的数据为D∈SE(3),由于李群运算的保留性,所以有:
D·RS∈SE(3)
D·RT∈SE(3)
所以在轨迹曲线特征学习部分里,网络参数学习约束在李群流形中。
在步骤5)中,所述设计能够进行相似性学习的图卷积网络的具体步骤如下:
在图卷积模块,对所有的动作节点进行循环,将所有节点放入一个队列,构造一个以每个节点为中心点的领域子图,并预测所包含的周边节点与该中心点之间连接的可能性。结果可以得到了一组权重为连接概率的边。为了使得相似的节点聚集在一起,一个简单的方法是将权重低于某个阈值的边剪除,并使用广度优先搜索来传播伪标签。在每一次迭代中,将边缘更新到某个阈值以下,并在下一次迭代中保持大于预先定义的最大值的连通簇。在下一个迭代中,增加了更新边缘的阈值。重复这个循环过程,直到队列为空,这时候所有节点已经打上了类别的伪标签,取每个簇的中心节点的标签来传播,即实现节点的分类。
与现有技术相比,本发明具有以下优点:
1、本发明设计流形特征学习算法,能够学习具有时空信息表达能力的特征。使用相对关系的流形时空轨迹特征有如下这些好处:
(1)用来表示骨架间旋转关系的特征具有尺度不变性,即不管以多大的尺度去表示骨架,骨架间的旋转关系是不变的。
(2)相对关系具有空间共现性,即能够挖掘任意两个骨头之间的运动变化关系,不仅仅局限于那些空间上相连的骨架变化关系。
(3)表示成骨架相对关系轨迹曲线的形式能够将空间特征和时间特征紧密联系起来,即所有的空间特征按照时间序列信息在流形中排列成曲线,能够区分某个空间上相似的特征是否处在相同的时间轴上。
2、本发明设计基于连续投影的流形相似性建图方法,该方法在投影过程中尽可能地保留了节点间的局部相似性和全局相似性,不至于在投影过程中导致节点之间的距离发生扭曲,使得节点间的距离发生变化而影响后续的节点分类;
3、本发明设计的方法结合流形学习子网络和图卷积网络,这两部分网络之间的参数能够通过正向传播和反向传播互相学习,共同促进网络的学习效果,最后获得一个较好的动作识别效果。
附图说明
图1为本发明实施例的框架图。
具体实施方式
为使本发明的上述目的、特征和优点能够更明显易懂,以下结合附图和实施例对本发明的方法作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出实施方式和具体操作过程,但本发明的保护范围不限于下述的实施例。
参见图1,本发明实施例的实施方式包括以下步骤:
1.准备动作识别方向数据集。假设动作序列的帧数为F,关节数量为Nj,所以在第f帧的第n个关节的坐标表示为一个动作序列的三维坐标表示为有了这些三维坐标,在数据集里面还给出了身体结构数据,即给出了以上关节点在身体构造中,哪些相连,哪些一起组成一个骨头。在这里假设在第一帧里关节i和关节j是一个骨头Bij的两端。
这个骨头可表示为此时,一根骨头已经可以表示成三维空间中的一个向量,同样地可以得到骨头的集合/>由于目前的骨架数据中身体结构图都是无环图,那么骨头数量是Nj-1。在身体骨架中,由任意两个不同骨头组成的相对关系组成的关系对有(Nj-1)*(Nj-2)对。
2.设计流形特征学习算法,通过该方法获得的动作序列特征符合李群流形约束。
B1.以第一帧两个部位的相对关系为例,推导如何从骨架的三维坐标变换到SE3行为曲线。假定这两个部位是em和en,数据集中给了各个关节的3D坐标和哪些关节之间是相连的等关系。为了表示部位,在3维空间中,只要用空间中的两个点的坐标做差,就能得到两点之间的线段的向量。用这种方法,从关节坐标中得到与之对应的两个部位em和en的向量表示方法。
B2.为了计算这两个向量之间的旋转关系,可以先确定这两个向量之间的旋转轴r和旋转角θ。由点积的定义可得em·en=|em||en|cosθ,故可以求出两个部位之间的旋转角旋转角所在的平面为由em和en所构成的平面,那么旋转轴必垂直该平面。令em=(am,bm,cm)和en=(an,bn,cn),设旋转轴r(ar,br,cr),因为垂直关系,r·en=r·em=0,根据这个等式,那么可以解得,旋转轴r(ar,br,cr)如下:
B3.把旋转轴规范到单位长度后,得到由旋转轴和旋转角构成得旋转向量R=rθ。旋转向量到旋转矩阵的过程由罗德里格斯公式给出,如下:R=cosθI+(1-cosθ)rr′+sinθr^得到的这个旋转矩阵R是3×3的正交矩阵,是SO3中的元素。在上面的过程中只描述了两个向量之间的旋转,但是他们之间还存在一组平移关系d(x,y,z)。为了更进一步描述两个部位之间的关系,使用一个4×4的矩阵来描述这个关系,即SE3矩阵。
B4.由于SE3矩阵是李群SE3中的元素,可以视为黎曼流形中的一个点,那么SE3×SE3×...SE3可以看作是该流形中的一条轨迹曲线。使用这样的行为曲线可以准确地描述身体结构中相对关系随着时间变化的空时信息。使用所提出的骨架表示方式,一个骨架序列描述一个动作可以被表示为一个在SE(3)×...×SE(3)中的曲线。
B5.所采用的人体骨架表示方法所得到的人体骨架,只是黎曼流形空间中李群曲线上的一个点,而一套完整的行为,是人体骨架在整个运动过程中的一个序列,在黎曼流形空间中李群曲线中对应为有限个点的集合,其并不是曲线。为了得到每套行为在李群中的行为曲线,对这些点进行插值。在这里采用基于旋转运动的分段插值,给定Q1,Q2,...,Qn∈SE(3)分别在时间t1,t2,...,tn-1,tn上,使用如下的曲线来进行插值:
其中该方法产生的轨迹不依赖于SE(3)的参数化,独立于惯性和身体固定参考系的选择,并且具有所需要的光滑的特性。然而,该轨迹并没有几何意义上的最优损失函数。其主要思想是利用指数函数在SE(3)上的性质来达到轨迹对于身体固定和惯性参考系选择的不变性
3.借助基于投影的时空流形轨迹建图方法,对以时空流形轨迹为特征的动作序列节点进行建图。
C1.计算每个类在流形中的平均轨迹曲线;
C2.训练轨迹曲线沿着平均轨迹曲线/>方向,连续投影,得到连续投影后在切空间中的曲线Strain特征;
C3.所有测试集轨迹曲线沿着平均轨迹曲线/>方向,连续投影,得到测试集轨迹曲线/>在沿着M条平均曲线路径上连续展开的曲线集{S1,S2...SM};
C4.给定某个曲线Strain特征,利用DTW计算和该曲线最相似的K条轨迹曲线,得到训练数据节点的邻接表Ttrain;
C5.给定某个曲线Stest特征,利用DTW计算和该曲线最相似的K条轨迹曲线,得到测试数据节点的邻接表Ttest;
4.设计流形特征学习模块结合图卷积模块的深度网络,用以进行动作识别目标任务。
D1.在轨迹曲线特征学习部分的第一个模块,先设置一个李群流形中的学习参数RS,然后对进行过流形学习的数据执行一次空间池化,这样一方面能够挑选出经过前一层学习后的更有判别性的空间特征,另一方面降低了空域特征的计算量,便于后一步计算;相似地,第二个模块也设置一个李群流形中的学习参数RT,然后再对数据执行一次时间池化,这样一方面能够挑选出经过前一层学习后的更有判别性的时间特征,另一方面降低了时域特征的计算量。
在这里RS∈SE(3),RT∈SE(3)。不妨假设每次传入的数据为D∈SE(3),由于李群运算的保留性,所以有:
D·RS∈SE(3)
D·RT∈SE(3)
D2.在图卷积模块,对所有的动作节点进行循环,将所有节点放入一个队列,构造一个以每个节点为中心点的领域子图,并预测所包含的周边节点与该中心点之间连接的可能性。结果可以得到了一组权重为连接概率的边。为了使得相似的节点聚集在一起,一个简单的方法是将权重低于某个阈值的边剪除,并使用广度优先搜索来传播伪标签。在每一次迭代中,将边缘更新到某个阈值以下,并在下一次迭代中保持大于预先定义的最大值的连通簇。在下一个迭代中,增加了更新边缘的阈值。重复这个循环过程,直到队列为空,这时候所有节点已经打上了类别的伪标签,取每个簇的中心节点的标签来传播,即实现了节点的分类。
5.设计目标任务损失优化函数。
这里N是骨架动作序列数,p是动作序列真实标签,q是动作序列预测概率,ω是权重矩阵,C是骨架动作类别数。
6.在大规模骨架数据上,利用反向传播算法对设计好的网络进行训练,这两部分网络之间的参数能够通过正向传播和反向传播互相学习,共同促进网络的学习效果。
7.利用训练好的模型进行动作识别,将最终网络模型的输出特征概率的最大值对应的标签作为动作识别的类别标签。
表1
方法 | 准确率(%) |
RBM+HMM | 86.41 |
SE3+FTP | 87.23 |
SO3 | 87.95 |
SO3+Deep | 89.10 |
本发明 | 90.69 |
表2
方法 | 准确率(%) |
SPDNet | 61.45 |
SE3+FTP | 70.26 |
SO3 | 71.31 |
SO3+Deep | 75.78 |
PB-GCN | 88.17 |
本发明 | 90.05 |
表3
表1~3分别为在G3D,HDM05和NTU-RGBD数据集上,本发明提出的方法与其他基于骨架的动作识别结果对比。在表1~3中,其他方法如下:
RBM+HMM对应Nie等人提出的方法(Nie S,Ji Q.Capturing global and localdynamics for human action recognition[C].//Proceedings of the 2014 22ndInternational Conference on Pattern Recognition.IEEE,2014,1946–1951.)
SE3+FTP对应Vemulapalli等人提出的方法(Vemulapalli R,Arrate F,ChellappaR.Human action recognition by representing 3D skeletons as points in a liegroup[C].//Proceedings of the IEEE Conference on Computer Vision and PatternRecognition.2014,588–595.)
SO3对应Vemulapalli等人提出的方法(Vemulapalli R,Chellapa R.Rollingrotations for recognizing human actions from 3D skeletal data[C].//Proceedings of the IEEE Conference on Computer Vision and PatternRecognition.2016,4471–4479.)
SO3+Deep对应Huang等人提出的方法(Huang Z,Van Gool L.A Riemanniannetwork for SPD matrix learning[C].//Proceedings of the Thirty-First AAAIConference on Artificial Intelligence.2017,31(1).)
SPDNet对应Huang等人提出的方法(Huang Z,Van Gool L.A Riemannian networkfor SPD matrix learning[C].//Proceedings of the Thirty-First AAAI Conferenceon Artificial Intelligence.2017,31(1).)
PB-GCN对应Thakkar等人提出的方法([74]Thakkar K,Narayanan P.Part-basedgraph convolutional network for action recognition.arXiv preprint arXiv:1809.04983.2018.)
Deep-LSTM对应Shahroudy等人提出的方法(Shahroudy A,Liu J,Ng T,WangG.NTU RGB+D:A large scale dataset for 3D human activity analysis[C].//Proceedings of the IEEE Conference on Computer Vision and PatternRecognition.2016,1010–1019.)
ST-LSTM对应Liu等人提出的方法(Liu J,Shahroudy A,Xu D,Wang G.Spatio-temporal LSTM with trust gates for 3D human action recognition[C].//Proceedings of the European Conference on Computer Vision.Springer,2016,816–833.)
TCN对应Soo等人提出的方法(Soo Kim T,Reiter A.Interpretable 3D humanaction analysis with temporal convolutional networks[C].//Proceedings of theIEEE Conference on Computer Vision and Pattern Recognition Workshops.2017,20–28.)
GCA-LSTM对应Liu等人提出的方法(Liu L,Wang G,Hu P,Duan L,A.C.Kot.Globalcontext-aware attention LSTM networks for 3D action recognition[C].//Proceedings of the IEEE Conference on Computer Vision and PatternRecognition.2017,1647–1656.)
HCN对应Li等人提出的方法(Li C,Zhong Q,Xie D,Pu S.Co-occurrence featurelearning from skeleton data for action recognition and detection withhierarchical aggregation.arXiv preprint arXiv:1804.06055.2018.)
ST-GR对应Li等人提出的方法(Li B,Li X,Zhang Z,Wu F.Spatio-temporalgraph routing for skeleton-based action recognition[C].//Proceedings of theAAAI Conference on Artificial Intelligence,vol.33.2019,8561–8568.)
ST-GCN对应Yan等人提出的方法(Yan S,Xiong Y,Lin D.Spatial temporalgraph convolutional networks for skeleton-based action recognition[C].//Proceedings of the AAAI conference on artificial intelligence.2018,32(1).)
DGNN对应Shi等人提出的方法(Shi L,Zhang Y,Cheng J,Lu H.Skeleton-basedaction recognition with directed graph neural networks[C].//Proceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition.2019,7912–7921.)
实验表明,本发明首先考虑到在时空流形轨迹特征能够更加充分地利用动作序列中的时空特征,而目前常用的使用流形特征进行相似性建图的方法在动作识别领域效果不好,导致动作识别性能不佳。提出基于时空流形轨迹建图的3D骨架动作识别方法。在准备的动作识别方向骨架数据集上,通过计算任意两对骨头之间的旋转平移关系,获取骨架动作序列的李群流形特征,根据李群流形特征的时序关系将该特征表现为时空轨迹曲线的形式。使用基于连续投影的节点建图方法,建成动作节点间的相似性联系图;将以时空轨迹曲线为特征的动作序列和节点相似性图作为输入传入图卷积,通过图卷积的迭代更新,不断更新图中边的权值,使得相似的节点间的边权值增加,断开不相似节点间的边,使得相似的节点更接近,不相似的节点更远。在多个公开数据集上都取得较好的动作识别性能,证明所提出的方法能够有效地在流形空间中建图,并且结合图卷积模块可以有较好的动作识别效果。
Claims (5)
1.基于时空流形轨迹建图的3D骨架动作识别方法,其特征在于包括以下步骤:
1)准备基于骨架的动作识别数据集;
2)使用设计计算骨架序列中任意两对骨头间的相对运动关系的流形特征学习算法,通过该算法提取动作序列中的时空轨迹的特征;
3)设计基于连续投影的节点相似性建图方法,对动作序列节点进行初始的相似性建图,得到相似性建图的邻接表;
所述得到相似性建图的邻接表的具体步骤如下:
(1)计算每个类在流形中的平均轨迹曲线;
(2)训练轨迹曲线沿着平均轨迹曲线/>方向,连续投影,得到连续投影后在切空间中的曲线Strain特征;
(3)所有测试集轨迹曲线沿着平均轨迹曲线/>方向,连续投影,得到测试集轨迹曲线/>在沿着M条平均曲线路径上连续展开的曲线集{S1,S2...SM};
(4)给定某个曲线Strain特征,利用DTW计算和该曲线最相似的K条轨迹曲线,得到训练数据节点的邻接表Ttrain;
(5)给定某个曲线Stest特征,利用DTW计算和该曲线最相似的K条轨迹曲线,得到测试数据节点的邻接表Ttest;
4)设计深度时空流形特征学习子模块;
5)设计能进行相似性学习的图卷积网络;
6)在大规模的骨架序列数据上,利用反向传播算法对时空流形特征学习子模块和图卷积网络进行端到端训练,得到最终训练好的模型;
7)利用训练好的模型进行动作识别,将最终网络模型的输出特征概率的最大值对应的标签作为动作识别的类别标签。
2.如权利要求1所述基于时空流形轨迹建图的3D骨架动作识别方法,其特征在于在步骤1)中,所述准备基于骨架的动作识别数据集的具体方法为:假设动作序列的帧数为F,关节数量为Nj,在第f帧的第n个关节的坐标表示为一个动作序列的三维坐标表示为/>有了这些三维坐标,在数据集里面给出身体结构数据,即给出关节点在身体构造中,哪些相连,哪些一起组成一个骨头;假设在第一帧里关节i和关节j是一个骨头Bij的两端,这个骨头表示为/>此时,一根骨头表示成三维空间中的一个向量,得到骨头的集合/>目前骨架数据中身体结构图都是无环图,骨头数量是Nj-1;在身体骨架中,由任意两个不同骨头组成的相对关系组成的关系对有(Nj-1)*(Nj-2)对。
3.如权利要求1所述基于时空流形轨迹建图的3D骨架动作识别方法,其特征在于在步骤2)中,所述提取动作序列中的时空轨迹的特征,设计流形特征学习算法的获得的特征具体约束如下:
其中,SE(3)是特殊欧氏运动群,SO(3)是特殊正交群,R表示三维空间中的旋转关系,d表示三维空间中的平移关系。
4.如权利要求1所述基于时空流形轨迹建图的3D骨架动作识别方法,其特征在于在步骤4)中,所述设计深度时空流形特征学习子模块的具体要求如下:
在轨迹曲线特征学习部分的第一个模块,先设置一个李群流形中的学习参数RS,然后对进行过流形学习的数据执行一次空间池化,一方面挑选出经过前一层学习后的更有判别性的空间特征,另一方面降低空域特征的计算量;第二个模块设置一个李群流形中的学习参数RT,然后再对数据执行一次时间池化,一方面挑选出经过前一层学习后的更有判别性的时间特征,另一方面降低时域特征的计算量;
RS∈SE(3),RT∈SE(3);假设每次传入的数据为D∈SE(3),由于李群运算的保留性,所以有:
D·RS∈SE(3)
D·RT∈SE(3)
在轨迹曲线特征学习部分里,网络参数学习约束在李群流形中。
5.如权利要求1所述基于时空流形轨迹建图的3D骨架动作识别方法,其特征在于在步骤5)中,所述设计能进行相似性学习的图卷积网络的具体步骤如下:
在图卷积模块,对所有的动作节点进行循环,将所有节点放入一个队列,构造一个以每个节点为中心点的领域子图,并预测所包含的周边节点与该中心点之间连接的可能性,得到一组权重为连接概率的边;为使相似节点聚集在一起,将权重低于某个阈值的边剪除,并使用广度优先搜索来传播伪标签;在每一次迭代中,将边缘更新到某个阈值以下,并在下一次迭代中保持大于预先定义的最大值的连通簇,在下一个迭代中,增加更新边缘的阈值,重复这个循环过程,直到队列为空,此时所有节点已经打上类别的伪标签,取每个簇的中心节点的标签来传播,即实现节点的分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210287088.4A CN114627557B (zh) | 2022-03-22 | 2022-03-22 | 基于时空流形轨迹建图的3d骨架动作识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210287088.4A CN114627557B (zh) | 2022-03-22 | 2022-03-22 | 基于时空流形轨迹建图的3d骨架动作识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114627557A CN114627557A (zh) | 2022-06-14 |
CN114627557B true CN114627557B (zh) | 2024-05-31 |
Family
ID=81904735
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210287088.4A Active CN114627557B (zh) | 2022-03-22 | 2022-03-22 | 基于时空流形轨迹建图的3d骨架动作识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114627557B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101849020A (zh) * | 2007-05-29 | 2010-09-29 | 耶鲁大学 | 核糖开关及使用核糖开关的方法和组合物 |
CN102521843A (zh) * | 2011-11-28 | 2012-06-27 | 大连大学 | 一种基于流形学习的三维人体运动分析与合成方法 |
CN109298785A (zh) * | 2018-09-06 | 2019-02-01 | 天津联图科技有限公司 | 一种监测设备的人机联控系统及方法 |
CN109858390A (zh) * | 2019-01-10 | 2019-06-07 | 浙江大学 | 基于端到端时空图学习神经网络的人体骨架的行为识别方法 |
CN109902614A (zh) * | 2019-02-25 | 2019-06-18 | 重庆邮电大学 | 一种基于局部时空特征的人体行为识别方法 |
CN111476181A (zh) * | 2020-04-13 | 2020-07-31 | 河北工业大学 | 一种人体骨架动作的识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273872B (zh) * | 2017-07-13 | 2020-05-05 | 北京大学深圳研究生院 | 用于图像或视频中行人重识别的深度判别网络模型方法 |
-
2022
- 2022-03-22 CN CN202210287088.4A patent/CN114627557B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101849020A (zh) * | 2007-05-29 | 2010-09-29 | 耶鲁大学 | 核糖开关及使用核糖开关的方法和组合物 |
CN102521843A (zh) * | 2011-11-28 | 2012-06-27 | 大连大学 | 一种基于流形学习的三维人体运动分析与合成方法 |
CN109298785A (zh) * | 2018-09-06 | 2019-02-01 | 天津联图科技有限公司 | 一种监测设备的人机联控系统及方法 |
CN109858390A (zh) * | 2019-01-10 | 2019-06-07 | 浙江大学 | 基于端到端时空图学习神经网络的人体骨架的行为识别方法 |
CN109902614A (zh) * | 2019-02-25 | 2019-06-18 | 重庆邮电大学 | 一种基于局部时空特征的人体行为识别方法 |
CN111476181A (zh) * | 2020-04-13 | 2020-07-31 | 河北工业大学 | 一种人体骨架动作的识别方法 |
Non-Patent Citations (2)
Title |
---|
基于深度学习的行为识别算法综述;赫磊;邵展鹏;张剑华;周小龙;;计算机科学;20200615(S1);全文 * |
多流卷积神经网络的骨架行为识别;华钢;曹青峰;朱艾春;张赛;唐士宇;崔冉;;小型微型计算机系统;20200529(06);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114627557A (zh) | 2022-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110837778B (zh) | 一种基于骨架关节点序列的交警指挥手势识别方法 | |
CN109858390B (zh) | 基于端到端时空图学习神经网络的人体骨架行为识别方法 | |
Carrasco et al. | Scout: Socially-consistent and understandable graph attention network for trajectory prediction of vehicles and vrus | |
Liu et al. | A survey on deep-learning approaches for vehicle trajectory prediction in autonomous driving | |
Liu et al. | RDMO-SLAM: Real-time visual SLAM for dynamic environments using semantic label prediction with optical flow | |
Ba et al. | Blending diverse physical priors with neural networks | |
Liu et al. | Adaptive multi-view graph convolutional networks for skeleton-based action recognition | |
CN114613013A (zh) | 一种基于骨骼节点的端到端人类行为识别方法与模型 | |
CN110210431A (zh) | 一种基于点云语义标注和优化的点云分类方法 | |
CN111582232A (zh) | 一种基于像素级语义信息的slam方法 | |
Dai et al. | Deep reinforcement learning for subpixel neural tracking | |
CN112651294A (zh) | 基于多尺度融合的遮挡人体姿势识别方法 | |
Qi et al. | Cascaded attention: Adaptive and gated graph attention network for multiagent reinforcement learning | |
Ye et al. | M2f2-net: Multi-modal feature fusion for unstructured off-road freespace detection | |
CN117935362A (zh) | 基于异构骨架图的人体行为识别方法及系统 | |
Dong et al. | Weighted triplet loss based on deep neural networks for loop closure detection in VSLAM | |
Lu et al. | Hybrid deep learning based moving object detection via motion prediction | |
CN114627557B (zh) | 基于时空流形轨迹建图的3d骨架动作识别方法 | |
Mei et al. | Learning multi-frequency integration network for RGBT tracking | |
Liu et al. | Contextualized trajectory parsing with spatio-temporal graph | |
Ammar et al. | Comparative Study of latest CNN based Optical Flow Estimation | |
Chen et al. | Movement Evaluation Algorithm‐Based Form Tracking Technology and Optimal Control of Limbs for Dancers | |
CN115034459A (zh) | 一种行人轨迹时间序列预测方法 | |
Huang | Auto-attentional mechanism in multi-domain convolutional neural networks for improving object tracking | |
Yang et al. | 3dsenet: 3d spatial attention region ensemble network for real-time 3d hand pose estimation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |