CN113887516B - 用于人体动作识别的特征提取系统和方法 - Google Patents
用于人体动作识别的特征提取系统和方法 Download PDFInfo
- Publication number
- CN113887516B CN113887516B CN202111269611.2A CN202111269611A CN113887516B CN 113887516 B CN113887516 B CN 113887516B CN 202111269611 A CN202111269611 A CN 202111269611A CN 113887516 B CN113887516 B CN 113887516B
- Authority
- CN
- China
- Prior art keywords
- module
- time
- amplification
- sampling
- space
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 47
- 238000000034 method Methods 0.000 title claims description 28
- 230000003321 amplification Effects 0.000 claims abstract description 107
- 238000003199 nucleic acid amplification method Methods 0.000 claims abstract description 107
- 230000009471 action Effects 0.000 claims abstract description 87
- 230000006870 function Effects 0.000 claims abstract description 64
- 238000012549 training Methods 0.000 claims abstract description 35
- 238000005070 sampling Methods 0.000 claims description 79
- 238000011176 pooling Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 15
- 230000003416 augmentation Effects 0.000 claims description 12
- 230000000977 initiatory effect Effects 0.000 claims description 9
- 230000000873 masking effect Effects 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 230000002123 temporal effect Effects 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 238000012886 linear function Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000010008 shearing Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
用于人体动作识别的特征提取系统,包括如下功能模块:数据扩增模块、动作编码模块、前置任务模块:该模块由空间前置任务子模块和时间前置任务子模块构成和对比学习模块;用于人体动作识别的特征提取方法,包括如下操作步骤:(1)模型训练步骤;(2)特征提取步骤;本发明将前置学习功能和对比学习功能有机结合,使系统能够从未标注的人体骨架序列中,充分提取人体动作特征,并且保留了细粒度时空信息,提高了后续人体动作识别的准确率。
Description
技术领域
本发明涉及用于人体动作识别的特征提取系统和方法,属于信息技术领域,特别是属于基于人体骨架的动作特征提取技术领域。
背景技术
人体动作识别是计算机视觉领域的一个很重要的问题,在视频理解、视频监控、人机交互等领域有重要意义。由于人体骨架关节点具有数据量小、有效并且具有背景不变性等特征,基于人体骨架关节点的动作识别引起了广泛的关注。
虽然目前基于人体骨架关节点的动作识别已经有了很多进展,但是现有方法大多依赖于大量的标注好的训练数据,因此需要很强的监督信息。但是标注训练数据困难且耗费巨大,同时也会面临着由于许多动作的相似性所造成的标注不确定性,以及误标的情况。
因此,如何从未标注的训练数据中,进行人体动作特征的有效提取,成为目前基于人体骨架关节点的动作识别技术领域的一个急需解决的技术难题。
发明内容
有鉴于此,本发明的目的是发明一种系统和方法,采用无监督的方式,从人体骨架序列中,进行人体动作特征的提取,并尽可能保留动作特征的细粒度时空信息,以提高后续人体动作识别的准确率。
为了达到上述目的,本发明提出了用于人体动作识别的特征提取系统,所述系统包括如下功能模块:
数据扩增模块:在模型训练阶段,该模块的功能是:首先对原始骨架序列进行采样,然后对采样所获得的采样骨架序列进行空间扩增操作,获得空间扩增骨架序列;所述的空间扩增操作包括旋转,切变以及关节点随机扰动;对采样所获得的骨架序列进行时间扩增操作,获得时间扩增骨架序列;所述的时间扩增操作是指对所述的采样骨架序列进行掩码操作;
在特征提取阶段,该模块的功能是仅对原始骨架序列进行采样,获得采样骨架序列;
动作编码模块:在模型训练阶段,该模块的功能是对所述数据扩增模块所获得的空间扩增骨架序列和时间扩增骨架序列,分别进行编码,获得空间扩增初始动作编码和时间扩增初始动作编码;在特征提取阶段,该模块的功能是对所述数据扩增模块所获得的采样骨架序列进行编码,获得初始动作编码;
前置任务模块:该模块由空间前置任务子模块和时间前置任务子模块构成;
空间前置任务子模块的功能是:为获取更细粒度的空间信息,把从动作编码模块所获得的空间扩增初始动作编码中的前一半通道数的空间扩增初始动作编码,输入到空间前置任务子模块,生成空间扩增增强动作编码;所述的空间扩增增强动作编码是前述的采样骨架序列的重建序列,与所述的采样骨架序列有相同的帧数和格式;通过上述过程,使得所述的动作编码模块可以更好的更细粒度地提取到采样骨架序列的空间特征信息;
时间前置任务子模块的功能是:为获取更细粒度的时间信息,把从动作编码模块所获得的时间扩增初始动作编码中的后一半通道数的时间扩增初始动作编码,输入到时间前置任务子模块,生成时间扩增增强动作编码;所述的时间扩增增强动作编码是前述的采样骨架序列的重建序列,与所述的采样骨架序列有相同的帧数和格式;通过上述过程,使得所述的动作编码模块可以更好的更细粒度地提取到采样骨架序列的时间特征信息;
对比学习模块:该模块的功能是:基于对比学习网络,根据前置任务模块所产生的空间扩增增强动作编码和时间扩增增强动作编码,进行动作特征提取。
所述的动作编码模块由多个时空-图卷积单元ST-GCN顺序连接构成;所述的空间前置任务子模块由多个时空-图卷积单元ST-GCN顺序连接构成;所述的时间前置任务子模块由多个时空-图卷积单元ST-GCN顺序连接构成;所述的时空-图卷积单元ST-GCN由图卷积网络GCN和时间卷积网络TCN构成。
所述的对比学习模块由时间平均池化层子模块AP和多层感知器MLP子模块构成;时间平均池化层子模块AP的功能是在时间维度上聚合空间扩增增强动作编码和时间扩增增强动作编码的全局信息,进行动作特征提取;多层感知器MLP子模块的功能是将所获得的动作特征投影到对比空间,然后通过最大化对比空间中动作特征之间的余弦相似度来优化动作特征;
所述的多层感知器MLP子模块由两层线性层构成;激活函数采用修正线性函数。
本发明还提出了用于人体动作识别的特征提取方法,所述方法包括如下操作步骤:
(1)模型训练步骤,该步骤的主要内容是采用原始骨架序列训练样本,对用于人体动作识别的特征提取系统中的各个模块进行模型训练,训练结束后,获得各个模块的最优参数;
(2)特征提取步骤,该步骤的主要内容是使用训练好的用于人体动作识别的特征提取系统,从原始骨架序列中提取动作特征,用于人体动作识别。
所述的模型训练步骤具体包括如下操作子步骤:
(11)对训练样本库中的原始骨架序列进行采样,对采样所获得的采样骨架序列进行空间扩增,获得空间扩增骨架序列所述的空间扩增操作的内容是:对采样骨架序列进行旋转,切变以及关节点随机扰动;对采样所获得的采样骨架序列进行时间扩增,获得时间扩增骨架序列/>所述的时间扩增操作的内容是:对所述的采样骨架序列进行掩码操作;
(12)把所述的空间扩增骨架序列输入动作编码模块,获得空间扩增初始动作编码qi;把所述的时间扩增骨架序列/>输入动作编码模块,获得时间扩增初始动作编码qj;
(13)把所述的空间扩增初始动作编码qi的前一半通道数,输入到空间前置任务子模块,生成空间扩增增强动作编码pi;所述的空间扩增增强动作编码pi是前述的采样骨架序列的重建序列,与所述的采样骨架序列有相同的帧数和格式;通过上述过程,使得所述的动作编码模块可以更好的更细粒度地提取到采样骨架序列的空间特征信息;
把所述的时间扩增初始动作编码qj的后一半通道数,输入到时间前置任务子模块,生成时间扩增增强动作编码pj;所述的时间扩增增强动作编码pj是前述的采样骨架序列的重建序列,与所述的采样骨架序列有相同的帧数和格式;通过上述过程,使得所述的动作编码模块可以更好的更细粒度地提取到采样骨架序列的时间特征信息;
(14)把所述的空间扩增增强动作编码pi输入时间平均池化层子模块AP,获得第一动作特征hi;把所述的时间扩增增强动作编码pj输入时间平均池化层子模块AP,获得第二动作特征hj;
(15)把所述的第一动作特征hi和第二动作特征hj输入到多层感知器MLP子模块,得到对应的特征映射向量Zi和Zj;按照设定的综合代价函数L,对系统中的各个模块进行模型优化训练,获得各个模块的最优参数。
所述的综合代价函数L的具体如下:
L=α·Lc+β·Ls+γ·Lt
上式中,α、β和γ是权重系数,Lc是对比代价函数,Ls是空间代价函数,Lt是时间代价函数;
对比代价函数Lc定义如下:
上式中,N为训练过程中批的大小;函数l(,)定义如下:
上式中,zs、zt和zk为多层感知器MLP子模块所输出的特征映射向量,τ是超参数,取值为正常数;1k≠s∈{0,1}当且仅当k≠s时值为1;sim(,)函数定义为:/>
空间代价函数Ls定义如下:
上式中,T是骨架序列的帧数,是对应第i个人的采样骨架序列的第t帧采样数据,/>是与/>对应的空间扩增增强动作编码pi中的第t帧数据;
时间代价函数Lt定义如下:
上式中,是与/>对应的时间扩增增强动作编码pj的第t帧数据;T'+1表示从第T'+1帧开始采样骨架序列进行了时间扩增操作;
所述的特征提取步骤具体包括如下操作子步骤:
(21)对要进行动作特征提取的原始骨架序列进行采样,获得采样骨架序列;
(22)把所述的采样骨架序列输入到动作编码模块,获得初始动作编码;
(23)把所述的初始动作编码输入到时间平均池化层子模块AP,获得动作特征。
本发明的有益效果在于:本发明将前置学习功能和对比学习功能有机结合,使系统能够从未标注的人体骨架序列中,充分提取人体动作特征,并且保留了细粒度时空信息,提高了后续人体动作识别的准确率。
附图说明
图1是本发明提出的用于人体动作识别的特征提取系统的模块结构图。
图2是本发明提出的用于人体动作识别的特征提取方法的流程示意图。
图3是本发明实施例中,模型训练步骤中的信息流图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
参见图1,介绍本发明提出的用于人体动作识别的特征提取系统,所述系统包括如下功能模块:
数据扩增模块:在模型训练阶段,该模块的功能是:首先对原始骨架序列进行采样,然后对采样所获得的采样骨架序列进行空间扩增操作,获得空间扩增骨架序列;所述的空间扩增操作包括旋转,切变以及关节点随机扰动;
所述旋转操作的具体内容是:对于骨架序列中的所有关节,为了收集形成角度不变的空间信息,对于随机选择的旋转轴,从[0,π/6]中随机选择一个旋转角度进行旋转。
所述切变操作的具体内容是:使每个点在一个固定的方向上位移,位移量与点到平行于该方向并经过原点的直线的单位距离成正比,每个方向的切变比是从[-1,1]中随机选择的。
所述关节点随机扰动操作的具体内容是:以0.2的概率对骨架序列的所有关节坐标加上随机高斯噪声。
对采样所获得的骨架序列进行时间扩增操作,获得时间扩增骨架序列;所述的时间扩增操作是指对所述的采样骨架序列进行掩码操作;所述掩码操作的具体内容是:把所述采样骨架序列尾部一定比例的序列裁掉,保留剩余的序列即为时间扩增骨架序列,在实施例中,比例设定为20%。
在特征提取阶段,该模块的功能是仅对原始骨架序列进行采样,获得采样骨架序列;
动作编码模块:在模型训练阶段,该模块的功能是对所述数据扩增模块所获得的空间扩增骨架序列和时间扩增骨架序列,分别进行编码,获得空间扩增初始动作编码和时间扩增初始动作编码;在特征提取阶段,该模块的功能是对所述数据扩增模块所获得的采样骨架序列进行编码,获得初始动作编码;
前置任务模块:该模块由空间前置任务子模块和时间前置任务子模块构成;
空间前置任务子模块的功能是:为获取更细粒度的空间信息,把从动作编码模块所获得的空间扩增初始动作编码中的前一半通道数的空间扩增初始动作编码,输入到空间前置任务子模块,生成空间扩增增强动作编码;所述的空间扩增增强动作编码是前述的采样骨架序列的重建序列,与所述的采样骨架序列有相同的帧数和格式;通过上述过程,使得所述的动作编码模块可以更好的更细粒度地提取到采样骨架序列的空间特征信息;
时间前置任务子模块的功能是:为获取更细粒度的时间信息,把从动作编码模块所获得的时间扩增初始动作编码中的后一半通道数的时间扩增初始动作编码,输入到时间前置任务子模块,生成时间扩增增强动作编码;所述的时间扩增增强动作编码是前述的采样骨架序列的重建序列,与所述的采样骨架序列有相同的帧数和格式;通过上述过程,使得所述的动作编码模块可以更好的更细粒度地提取到采样骨架序列的时间特征信息;
对比学习模块:该模块的功能是:基于对比学习网络,根据前置任务模块所产生的空间扩增增强动作编码和时间扩增增强动作编码,进行动作特征提取。
在实施例中,所述的动作编码模块由6个时空-图卷积单元ST-GCN顺序连接构成;所述的空间前置任务子模块由5个时空-图卷积单元ST-GCN顺序连接构成;所述的时间前置任务子模块由5个时空-图卷积单元ST-GCN顺序连接构成;所述的时空-图卷积单元ST-GCN由图卷积网络GCN和时间卷积网络TCN构成。
有关图卷积网络GCN的详细信息请参考文献:Sijie Yan,Yuanjun Xiong,andDahua Lin.Spatial temporal graph convolutional networks for skeleton-basedaction recognition.arXiv preprint arXiv:1801.07455,2018。
有关时间卷积网络TCN的详细信息请参见文献:Tae Soo Kim and AustinReiter.Interpretable 3d human action analysis with temporal convolutionalnetworks.In2017 IEEE conference on computer vision and pattern recognitionworkshops(CVPR W),pages 1623–1631.IEEE,2017。
所述的对比学习模块由时间平均池化层子模块AP和多层感知器MLP子模块构成;时间平均池化层子模块AP的功能是在时间维度上聚合空间扩增增强动作编码和时间扩增增强动作编码的全局信息,进行动作特征提取;多层感知器MLP子模块的功能是将所获得的动作特征投影到对比空间,然后通过最大化对比空间中动作特征之间的余弦相似度来优化动作特征;
所述的多层感知器MLP子模块由两层线性层构成;激活函数采用修正线性函数。
参见图2,介绍本发明提出的用于人体动作识别的特征提取方法,所述方法包括如下操作步骤:
(1)模型训练步骤,该步骤的主要内容是采用原始骨架序列训练样本,对用于人体动作识别的特征提取系统中的各个模块进行模型训练,训练结束后,获得各个模块的最优参数;
(2)特征提取步骤,该步骤的主要内容是使用训练好的用于人体动作识别的特征提取系统,从原始骨架序列中提取动作特征,用于人体动作识别。
参见图3,所述的模型训练步骤具体包括如下操作子步骤:
(11)对训练样本库中的原始骨架序列进行采样,对采样所获得的采样骨架序列进行空间扩增,获得空间扩增骨架序列所述的空间扩增操作的内容是:对采样骨架序列进行旋转,切变以及关节点随机扰动;对采样所获得的采样骨架序列进行时间扩增,获得时间扩增骨架序列/>所述的时间扩增操作的内容是:对所述的采样骨架序列进行掩码操作;
(12)把所述的空间扩增骨架序列输入动作编码模块,获得空间扩增初始动作编码qi;把所述的时间扩增骨架序列/>输入动作编码模块,获得时间扩增初始动作编码qj;
(13)把所述的空间扩增初始动作编码qi的前一半通道数,输入到空间前置任务子模块,生成空间扩增增强动作编码pi;所述的空间扩增增强动作编码pi是前述的采样骨架序列的重建序列,与所述的采样骨架序列有相同的帧数和格式;通过上述过程,使得所述的动作编码模块可以更好的更细粒度地提取到采样骨架序列的空间特征信息;
把所述的时间扩增初始动作编码qj的后一半通道数,输入到时间前置任务子模块,生成时间扩增增强动作编码pj;所述的时间扩增增强动作编码pj是前述的采样骨架序列的重建序列,与所述的采样骨架序列有相同的帧数和格式;通过上述过程,使得所述的动作编码模块可以更好的更细粒度地提取到采样骨架序列的时间特征信息;
(14)把所述的空间扩增增强动作编码pi输入时间平均池化层子模块AP,获得第一动作特征hi;把所述的时间扩增增强动作编码pj输入时间平均池化层子模块AP,获得第二动作特征hj;
(15)把所述的第一动作特征hi和第二动作特征hj输入到多层感知器MLP子模块,得到对应的特征映射向量Zi和Zj;按照设定的综合代价函数L,对系统中的各个模块进行模型优化训练,获得各个模块的最优参数。
所述的综合代价函数L的具体如下:
L=α·Lc+β·Ls+γ·Lt
上式中,α、β和γ是权重系数,实施例中全部取值为1;Lc是对比代价函数,Ls是空间代价函数,Lt是时间代价函数;
对比代价函数Lc定义如下:
上式中,N为训练过程中批的大小,在实施例中取值为256;函数l(,)定义如下:
上式中,zs、zt和zk为多层感知器MLP子模块所输出的特征映射向量,τ是超参数,取值为正常数,在实施例中取值为0.05;1k≠s∈{0,1}当且仅当k≠s时值为1;sim(,)函数定义为:/>
空间代价函数Ls定义如下:
上式中,T是骨架序列的帧数,是对应第i个人的采样骨架序列的第t帧采样数据,/>是与/>对应的空间扩增增强动作编码pi中的第t帧数据;
时间代价函数Lt定义如下:
上式中,是与/>对应的时间扩增增强动作编码pj的第t帧数据;T'+1表示从第T'+1帧开始采样骨架序列进行了时间扩增操作;
所述的特征提取步骤具体包括如下操作子步骤:
(21)对要进行动作特征提取的原始骨架序列进行采样,获得采样骨架序列;
(22)把所述的采样骨架序列输入到动作编码模块,获得初始动作编码;
(23)把所述的初始动作编码输入到时间平均池化层子模块AP,获得动作特征。
为验证本发明提出的系统和方法,发明人在三个数据集(NTU RGB+D数据集、NTURGB+D 120数据集和North-Western UCLA数据集)上进行了全面和彻底的实验,实验结果均好于目前其他方法。实验结果证明本发明所提出的系统是一个强而有效的特征提取器,本发明所提出方法是一个有效的特征提取方法。
Claims (8)
1.用于人体动作识别的特征提取系统,其特征在于:所述系统包括如下功能模块:
数据扩增模块:在模型训练阶段,该模块的功能是:首先对原始骨架序列进行采样,然后对采样所获得的采样骨架序列进行空间扩增操作,获得空间扩增骨架序列;所述的空间扩增操作包括旋转,切变以及关节点随机扰动;对采样所获得的骨架序列进行时间扩增操作,获得时间扩增骨架序列;所述的时间扩增操作是指对所述的采样骨架序列进行掩码操作;
在特征提取阶段,该模块的功能是仅对原始骨架序列进行采样,获得采样骨架序列;
动作编码模块:在模型训练阶段,该模块的功能是对所述数据扩增模块所获得的空间扩增骨架序列和时间扩增骨架序列,分别进行编码,获得空间扩增初始动作编码和时间扩增初始动作编码;在特征提取阶段,该模块的功能是对所述数据扩增模块所获得的采样骨架序列进行编码,获得初始动作编码;
前置任务模块:该模块由空间前置任务子模块和时间前置任务子模块构成;
空间前置任务子模块的功能是:为获取更细粒度的空间信息,把从动作编码模块所获得的空间扩增初始动作编码中的前一半通道数的空间扩增初始动作编码,输入到空间前置任务子模块,生成空间扩增增强动作编码;所述的空间扩增增强动作编码是前述的采样骨架序列的重建序列,与所述的采样骨架序列有相同的帧数和格式;通过上述过程,使得所述的动作编码模块可以更好的更细粒度地提取到采样骨架序列的空间特征信息;
时间前置任务子模块的功能是:为获取更细粒度的时间信息,把从动作编码模块所获得的时间扩增初始动作编码中的后一半通道数的时间扩增初始动作编码,输入到时间前置任务子模块,生成时间扩增增强动作编码;所述的时间扩增增强动作编码是前述的采样骨架序列的重建序列,与所述的采样骨架序列有相同的帧数和格式;通过上述过程,使得所述的动作编码模块可以更好的更细粒度地提取到采样骨架序列的时间特征信息;
对比学习模块:该模块的功能是:基于对比学习网络,根据前置任务模块所产生的空间扩增增强动作编码和时间扩增增强动作编码,进行动作特征提取。
2.根据权利要求1所述的用于人体动作识别的特征提取系统,其特征在于:所述的动作编码模块由多个时空-图卷积单元ST-GCN顺序连接构成;所述的空间前置任务子模块由多个时空-图卷积单元ST-GCN顺序连接构成;所述的时间前置任务子模块由多个时空-图卷积单元ST-GCN顺序连接构成;所述的时空-图卷积单元ST-GCN由图卷积网络GCN和时间卷积网络TCN构成。
3.根据权利要求1所述的用于人体动作识别的特征提取系统,其特征在于:所述的对比学习模块由时间平均池化层子模块AP和多层感知器MLP子模块构成;时间平均池化层子模块AP的功能是在时间维度上聚合空间扩增增强动作编码和时间扩增增强动作编码的全局信息,进行动作特征提取;多层感知器MLP子模块的功能是将所获得的动作特征投影到对比空间,然后通过最大化对比空间中动作特征之间的余弦相似度来优化动作特征。
4.根据权利要求3所述的用于人体动作识别的特征提取系统,其特征在于:所述的多层感知器MLP子模块由两层线性层构成;激活函数采用修正线性函数。
5.用于人体动作识别的特征提取方法,其特征在于:所述方法包括如下操作步骤:
(1)模型训练步骤,该步骤的主要内容是采用原始骨架序列训练样本,对用于人体动作识别的特征提取系统中的各个模块进行模型训练,训练结束后,获得各个模块的最优参数;
(2)特征提取步骤,该步骤的主要内容是使用训练好的用于人体动作识别的特征提取系统,从原始骨架序列中提取动作特征,用于人体动作识别。
6.根据权利要求5所述的用于人体动作识别的特征提取方法,其特征在于:所述的模型训练步骤具体包括如下操作子步骤:
(11)对训练样本库中的原始骨架序列进行采样,对采样所获得的采样骨架序列进行空间扩增,获得空间扩增骨架序列所述的空间扩增操作的内容是:对采样骨架序列进行旋转,切变以及关节点随机扰动;对采样所获得的采样骨架序列进行时间扩增,获得时间扩增骨架序列/>所述的时间扩增操作的内容是:对所述的采样骨架序列进行掩码操作;
(12)把所述的空间扩增骨架序列输入动作编码模块,获得空间扩增初始动作编码qi;把所述的时间扩增骨架序列/>输入动作编码模块,获得时间扩增初始动作编码qj;
(13)把所述的空间扩增初始动作编码qi的前一半通道数,输入到空间前置任务子模块,生成空间扩增增强动作编码pi;所述的空间扩增增强动作编码pi是前述的采样骨架序列的重建序列,与所述的采样骨架序列有相同的帧数和格式;通过上述过程,使得所述的动作编码模块可以更好的更细粒度地提取到采样骨架序列的空间特征信息;
把所述的时间扩增初始动作编码qj的后一半通道数,输入到时间前置任务子模块,生成时间扩增增强动作编码pj;所述的时间扩增增强动作编码pj是前述的采样骨架序列的重建序列,与所述的采样骨架序列有相同的帧数和格式;通过上述过程,使得所述的动作编码模块可以更好的更细粒度地提取到采样骨架序列的时间特征信息;
(14)把所述的空间扩增增强动作编码pi输入时间平均池化层子模块AP,获得第一动作特征hi;把所述的时间扩增增强动作编码pj输入时间平均池化层子模块AP,获得第二动作特征hj;
(15)把所述的第一动作特征hi和第二动作特征hj输入到多层感知器MLP子模块,得到对应的特征映射向量Zi和Zj;按照设定的综合代价函数L,对系统中的各个模块进行模型优化训练,获得各个模块的最优参数。
7.根据权利要求6所述的用于人体动作识别的特征提取方法,其特征在于:所述的综合代价函数L的具体如下:
L=α·Lc+β·Ls+γ·Lt
上式中,α、β和γ是权重系数,Lc是对比代价函数,Ls是空间代价函数,Lt是时间代价函数;
对比代价函数Lc定义如下:
上式中,N为训练过程中批的大小;函数l(,)定义如下:
上式中,zs、zt和zk为多层感知器MLP子模块所输出的特征映射向量,τ是超参数,取值为正常数;1k≠s∈{0,1}当且仅当k≠s时值为1;sim(,)函数定义为:/>
空间代价函数Ls定义如下:
上式中,T是骨架序列的帧数,是对应第i个人的采样骨架序列的第t帧采样数据,/>是与/>对应的空间扩增增强动作编码pi中的第t帧数据;
时间代价函数Lt定义如下:
上式中,是与/>对应的时间扩增增强动作编码pj的第t帧数据;T'+1表示从第T'+1帧开始采样骨架序列进行了时间扩增操作。
8.根据权利要求5所述的用于人体动作识别的特征提取方法,其特征在于:所述的特征提取步骤具体包括如下操作子步骤:
(21)对要进行动作特征提取的原始骨架序列进行采样,获得采样骨架序列;
(22)把所述的采样骨架序列输入到动作编码模块,获得初始动作编码;
(23)把所述的初始动作编码输入到时间平均池化层子模块AP,获得动作特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111269611.2A CN113887516B (zh) | 2021-10-29 | 2021-10-29 | 用于人体动作识别的特征提取系统和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111269611.2A CN113887516B (zh) | 2021-10-29 | 2021-10-29 | 用于人体动作识别的特征提取系统和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113887516A CN113887516A (zh) | 2022-01-04 |
CN113887516B true CN113887516B (zh) | 2024-05-24 |
Family
ID=79014345
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111269611.2A Active CN113887516B (zh) | 2021-10-29 | 2021-10-29 | 用于人体动作识别的特征提取系统和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113887516B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115035606B (zh) * | 2022-08-11 | 2022-10-21 | 天津大学 | 一种基于片段驱动对比学习的骨骼动作识别方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107862383A (zh) * | 2017-11-09 | 2018-03-30 | 睿魔智能科技(东莞)有限公司 | 一种用于人体视觉感知的多任务深度学习方法和系统 |
CN108805080A (zh) * | 2018-06-12 | 2018-11-13 | 上海交通大学 | 基于上下文的多层次深度递归网络群体行为识别方法 |
CN110991278A (zh) * | 2019-11-20 | 2020-04-10 | 北京影谱科技股份有限公司 | 计算机视觉系统的视频中人体动作识别方法和装置 |
CN111160164A (zh) * | 2019-12-18 | 2020-05-15 | 上海交通大学 | 基于人体骨架和图像融合的动作识别方法 |
CN112101176A (zh) * | 2020-09-09 | 2020-12-18 | 元神科技(杭州)有限公司 | 一种结合用户步态信息的用户身份识别方法及系统 |
CN112597883A (zh) * | 2020-12-22 | 2021-04-02 | 武汉大学 | 一种基于广义图卷积和强化学习的人体骨架动作识别方法 |
CN113239897A (zh) * | 2021-06-16 | 2021-08-10 | 石家庄铁道大学 | 基于时空特征组合回归的人体动作评价方法 |
CN113343901A (zh) * | 2021-06-28 | 2021-09-03 | 重庆理工大学 | 基于多尺度注意力图卷积网络的人体行为识别方法 |
CN113408455A (zh) * | 2021-06-29 | 2021-09-17 | 山东大学 | 一种基于多流信息增强图卷积网络的动作识别方法、系统及存储介质 |
-
2021
- 2021-10-29 CN CN202111269611.2A patent/CN113887516B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107862383A (zh) * | 2017-11-09 | 2018-03-30 | 睿魔智能科技(东莞)有限公司 | 一种用于人体视觉感知的多任务深度学习方法和系统 |
CN108805080A (zh) * | 2018-06-12 | 2018-11-13 | 上海交通大学 | 基于上下文的多层次深度递归网络群体行为识别方法 |
CN110991278A (zh) * | 2019-11-20 | 2020-04-10 | 北京影谱科技股份有限公司 | 计算机视觉系统的视频中人体动作识别方法和装置 |
CN111160164A (zh) * | 2019-12-18 | 2020-05-15 | 上海交通大学 | 基于人体骨架和图像融合的动作识别方法 |
CN112101176A (zh) * | 2020-09-09 | 2020-12-18 | 元神科技(杭州)有限公司 | 一种结合用户步态信息的用户身份识别方法及系统 |
CN112597883A (zh) * | 2020-12-22 | 2021-04-02 | 武汉大学 | 一种基于广义图卷积和强化学习的人体骨架动作识别方法 |
CN113239897A (zh) * | 2021-06-16 | 2021-08-10 | 石家庄铁道大学 | 基于时空特征组合回归的人体动作评价方法 |
CN113343901A (zh) * | 2021-06-28 | 2021-09-03 | 重庆理工大学 | 基于多尺度注意力图卷积网络的人体行为识别方法 |
CN113408455A (zh) * | 2021-06-29 | 2021-09-17 | 山东大学 | 一种基于多流信息增强图卷积网络的动作识别方法、系统及存储介质 |
Non-Patent Citations (1)
Title |
---|
一种基于自动标签机制的行为识别模型迁移方法;卢忱;王晶;;河南机电高等专科学校学报;20160715(第04期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113887516A (zh) | 2022-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109543502B (zh) | 一种基于深度多尺度神经网络的语义分割方法 | |
CN112329800A (zh) | 一种基于全局信息引导残差注意力的显著性目标检测方法 | |
CN113627266B (zh) | 基于Transformer时空建模的视频行人重识别方法 | |
CN109871749B (zh) | 一种基于深度哈希的行人重识别方法和装置、计算机系统 | |
CN113076957A (zh) | 一种基于跨模态特征融合的rgb-d图像显著性目标检测方法 | |
Peng et al. | Deep video action clustering via spatio-temporal feature learning | |
Liang et al. | MAFNet: Multi-style attention fusion network for salient object detection | |
CN116978011B (zh) | 一种用于智能目标识别的图像语义通信方法及系统 | |
CN113887516B (zh) | 用于人体动作识别的特征提取系统和方法 | |
Li et al. | Tensor completion from one-bit observations | |
CN113591674A (zh) | 一种面向实时视频流的边缘环境行为识别系统 | |
CN112587129A (zh) | 一种人体动作识别方法及装置 | |
CN114783053A (zh) | 基于空间注意力和分组卷积的行为识别方法及系统 | |
CN114996495A (zh) | 一种基于多原型和迭代增强的单样本图像分割方法及装置 | |
Savadi Hosseini et al. | A hybrid deep learning architecture using 3d cnns and grus for human action recognition | |
CN114519383A (zh) | 一种图像目标检测方法及系统 | |
Aslam et al. | Vrl-iqa: Visual representation learning for image quality assessment | |
WO2023174256A1 (zh) | 一种数据压缩方法以及相关设备 | |
CN117115588A (zh) | 一种基于扩散模型的3d预训练方法与系统 | |
CN114782995A (zh) | 一种基于自注意力机制的人交互行为检测方法 | |
CN112801153B (zh) | 一种嵌入lbp特征的图的半监督图像分类方法及系统 | |
CN114333057A (zh) | 基于多级别特征交互融合的组合动作识别方法及系统 | |
CN114240999A (zh) | 一种基于增强图注意力与时间卷积网络的运动预测方法 | |
Zhou et al. | Lightweight Self-Attention Network for Semantic Segmentation | |
CN115329118B (zh) | 一种面向垃圾图像的图像相似性检索方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |