CN113887516A - 用于人体动作识别的特征提取系统和方法 - Google Patents

用于人体动作识别的特征提取系统和方法 Download PDF

Info

Publication number
CN113887516A
CN113887516A CN202111269611.2A CN202111269611A CN113887516A CN 113887516 A CN113887516 A CN 113887516A CN 202111269611 A CN202111269611 A CN 202111269611A CN 113887516 A CN113887516 A CN 113887516A
Authority
CN
China
Prior art keywords
time
amplification
action
module
sampling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111269611.2A
Other languages
English (en)
Other versions
CN113887516B (zh
Inventor
张�成
廖建新
陈宇琛
占怡雯
王敬宇
戚琦
庄子睿
王晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202111269611.2A priority Critical patent/CN113887516B/zh
Publication of CN113887516A publication Critical patent/CN113887516A/zh
Application granted granted Critical
Publication of CN113887516B publication Critical patent/CN113887516B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

用于人体动作识别的特征提取系统,包括如下功能模块:数据扩增模块、动作编码模块、前置任务模块:该模块由空间前置任务子模块和时间前置任务子模块构成和对比学习模块;用于人体动作识别的特征提取方法,包括如下操作步骤:(1)模型训练步骤;(2)特征提取步骤;本发明将前置学习功能和对比学习功能有机结合,使系统能够从未标注的人体骨架序列中,充分提取人体动作特征,并且保留了细粒度时空信息,提高了后续人体动作识别的准确率。

Description

用于人体动作识别的特征提取系统和方法
技术领域
本发明涉及用于人体动作识别的特征提取系统和方法,属于信息技术领域,特别是属于基于人体骨架的动作特征提取技术领域。
背景技术
人体动作识别是计算机视觉领域的一个很重要的问题,在视频理解、视频监控、人机交互等领域有重要意义。由于人体骨架关节点具有数据量小、有效并且具有背景不变性等特征,基于人体骨架关节点的动作识别引起了广泛的关注。
虽然目前基于人体骨架关节点的动作识别已经有了很多进展,但是现有方法大多依赖于大量的标注好的训练数据,因此需要很强的监督信息。但是标注训练数据困难且耗费巨大,同时也会面临着由于许多动作的相似性所造成的标注不确定性,以及误标的情况。
因此,如何从未标注的训练数据中,进行人体动作特征的有效提取,成为目前基于人体骨架关节点的动作识别技术领域的一个急需解决的技术难题。
发明内容
有鉴于此,本发明的目的是发明一种系统和方法,采用无监督的方式,从人体骨架序列中,进行人体动作特征的提取,并尽可能保留动作特征的细粒度时空信息,以提高后续人体动作识别的准确率。
为了达到上述目的,本发明提出了用于人体动作识别的特征提取系统,所述系统包括如下功能模块:
数据扩增模块:在模型训练阶段,该模块的功能是:首先对原始骨架序列进行采样,然后对采样所获得的采样骨架序列进行空间扩增操作,获得空间扩增骨架序列;所述的空间扩增操作包括旋转,切变以及关节点随机扰动;对采样所获得的骨架序列进行时间扩增操作,获得时间扩增骨架序列;所述的时间扩增操作是指对所述的采样骨架序列进行掩码操作;
在特征提取阶段,该模块的功能是仅对原始骨架序列进行采样,获得采样骨架序列;
动作编码模块:在模型训练阶段,该模块的功能是对所述数据扩增模块所获得的空间扩增骨架序列和时间扩增骨架序列,分别进行编码,获得空间扩增初始动作编码和时间扩增初始动作编码;在特征提取阶段,该模块的功能是对所述数据扩增模块所获得的采样骨架序列进行编码,获得初始动作编码;
前置任务模块:该模块由空间前置任务子模块和时间前置任务子模块构成;
空间前置任务子模块的功能是:为获取更细粒度的空间信息,把从动作编码模块所获得的空间扩增初始动作编码中的前一半通道数的空间扩增初始动作编码,输入到空间前置任务子模块,生成空间扩增增强动作编码;所述的空间扩增增强动作编码是前述的采样骨架序列的重建序列,与所述的采样骨架序列有相同的帧数和格式;通过上述过程,使得所述的动作编码模块可以更好的更细粒度地提取到采样骨架序列的空间特征信息;
时间前置任务子模块的功能是:为获取更细粒度的时间信息,把从动作编码模块所获得的时间扩增初始动作编码中的后一半通道数的时间扩增初始动作编码,输入到时间前置任务子模块,生成时间扩增增强动作编码;所述的时间扩增增强动作编码是前述的采样骨架序列的重建序列,与所述的采样骨架序列有相同的帧数和格式;通过上述过程,使得所述的动作编码模块可以更好的更细粒度地提取到采样骨架序列的时间特征信息;
对比学习模块:该模块的功能是:基于对比学习网络,根据前置任务模块所产生的空间扩增增强动作编码和时间扩增增强动作编码,进行动作特征提取。
所述的动作编码模块由多个时空-图卷积单元ST-GCN顺序连接构成;所述的空间前置任务子模块由多个时空-图卷积单元ST-GCN顺序连接构成;所述的时间前置任务子模块由多个时空-图卷积单元ST-GCN顺序连接构成;所述的时空-图卷积单元ST-GCN由图卷积网络GCN和时间卷积网络TCN构成。
所述的对比学习模块由时间平均池化层子模块AP和多层感知器MLP子模块构成;时间平均池化层子模块AP的功能是在时间维度上聚合空间扩增增强动作编码和时间扩增增强动作编码的全局信息,进行动作特征提取;多层感知器MLP子模块的功能是将所获得的动作特征投影到对比空间,然后通过最大化对比空间中动作特征之间的余弦相似度来优化动作特征;
所述的多层感知器MLP子模块由两层线性层构成;激活函数采用修正线性函数。
本发明还提出了用于人体动作识别的特征提取方法,所述方法包括如下操作步骤:
(1)模型训练步骤,该步骤的主要内容是采用原始骨架序列训练样本,对用于人体动作识别的特征提取系统中的各个模块进行模型训练,训练结束后,获得各个模块的最优参数;
(2)特征提取步骤,该步骤的主要内容是使用训练好的用于人体动作识别的特征提取系统,从原始骨架序列中提取动作特征,用于人体动作识别。
所述的模型训练步骤具体包括如下操作子步骤:
(11)对训练样本库中的原始骨架序列进行采样,对采样所获得的采样骨架序列进行空间扩增,获得空间扩增骨架序列
Figure BDA0003328236240000031
所述的空间扩增操作的内容是:对采样骨架序列进行旋转,切变以及关节点随机扰动;对采样所获得的采样骨架序列进行时间扩增,获得时间扩增骨架序列
Figure BDA0003328236240000032
所述的时间扩增操作的内容是:对所述的采样骨架序列进行掩码操作;
(12)把所述的空间扩增骨架序列
Figure BDA0003328236240000033
输入动作编码模块,获得空间扩增初始动作编码qi;把所述的时间扩增骨架序列
Figure BDA0003328236240000034
输入动作编码模块,获得时间扩增初始动作编码qj
(13)把所述的空间扩增初始动作编码qi的前一半通道数,输入到空间前置任务子模块,生成空间扩增增强动作编码pi;所述的空间扩增增强动作编码pi是前述的采样骨架序列的重建序列,与所述的采样骨架序列有相同的帧数和格式;通过上述过程,使得所述的动作编码模块可以更好的更细粒度地提取到采样骨架序列的空间特征信息;
把所述的时间扩增初始动作编码qj的后一半通道数,输入到时间前置任务子模块,生成时间扩增增强动作编码pj;所述的时间扩增增强动作编码pj是前述的采样骨架序列的重建序列,与所述的采样骨架序列有相同的帧数和格式;通过上述过程,使得所述的动作编码模块可以更好的更细粒度地提取到采样骨架序列的时间特征信息;
(14)把所述的空间扩增增强动作编码pi输入时间平均池化层子模块AP,获得第一动作特征hi;把所述的时间扩增增强动作编码pj输入时间平均池化层子模块AP,获得第二动作特征hj
(15)把所述的第一动作特征hi和第二动作特征hj输入到多层感知器MLP子模块,得到对应的特征映射向量Zi和Zj;按照设定的综合代价函数L,对系统中的各个模块进行模型优化训练,获得各个模块的最优参数。
所述的综合代价函数L的具体如下:
L=α·Lc+β·Ls+γ·Lt
上式中,α、β和γ是权重系数,Lc是对比代价函数,Ls是空间代价函数,Lt是时间代价函数;
对比代价函数Lc定义如下:
Figure BDA0003328236240000035
上式中,N为训练过程中批的大小;函数l(,)定义如下:
Figure BDA0003328236240000041
上式中,zs、zt和zk为多层感知器MLP子模块所输出的特征映射向量,τ是超参数,取值为正常数;1k≠s∈{0,1}当且仅当k≠s时值为1;sim(,)函数定义为:
Figure BDA0003328236240000042
空间代价函数Ls定义如下:
Figure BDA0003328236240000043
上式中,T是骨架序列的帧数,
Figure BDA0003328236240000044
是对应第i个人的采样骨架序列的第t帧采样数据,
Figure BDA0003328236240000045
是与
Figure BDA0003328236240000046
对应的空间扩增增强动作编码pi中的第t帧数据;
时间代价函数Lt定义如下:
Figure BDA0003328236240000047
上式中,
Figure BDA0003328236240000048
是与
Figure BDA0003328236240000049
对应的时间扩增增强动作编码pj的第t帧数据;T'+1表示从第T'+1帧开始采样骨架序列进行了时间扩增操作;
所述的特征提取步骤具体包括如下操作子步骤:
(21)对要进行动作特征提取的原始骨架序列进行采样,获得采样骨架序列;
(22)把所述的采样骨架序列输入到动作编码模块,获得初始动作编码;
(23)把所述的初始动作编码输入到时间平均池化层子模块AP,获得动作特征。
本发明的有益效果在于:本发明将前置学习功能和对比学习功能有机结合,使系统能够从未标注的人体骨架序列中,充分提取人体动作特征,并且保留了细粒度时空信息,提高了后续人体动作识别的准确率。
附图说明
图1是本发明提出的用于人体动作识别的特征提取系统的模块结构图。
图2是本发明提出的用于人体动作识别的特征提取方法的流程示意图。
图3是本发明实施例中,模型训练步骤中的信息流图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
参见图1,介绍本发明提出的用于人体动作识别的特征提取系统,所述系统包括如下功能模块:
数据扩增模块:在模型训练阶段,该模块的功能是:首先对原始骨架序列进行采样,然后对采样所获得的采样骨架序列进行空间扩增操作,获得空间扩增骨架序列;所述的空间扩增操作包括旋转,切变以及关节点随机扰动;
所述旋转操作的具体内容是:对于骨架序列中的所有关节,为了收集形成角度不变的空间信息,对于随机选择的旋转轴,从[0,π/6]中随机选择一个旋转角度进行旋转。
所述切变操作的具体内容是:使每个点在一个固定的方向上位移,位移量与点到平行于该方向并经过原点的直线的单位距离成正比,每个方向的切变比是从[-1,1]中随机选择的。
所述关节点随机扰动操作的具体内容是:以0.2的概率对骨架序列的所有关节坐标加上随机高斯噪声。
对采样所获得的骨架序列进行时间扩增操作,获得时间扩增骨架序列;所述的时间扩增操作是指对所述的采样骨架序列进行掩码操作;所述掩码操作的具体内容是:把所述采样骨架序列尾部一定比例的序列裁掉,保留剩余的序列即为时间扩增骨架序列,在实施例中,比例设定为20%。
在特征提取阶段,该模块的功能是仅对原始骨架序列进行采样,获得采样骨架序列;
动作编码模块:在模型训练阶段,该模块的功能是对所述数据扩增模块所获得的空间扩增骨架序列和时间扩增骨架序列,分别进行编码,获得空间扩增初始动作编码和时间扩增初始动作编码;在特征提取阶段,该模块的功能是对所述数据扩增模块所获得的采样骨架序列进行编码,获得初始动作编码;
前置任务模块:该模块由空间前置任务子模块和时间前置任务子模块构成;
空间前置任务子模块的功能是:为获取更细粒度的空间信息,把从动作编码模块所获得的空间扩增初始动作编码中的前一半通道数的空间扩增初始动作编码,输入到空间前置任务子模块,生成空间扩增增强动作编码;所述的空间扩增增强动作编码是前述的采样骨架序列的重建序列,与所述的采样骨架序列有相同的帧数和格式;通过上述过程,使得所述的动作编码模块可以更好的更细粒度地提取到采样骨架序列的空间特征信息;
时间前置任务子模块的功能是:为获取更细粒度的时间信息,把从动作编码模块所获得的时间扩增初始动作编码中的后一半通道数的时间扩增初始动作编码,输入到时间前置任务子模块,生成时间扩增增强动作编码;所述的时间扩增增强动作编码是前述的采样骨架序列的重建序列,与所述的采样骨架序列有相同的帧数和格式;通过上述过程,使得所述的动作编码模块可以更好的更细粒度地提取到采样骨架序列的时间特征信息;
对比学习模块:该模块的功能是:基于对比学习网络,根据前置任务模块所产生的空间扩增增强动作编码和时间扩增增强动作编码,进行动作特征提取。
在实施例中,所述的动作编码模块由6个时空-图卷积单元ST-GCN顺序连接构成;所述的空间前置任务子模块由5个时空-图卷积单元ST-GCN顺序连接构成;所述的时间前置任务子模块由5个时空-图卷积单元ST-GCN顺序连接构成;所述的时空-图卷积单元ST-GCN由图卷积网络GCN和时间卷积网络TCN构成。
有关图卷积网络GCN的详细信息请参考文献:Sijie Yan,Yuanjun Xiong,andDahua Lin.Spatial temporal graph convolutional networks for skeleton-basedaction recognition.arXiv preprint arXiv:1801.07455,2018。
有关时间卷积网络TCN的详细信息请参见文献:Tae Soo Kim and AustinReiter.Interpretable 3d human action analysis with temporal convolutionalnetworks.In2017 IEEE conference on computer vision and pattern recognitionworkshops(CVPR W),pages 1623–1631.IEEE,2017。
所述的对比学习模块由时间平均池化层子模块AP和多层感知器MLP子模块构成;时间平均池化层子模块AP的功能是在时间维度上聚合空间扩增增强动作编码和时间扩增增强动作编码的全局信息,进行动作特征提取;多层感知器MLP子模块的功能是将所获得的动作特征投影到对比空间,然后通过最大化对比空间中动作特征之间的余弦相似度来优化动作特征;
所述的多层感知器MLP子模块由两层线性层构成;激活函数采用修正线性函数。
参见图2,介绍本发明提出的用于人体动作识别的特征提取方法,所述方法包括如下操作步骤:
(1)模型训练步骤,该步骤的主要内容是采用原始骨架序列训练样本,对用于人体动作识别的特征提取系统中的各个模块进行模型训练,训练结束后,获得各个模块的最优参数;
(2)特征提取步骤,该步骤的主要内容是使用训练好的用于人体动作识别的特征提取系统,从原始骨架序列中提取动作特征,用于人体动作识别。
参见图3,所述的模型训练步骤具体包括如下操作子步骤:
(11)对训练样本库中的原始骨架序列进行采样,对采样所获得的采样骨架序列进行空间扩增,获得空间扩增骨架序列
Figure BDA0003328236240000071
所述的空间扩增操作的内容是:对采样骨架序列进行旋转,切变以及关节点随机扰动;对采样所获得的采样骨架序列进行时间扩增,获得时间扩增骨架序列
Figure BDA0003328236240000072
所述的时间扩增操作的内容是:对所述的采样骨架序列进行掩码操作;
(12)把所述的空间扩增骨架序列
Figure BDA0003328236240000073
输入动作编码模块,获得空间扩增初始动作编码qi;把所述的时间扩增骨架序列
Figure BDA0003328236240000074
输入动作编码模块,获得时间扩增初始动作编码qj
(13)把所述的空间扩增初始动作编码qi的前一半通道数,输入到空间前置任务子模块,生成空间扩增增强动作编码pi;所述的空间扩增增强动作编码pi是前述的采样骨架序列的重建序列,与所述的采样骨架序列有相同的帧数和格式;通过上述过程,使得所述的动作编码模块可以更好的更细粒度地提取到采样骨架序列的空间特征信息;
把所述的时间扩增初始动作编码qj的后一半通道数,输入到时间前置任务子模块,生成时间扩增增强动作编码pj;所述的时间扩增增强动作编码pj是前述的采样骨架序列的重建序列,与所述的采样骨架序列有相同的帧数和格式;通过上述过程,使得所述的动作编码模块可以更好的更细粒度地提取到采样骨架序列的时间特征信息;
(14)把所述的空间扩增增强动作编码pi输入时间平均池化层子模块AP,获得第一动作特征hi;把所述的时间扩增增强动作编码pj输入时间平均池化层子模块AP,获得第二动作特征hj
(15)把所述的第一动作特征hi和第二动作特征hj输入到多层感知器MLP子模块,得到对应的特征映射向量Zi和Zj;按照设定的综合代价函数L,对系统中的各个模块进行模型优化训练,获得各个模块的最优参数。
所述的综合代价函数L的具体如下:
L=α·Lc+β·Ls+γ·Lt
上式中,α、β和γ是权重系数,实施例中全部取值为1;Lc是对比代价函数,Ls是空间代价函数,Lt是时间代价函数;
对比代价函数Lc定义如下:
Figure BDA0003328236240000075
上式中,N为训练过程中批的大小,在实施例中取值为256;函数l(,)定义如下:
Figure BDA0003328236240000081
上式中,zs、zt和zk为多层感知器MLP子模块所输出的特征映射向量,τ是超参数,取值为正常数,在实施例中取值为0.05;1k≠s∈{0,1}当且仅当k≠s时值为1;sim(,)函数定义为:
Figure BDA0003328236240000082
空间代价函数Ls定义如下:
Figure BDA0003328236240000083
上式中,T是骨架序列的帧数,
Figure BDA0003328236240000084
是对应第i个人的采样骨架序列的第t帧采样数据,
Figure BDA0003328236240000085
是与
Figure BDA0003328236240000086
对应的空间扩增增强动作编码pi中的第t帧数据;
时间代价函数Lt定义如下:
Figure BDA0003328236240000087
上式中,
Figure BDA0003328236240000088
是与
Figure BDA0003328236240000089
对应的时间扩增增强动作编码pj的第t帧数据;T'+1表示从第T'+1帧开始采样骨架序列进行了时间扩增操作;
所述的特征提取步骤具体包括如下操作子步骤:
(21)对要进行动作特征提取的原始骨架序列进行采样,获得采样骨架序列;
(22)把所述的采样骨架序列输入到动作编码模块,获得初始动作编码;
(23)把所述的初始动作编码输入到时间平均池化层子模块AP,获得动作特征。
为验证本发明提出的系统和方法,发明人在三个数据集(NTU RGB+D数据集、NTURGB+D 120数据集和North-Western UCLA数据集)上进行了全面和彻底的实验,实验结果均好于目前其他方法。实验结果证明本发明所提出的系统是一个强而有效的特征提取器,本发明所提出方法是一个有效的特征提取方法。

Claims (8)

1.用于人体动作识别的特征提取系统,其特征在于:所述系统包括如下功能模块:
数据扩增模块:在模型训练阶段,该模块的功能是:首先对原始骨架序列进行采样,然后对采样所获得的采样骨架序列进行空间扩增操作,获得空间扩增骨架序列;所述的空间扩增操作包括旋转,切变以及关节点随机扰动;对采样所获得的骨架序列进行时间扩增操作,获得时间扩增骨架序列;所述的时间扩增操作是指对所述的采样骨架序列进行掩码操作;
在特征提取阶段,该模块的功能是仅对原始骨架序列进行采样,获得采样骨架序列;
动作编码模块:在模型训练阶段,该模块的功能是对所述数据扩增模块所获得的空间扩增骨架序列和时间扩增骨架序列,分别进行编码,获得空间扩增初始动作编码和时间扩增初始动作编码;在特征提取阶段,该模块的功能是对所述数据扩增模块所获得的采样骨架序列进行编码,获得初始动作编码;
前置任务模块:该模块由空间前置任务子模块和时间前置任务子模块构成;
空间前置任务子模块的功能是:为获取更细粒度的空间信息,把从动作编码模块所获得的空间扩增初始动作编码中的前一半通道数的空间扩增初始动作编码,输入到空间前置任务子模块,生成空间扩增增强动作编码;所述的空间扩增增强动作编码是前述的采样骨架序列的重建序列,与所述的采样骨架序列有相同的帧数和格式;通过上述过程,使得所述的动作编码模块可以更好的更细粒度地提取到采样骨架序列的空间特征信息;
时间前置任务子模块的功能是:为获取更细粒度的时间信息,把从动作编码模块所获得的时间扩增初始动作编码中的后一半通道数的时间扩增初始动作编码,输入到时间前置任务子模块,生成时间扩增增强动作编码;所述的时间扩增增强动作编码是前述的采样骨架序列的重建序列,与所述的采样骨架序列有相同的帧数和格式;通过上述过程,使得所述的动作编码模块可以更好的更细粒度地提取到采样骨架序列的时间特征信息;
对比学习模块:该模块的功能是:基于对比学习网络,根据前置任务模块所产生的空间扩增增强动作编码和时间扩增增强动作编码,进行动作特征提取。
2.根据权利要求1所述的用于人体动作识别的特征提取系统,其特征在于:所述的动作编码模块由多个时空-图卷积单元ST-GCN顺序连接构成;所述的空间前置任务子模块由多个时空-图卷积单元ST-GCN顺序连接构成;所述的时间前置任务子模块由多个时空-图卷积单元ST-GCN顺序连接构成;所述的时空-图卷积单元ST-GCN由图卷积网络GCN和时间卷积网络TCN构成。
3.根据权利要求1所述的用于人体动作识别的特征提取系统,其特征在于:所述的对比学习模块由时间平均池化层子模块AP和多层感知器MLP子模块构成;时间平均池化层子模块AP的功能是在时间维度上聚合空间扩增增强动作编码和时间扩增增强动作编码的全局信息,进行动作特征提取;多层感知器MLP子模块的功能是将所获得的动作特征投影到对比空间,然后通过最大化对比空间中动作特征之间的余弦相似度来优化动作特征。
4.根据权利要求3所述的用于人体动作识别的特征提取系统,其特征在于:所述的多层感知器MLP子模块由两层线性层构成;激活函数采用修正线性函数。
5.用于人体动作识别的特征提取方法,其特征在于:所述方法包括如下操作步骤:
(1)模型训练步骤,该步骤的主要内容是采用原始骨架序列训练样本,对用于人体动作识别的特征提取系统中的各个模块进行模型训练,训练结束后,获得各个模块的最优参数;
(2)特征提取步骤,该步骤的主要内容是使用训练好的用于人体动作识别的特征提取系统,从原始骨架序列中提取动作特征,用于人体动作识别。
6.根据权利要求5所述的用于人体动作识别的特征提取方法,其特征在于:所述的模型训练步骤具体包括如下操作子步骤:
(11)对训练样本库中的原始骨架序列进行采样,对采样所获得的采样骨架序列进行空间扩增,获得空间扩增骨架序列
Figure FDA0003328236230000021
所述的空间扩增操作的内容是:对采样骨架序列进行旋转,切变以及关节点随机扰动;对采样所获得的采样骨架序列进行时间扩增,获得时间扩增骨架序列
Figure FDA0003328236230000022
所述的时间扩增操作的内容是:对所述的采样骨架序列进行掩码操作;
(12)把所述的空间扩增骨架序列
Figure FDA0003328236230000023
输入动作编码模块,获得空间扩增初始动作编码qi;把所述的时间扩增骨架序列
Figure FDA0003328236230000024
输入动作编码模块,获得时间扩增初始动作编码qj
(13)把所述的空间扩增初始动作编码qi的前一半通道数,输入到空间前置任务子模块,生成空间扩增增强动作编码pi;所述的空间扩增增强动作编码pi是前述的采样骨架序列的重建序列,与所述的采样骨架序列有相同的帧数和格式;通过上述过程,使得所述的动作编码模块可以更好的更细粒度地提取到采样骨架序列的空间特征信息;
把所述的时间扩增初始动作编码qj的后一半通道数,输入到时间前置任务子模块,生成时间扩增增强动作编码pj;所述的时间扩增增强动作编码pj是前述的采样骨架序列的重建序列,与所述的采样骨架序列有相同的帧数和格式;通过上述过程,使得所述的动作编码模块可以更好的更细粒度地提取到采样骨架序列的时间特征信息;
(14)把所述的空间扩增增强动作编码pi输入时间平均池化层子模块AP,获得第一动作特征hi;把所述的时间扩增增强动作编码pj输入时间平均池化层子模块AP,获得第二动作特征hj
(15)把所述的第一动作特征hi和第二动作特征hj输入到多层感知器MLP子模块,得到对应的特征映射向量Zi和Zj;按照设定的综合代价函数L,对系统中的各个模块进行模型优化训练,获得各个模块的最优参数。
7.根据权利要求6所述的用于人体动作识别的特征提取方法,其特征在于:所述的综合代价函数L的具体如下:
L=α·Lc+β·Ls+γ·Lt
上式中,α、β和γ是权重系数,Lc是对比代价函数,Ls是空间代价函数,Lt是时间代价函数;
对比代价函数Lc定义如下:
Figure FDA0003328236230000031
上式中,N为训练过程中批的大小;函数l(,)定义如下:
Figure FDA0003328236230000032
上式中,zs、zt和zk为多层感知器MLP子模块所输出的特征映射向量,τ是超参数,取值为正常数;1k≠s∈{0,1}当且仅当k≠s时值为1;sim(,)函数定义为:
Figure FDA0003328236230000033
空间代价函数Ls定义如下:
Figure FDA0003328236230000034
上式中,T是骨架序列的帧数,
Figure FDA0003328236230000035
是对应第i个人的采样骨架序列的第t帧采样数据,
Figure FDA0003328236230000036
是与
Figure FDA0003328236230000037
对应的空间扩增增强动作编码pi中的第t帧数据;
时间代价函数Lt定义如下:
Figure FDA0003328236230000038
上式中,
Figure FDA0003328236230000039
是与
Figure FDA00033282362300000310
对应的时间扩增增强动作编码pj的第t帧数据;T'+1表示从第T'+1帧开始采样骨架序列进行了时间扩增操作。
8.根据权利要求5所述的用于人体动作识别的特征提取方法,其特征在于:所述的特征提取步骤具体包括如下操作子步骤:
(21)对要进行动作特征提取的原始骨架序列进行采样,获得采样骨架序列;
(22)把所述的采样骨架序列输入到动作编码模块,获得初始动作编码;
(23)把所述的初始动作编码输入到时间平均池化层子模块AP,获得动作特征。
CN202111269611.2A 2021-10-29 2021-10-29 用于人体动作识别的特征提取系统和方法 Active CN113887516B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111269611.2A CN113887516B (zh) 2021-10-29 2021-10-29 用于人体动作识别的特征提取系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111269611.2A CN113887516B (zh) 2021-10-29 2021-10-29 用于人体动作识别的特征提取系统和方法

Publications (2)

Publication Number Publication Date
CN113887516A true CN113887516A (zh) 2022-01-04
CN113887516B CN113887516B (zh) 2024-05-24

Family

ID=79014345

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111269611.2A Active CN113887516B (zh) 2021-10-29 2021-10-29 用于人体动作识别的特征提取系统和方法

Country Status (1)

Country Link
CN (1) CN113887516B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115035606A (zh) * 2022-08-11 2022-09-09 天津大学 一种基于片段驱动对比学习的骨骼动作识别方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107862383A (zh) * 2017-11-09 2018-03-30 睿魔智能科技(东莞)有限公司 一种用于人体视觉感知的多任务深度学习方法和系统
CN108805080A (zh) * 2018-06-12 2018-11-13 上海交通大学 基于上下文的多层次深度递归网络群体行为识别方法
CN110991278A (zh) * 2019-11-20 2020-04-10 北京影谱科技股份有限公司 计算机视觉系统的视频中人体动作识别方法和装置
CN111160164A (zh) * 2019-12-18 2020-05-15 上海交通大学 基于人体骨架和图像融合的动作识别方法
CN112101176A (zh) * 2020-09-09 2020-12-18 元神科技(杭州)有限公司 一种结合用户步态信息的用户身份识别方法及系统
CN112597883A (zh) * 2020-12-22 2021-04-02 武汉大学 一种基于广义图卷积和强化学习的人体骨架动作识别方法
CN113239897A (zh) * 2021-06-16 2021-08-10 石家庄铁道大学 基于时空特征组合回归的人体动作评价方法
CN113343901A (zh) * 2021-06-28 2021-09-03 重庆理工大学 基于多尺度注意力图卷积网络的人体行为识别方法
CN113408455A (zh) * 2021-06-29 2021-09-17 山东大学 一种基于多流信息增强图卷积网络的动作识别方法、系统及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107862383A (zh) * 2017-11-09 2018-03-30 睿魔智能科技(东莞)有限公司 一种用于人体视觉感知的多任务深度学习方法和系统
CN108805080A (zh) * 2018-06-12 2018-11-13 上海交通大学 基于上下文的多层次深度递归网络群体行为识别方法
CN110991278A (zh) * 2019-11-20 2020-04-10 北京影谱科技股份有限公司 计算机视觉系统的视频中人体动作识别方法和装置
CN111160164A (zh) * 2019-12-18 2020-05-15 上海交通大学 基于人体骨架和图像融合的动作识别方法
CN112101176A (zh) * 2020-09-09 2020-12-18 元神科技(杭州)有限公司 一种结合用户步态信息的用户身份识别方法及系统
CN112597883A (zh) * 2020-12-22 2021-04-02 武汉大学 一种基于广义图卷积和强化学习的人体骨架动作识别方法
CN113239897A (zh) * 2021-06-16 2021-08-10 石家庄铁道大学 基于时空特征组合回归的人体动作评价方法
CN113343901A (zh) * 2021-06-28 2021-09-03 重庆理工大学 基于多尺度注意力图卷积网络的人体行为识别方法
CN113408455A (zh) * 2021-06-29 2021-09-17 山东大学 一种基于多流信息增强图卷积网络的动作识别方法、系统及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
卢忱;王晶;: "一种基于自动标签机制的行为识别模型迁移方法", 河南机电高等专科学校学报, no. 04, 15 July 2016 (2016-07-15) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115035606A (zh) * 2022-08-11 2022-09-09 天津大学 一种基于片段驱动对比学习的骨骼动作识别方法
CN115035606B (zh) * 2022-08-11 2022-10-21 天津大学 一种基于片段驱动对比学习的骨骼动作识别方法

Also Published As

Publication number Publication date
CN113887516B (zh) 2024-05-24

Similar Documents

Publication Publication Date Title
CN113936339B (zh) 基于双通道交叉注意力机制的打架识别方法和装置
CN112329800A (zh) 一种基于全局信息引导残差注意力的显著性目标检测方法
Zhang et al. A multistage refinement network for salient object detection
Liu et al. Diffusion action segmentation
CN113627266B (zh) 基于Transformer时空建模的视频行人重识别方法
Liang et al. MAFNet: Multi-style attention fusion network for salient object detection
CN113936243A (zh) 一种离散表征的视频行为识别系统及方法
CN112818407A (zh) 一种基于生成对抗网络的视频隐私保护方法
WO2023155305A1 (zh) 图像重建方法、装置、电子设备及存储介质
CN110264483B (zh) 一种基于深度学习的语义图像分割方法
CN116824694A (zh) 基于时序聚合和门控Transformer的动作识别系统及方法
CN113887516A (zh) 用于人体动作识别的特征提取系统和方法
Wang et al. Elwnet: An extremely lightweight approach for real-time salient object detection
Dai et al. CFGN: A lightweight context feature guided network for image super-resolution
CN117522674A (zh) 一种联合局部和全局信息的图像重建系统及方法
CN116704367A (zh) 一种多尺度特征融合耕地变化检测方法及系统
CN115965898A (zh) 多级分支卷积与膨胀交互采样结合的视频情感分类方法
CN114782995A (zh) 一种基于自注意力机制的人交互行为检测方法
CN112818978B (zh) 基于多分辨自动编码器的光学符号识别方法
CN114359786A (zh) 一种基于改进时空卷积网络的唇语识别方法
CN114495037A (zh) 一种基于关键点和卡尔曼滤波的视频预测方法及系统
CN114240999A (zh) 一种基于增强图注意力与时间卷积网络的运动预测方法
Li et al. MS-Former: Memory-Supported Transformer for Weakly Supervised Change Detection with Patch-Level Annotations
Goel et al. Image denoising by hybridizing preprocessed discrete wavelet transformation and recurrent neural networks
Miao et al. Semantic segmentation of vehicle vision based on two-branch Enet network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant