CN114241515A - 一种基于时空上下文特征感知的三维人体姿态估计方法 - Google Patents

一种基于时空上下文特征感知的三维人体姿态估计方法 Download PDF

Info

Publication number
CN114241515A
CN114241515A CN202111373663.4A CN202111373663A CN114241515A CN 114241515 A CN114241515 A CN 114241515A CN 202111373663 A CN202111373663 A CN 202111373663A CN 114241515 A CN114241515 A CN 114241515A
Authority
CN
China
Prior art keywords
human body
skeleton
feature
layer
dimension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111373663.4A
Other languages
English (en)
Inventor
刘盛
李超楠
姚璐
邹思宇
陈胜勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202111373663.4A priority Critical patent/CN114241515A/zh
Publication of CN114241515A publication Critical patent/CN114241515A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于时空上下文特征感知的三维人体姿态估计方法,从视频每一帧中提取相应的二维人体姿态,并组成二维人体姿态骨架数据序列,利用空间上下文感知模块依次处理二维骨架序列从中获取人体结构隐含的几何约束信息特征,通过时间上下文感知模块从整个二维人体骨架序列数据中提取内在的时间特征,最后利用回归模块从前述模块生成的特征中回归出相应的三维人体姿态。本发明显著地提升三维人体姿态估计精度,并且消耗的计算资源更少,有较强的鲁棒性。

Description

一种基于时空上下文特征感知的三维人体姿态估计方法
技术领域
本申请属于三维人体姿态估计技术领域,尤其涉及一种基于时空上下文特征感知的三维人体姿态估计方法。
背景技术
三维人体姿态估计是计算机视觉领域的一项基础研究,也是一个热点研究方向。其在虚拟现实、人机交互、行为分析等领域有着广泛的应用。近年来,尽管基于深度学习的方法取得巨大进步,但是由于二维表征数据中固有的深度歧义性和广泛存在的自遮挡现象,导致三维人体姿态估计仍然是一项极具挑战性的任务。
目前存在的三维人体姿态估计方法主要分为两类:(1)直接从图像中估计三维人体姿态;(2)先从图像中估计二维人体姿态,然后在回归出三维人体姿态。前者需要大量的计算资源,并且受限于有限的三维标注数据。后者将三维人体姿态估计整个任务进行拆分,使得预测难度下降。并且,二维姿态检测拥有大量的标注数据,且已经取得很好的精度。但是一个二维姿态往往可以对应多个不同的三维姿态,尤其是存在自遮挡的情况下。这种二维表征数据中固有的深度歧义性问题,极大的影响预测的精度。
为了解决深度歧义性问题,利用注意力机制高效地从二维人体姿态中学习隐含的几何约束信息是一种有效的方式。此外,已有的三维人体姿态估计方法在视频上连续预测时,常常会出现不连贯、抖动的预测结果。这是由于,人体是高度自由和非线性的软体结构,且常常出现自遮挡的现象。已有的基于单帧图像的三维人体估计方法,缺乏时序信息间的关联和约束,无法胜任连续视频下的预测任务。因此,构建一种有效的时间提取模型更有利于模型的鲁棒性和通用性。
发明内容
本申请的目的是提供一种基于时空上下文特征感知的三维人体姿态估计方法,以提高预测精度。
为了实现上述目的,本申请技术方案如下:
一种基于时空上下文特征感知的三维人体姿态估计方法,其特征在于,所述基于时空上下文特征感知的三维人体姿态估计方法,包括:
输入单目视频中连续F帧,检测出人体边界框,然后采用级联金字塔结构的二维人体姿态检测器对每一帧进行二维人体关节点坐标的检测,并组成一个二维人体骨架序列;
对二维人体骨架序列的每一个二维人体骨架进行归一化处理,对归一化处理后的二维人体骨架中关节点坐标进行升维,得到升维后的骨架特征;
将升维后的骨架特征输入到空间上下文感知模块,提取包含人体关节点间的几何依赖信息的依赖关系特征;
将依赖关系特征输入时间多层感知网络模块,在时间维度上进一步提取时间信息,得到时间上下文特征;
将时间上下文特征在时间维度均值化,然后进行归一化,接着通过一个全连接层,预测对应的三维人体姿态结果。
进一步的,所述对二维人体骨架序列的每一个二维人体骨架进行归一化处理,包括:
对于二维人体骨架序列中的每一个二维人体骨架,每个关节点的二维坐标减去臀部关节点的二维坐标,从而得到归一化后的二维人体骨架。
进一步的,所述将升维后的骨架特征输入到空间上下文感知模块,提取包含人体关节点间的几何依赖信息的依赖关系特征,包括:
3.1)、首先根据预设的人体结构,通过以下公式,构建结构矩阵
Figure BDA0003363293660000021
Figure BDA0003363293660000022
其中S(i,p)代表结构矩阵S中第i行,第p列的元素,MD(i,p)代表第i个人体关节点和第p个人体关节点间的流式距离,关节点间的流式距离由预设的人体骨架结构图所决定,K代表预定义的超参数。
3.2)、将结构矩阵S及升维后的骨架特征xnew输入空间上下文感知模块进行骨架特征学习,该空间上下文感知模块由N个相同结构的姿态编码器串联构成;结构矩阵S及升维后的骨架特征xnew经过第一个姿态编码器后得到特征矩阵,该特征矩阵与骨架特征xnew维度大小相同,后一个姿态编码器的输入为前一个姿态编码器输出的特征矩阵以及结构矩阵S;经过N个姿态编码器后,输出特征
Figure BDA0003363293660000031
将输出特征
Figure BDA0003363293660000032
经过LayerNorm层进行归一化,得到包含人体关节点间的几何依赖信息的依赖关系特征
Figure BDA0003363293660000033
进一步的,所述姿态编码器,执行如下操作:
首先将结构矩阵S展平成维度为1×J2的一维向量,并将其输入骨架注意力模块,其中骨架注意力模块由一层J2个神经元的全连接层和一层sigmoid激活函数组成,输出注意力向量
Figure BDA0003363293660000034
将输入的特征矩阵首先经过LayerNorm层,然后经过转置操作将维度变成Cs×J,接着经过一层包含J2个神经元的全连接层和一层GELU激活函数,得到中间特征其维度大小为Cs×J2,然后将该中间特征与注意力向量WAtt做元素乘法操作,得到注意力特征矩阵,最后将注意力特征矩阵经过一层包含J个神经元的全连接层得到骨架注意力特征矩阵WSA维度大小为Cs×J,最后将骨架注意力特征矩阵WSA经过转置操作将维度变成J×Cs并且与输入特征xnew相加,得到残差特征值WRa
然后,将残差特征值WRa在经过LayerNorm层,以及一层包含Cs个神经元的全连接层和一层GELU激活函数,进一步学习骨架特征,最后再经过一层包含Cs个神经元的全连接层后将输出与残差特征值WRA相加,得到一个新的残差特征WNew_RA维度大小为J×Cs;WNew_RA即为当前姿态编码器输出的特征矩阵。
进一步的,所述将依赖关系特征输入时间多层感知网络模块,在时间维度上进一步提取时间信息,得到时间上下文特征,包括:
4.1)、将每一个二维人体骨架的依赖关系特征进行拼接,组成骨架特征序列,然后将骨架特征序列的第二、三维展平成一维,形成新骨架特征序列;
4.2)将新骨架特征序列输入时间多层感知网络模块,输出的特征进行归一化,得到时间上下文特征。
进一步的,所述时间多层感知网络模块由多个相同结构的多层感知混合器串联构成,每一个多层感知混合器执行如下操作:
首先经过LayerNorm层进行归一化,接着使用转置操作将输入特征维度变成Ct×F,接着经过一层包含Ds个神经元的全连接层,一层GELU激活函数和一层包含F个神经元的全连接层,得到中间特征其维度大小为Ct×F,接着将中间特征经过转置操作将维度变成F×Ct,并且与输入特征相加,得到残差特征值
Figure BDA0003363293660000041
然后将残差特征值FT_Ra经过LayerNorm层进行归一化,以及一层包含Dc个神经元的全连接层和一层GELU激活函数,进一步学习时间特征,最后再经过一层包含Ct个神经元的全连接层后将输出与残差特征值FT_Ra相加,得到一个新的残差特征FNew_T_Ra维度大小为F×Ct,FNew_T_Ra即为当前多层感知混合器输出的时间特征矩阵。
进一步的,所述将时间上下文特征在时间维度均值化,然后进行归一化,接着通过一个全连接层,预测对应的三维人体姿态结果,包括:
将时间上下文特征FTC首先经过LayerNorm层进行归一化,接着在时间维度进行均值化操作,得到最终的时间特征
Figure BDA0003363293660000042
将时间特征FT_Final再经过LayerNorm层进行归一化,然后紧跟一层包含J×3个神经元的全连接层得到最终的预测结果
Figure BDA0003363293660000043
进一步的,所述基于时空上下文特征感知的三维人体姿态估计方法,还包括:
构建损失函数:
Figure BDA0003363293660000044
其中γ代表预测的结果,
Figure BDA0003363293660000045
代表真实数据结果,k代表人体骨架中第k个关节点。
本申请提出的一种基于时空上下文特征感知的三维人体姿态估计方法与现有技术相比,具有如下优点与有益效果:
1、本申请提出的基于空间上下文特征的方案,能有效学习人体骨架内在的几何约束信息,从而缓和三维人体姿态估计中存在的自遮挡及深度歧义性问题,进一步提升三维人体姿态估计精度。
2、目前的基于单帧图像的三维人体姿态检测方法在连续视频流上检测时存在严重的抖动问题,本发明提出的基于时间上下文特征的方案能显著减少抖动的预测结果,得到稳定的预测结果。
3、本申请的网络都是采用简单的全连接层,网络结构简单,计算快速高效,节约计算资源,从而能达到实时预测的效果。
附图说明
图1为本申请一种基于时空上下文特征感知的三维人体姿态估计方法流程图;
图2为预定义的人体17个人体骨架关节点示意图;
图3为本申请基于时空上下文特征感知的三维人体姿态估计方法所采用的网络框架图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅用以解释本申请,并不用于限定本申请。
本申请提供的一种基于时空上下文特征感知的三维人体姿态估计方法,如图1所示,具包括:
步骤S1:输入单目视频中连续F帧,检测出人体边界框,然后采用级联金字塔结构的二维人体姿态检测器对每一帧进行二维人体关节点坐标的检测,并组成一个二维人体骨架序列。
对输入的单目视频中连续243帧,首先采用Mask R-CNN进行人体边界框检测,其中Mask R-CNN使用ResNet101作为主干网,然后利用级联金字塔结构的二维人体姿态检测器(CPN)进行二维人体姿态估计。对于CPN,本申请使用分辨率384×288的ResNet-50作为主干网。并且Mask R-CNN与CPN,从COCO上的预训练模型开始,并在Human3.6M上微调检测器,以学习一组新的人体关节点,并组成一个二维人体骨架序列
Figure BDA0003363293660000051
步骤S2、对二维人体骨架序列的每一个二维人体骨架进行归一化处理,对归一化处理后的二维人体骨架中关节点坐标进行升维,得到升维后的骨架特征。
所述对二维人体骨架序列的每一个二维人体骨架进行归一化处理,包括:
对于二维人体骨架序列中的每一个二维人体骨架,每个关节点的二维坐标减去臀部关节点的二维坐标,从而得到归一化后的二维人体骨架。
即针对步骤1生成的二维人体骨架序列,我们首先对二维人体骨架序列中的每一个二维人体骨架
Figure BDA0003363293660000061
(如图2所示),i代表Xseq中第i个人体骨架,进行归一化操作。其目的在于我们不关注三维人体骨架的全局位置,而在于三维人体骨架关节点间的相对位置。具体操作为将xi中每个关节点的二维坐标减去臀部关节点的二维坐标,从而得到归一化后的二维人体骨架
Figure BDA0003363293660000062
(如图3所示,归一化后的人体二维坐标)。
然后对
Figure BDA0003363293660000063
进行升维操作,将其通过一个包含32个神经元的全连接层如图3所示,FC)对
Figure BDA0003363293660000064
中关节点坐标进行升维,升维后输出数据维度为
Figure BDA0003363293660000065
其中,32个神经元即为升维后的维度。
步骤S3、将升维后的骨架特征输入到空间上下文感知模块,提取包含人体关节点间的几何依赖信息的依赖关系特征。
本步骤将升维后的二维人体骨架输入到空间上下文感知模块,提取人体关节点间的几何依赖信息,包括以下步骤:
3.1)、首先根据预设的人体结构,构建结构矩阵。
如图2所示,通过以下公式,构建结构矩阵
Figure BDA0003363293660000066
Figure BDA0003363293660000067
其中S(i,p)代表结构矩阵S中第i行,第p列的元素,MD(i,p)代表第i个人体关节点和第p个人体关节点间的流式距离,关节点间的流式距离由预设的人体骨架结构图所决定,K代表预定义的超参数。
例如,根据图2定义左臀部与臀部之间的流式距离为1,因为他们是直接相连的,左臀部与右臀部之间的流式距离为2,因为他们中间隔着臀部关节点。在本实施例中,将K预设为3。
3.2)、将结构矩阵S及升维后的骨架特征xnew输入空间上下文感知模块进行骨架特征学习,该空间上下文感知模块由N个相同结构的姿态编码器串联构成;结构矩阵S及升维后的骨架特征xnew经过第一个姿态编码器后得到特征矩阵,该特征矩阵与骨架特征xnew维度大小相同,后一个姿态编码器的输入为前一个姿态编码器输出的特征矩阵以及结构矩阵S;经过N个姿态编码器后,输出特征
Figure BDA0003363293660000071
将输出特征
Figure BDA0003363293660000072
经过LayerNorm层进行归一化,得到包含人体关节点间的几何依赖信息的依赖关系特征
Figure BDA0003363293660000073
将结构矩阵S及升维后的骨架特征xnew输入空间上下文感知模块进行骨架特征学习,该空间上下文感知模块由3个相同结构的姿态编码器串联构成。结构矩阵S及升维后的骨架特征xnew经过第一个姿态编码器后得到特征矩阵,该特征矩阵与骨架特征xnew维度大小相同,后一个姿态编码器的输入为前一个姿态编码器输出的特征矩阵及结构矩阵S。经过3个姿态编码器后,输出特征
Figure BDA0003363293660000074
并经过LayerNorm层进行归一化,得到最终特征
Figure BDA0003363293660000075
其中所述的姿态编码器,执行如下操作:
首先将结构矩阵S展平成维度为1×J2的一维向量,并将其输入骨架注意力模块,其中骨架注意力模块由一层J2个神经元的全连接层和一层sigmoid激活函数组成,输出注意力向量
Figure BDA0003363293660000076
将输入的特征矩阵首先经过LayerNorm层,然后经过转置操作将维度变成Cs×J,接着经过一层包含J2个神经元的全连接层和一层GELU激活函数,得到中间特征其维度大小为Cs×J2,然后将该中间特征与注意力向量WAtt做元素乘法操作,得到注意力特征矩阵,最后将注意力特征矩阵经过一层包含J个神经元的全连接层得到骨架注意力特征矩阵WSA维度大小为Cs×J,最后将骨架注意力特征矩阵WSA经过转置操作将维度变成J×Cs并且与输入特征xnew相加,得到残差特征值WRa
然后,将残差特征值WRa在经过LayerNorm层,以及一层包含Cs个神经元的全连接层和一层GELU激活函数,进一步学习骨架特征,最后再经过一层包含Cs个神经元的全连接层后将输出与残差特征值WRA相加,得到一个新的残差特征WNew_RA维度大小为J×Cs;WNew_RA即为当前姿态编码器输出的特征矩阵。
具体的,如图3所示,首先将结构矩阵S展平成维度为(1×289)的一维向量,并将其输入骨架注意力模块,其中骨架注意力模块由一层289个神经元的全连接层和一层sigmoid激活函数组成,输出注意力向量
Figure BDA0003363293660000077
将输入的特征矩阵(如果是第一个姿态编码器则输入为骨架特征xnew)首先经过LayerNorm层,然后经过转置操作将维度变成(32×17),接着经过一层包含289个神经元的全连接层和一层GELU激活函数,得到中间特征其维度大小为(32×289),然后将该中间特征与注意力向量WAtt做元素乘法操作,得到注意力特征矩阵,最后将注意力特征矩阵经过一层包含17个神经元的全连接层得到骨架注意力特征矩阵WSA维度大小为(32×17),最后将骨架注意力特征矩阵WSA经过转置操作将维度变成(17×32)并且与输入特征xnew相加,得到残差特征值WRa。然后,将残差特征值WRa在经过LayerNorm层,以及一层包含32个神经元的全连接层和一层GELU激活函数,进一步学习骨架特征,最后再经过一层包含32个神经元的全连接层后将输出与残差特征值WRA相加,得到一个新的残差特征WNew_RA维度大小为(17×32)。WNew_RA即为当前姿态编码器输出的特征矩阵。
步骤S4、将依赖关系特征输入时间多层感知网络模块,在时间维度上进一步提取时间信息,得到时间上下文特征。
将依赖关系特征输入时间多层感知网络模块,在时间维度上进一步提取时间信息,包括:
4.1)、将每一个二维人体骨架的依赖关系特征进行拼接,组成骨架特征序列,然后将骨架特征序列的第二、三维展平成一维,形成新骨架特征序列。
利用步骤3对二维人体骨架序列中的每一个二维人体骨架提取骨架特征
Figure BDA0003363293660000081
并将每一个骨架特征进行拼接,然后组成骨架特征序列
Figure BDA0003363293660000082
最后将骨架特征序列β的第二、三维展平成一维,形成新骨架特征序列
Figure BDA0003363293660000083
4.2)、将新骨架特征序列输入时间多层感知网络模块,输出的特征进行归一化,得到时间上下文特征。
将上一步得到的特征序列β0输入时间上下文特征感知模块,学习帧间的时间一致性信息。时间多层感知网络模块由多个相同结构的多层感知混合器串联构成。在本实施例中时间多层感知网络模块由多个相同结构的多层感知混合器串联构成。
每一个多层感知混合器执行如下操作::
首先经过LayerNorm层进行归一化,接着使用转置操作将输入特征维度变成Ct×F,接着经过一层包含Ds个神经元的全连接层,一层GELU激活函数和一层包含F个神经元的全连接层,得到中间特征其维度大小为Ct×F,接着将中间特征经过转置操作将维度变成F×Ct,并且与输入特征相加,得到残差特征值
Figure BDA0003363293660000091
然后将残差特征值FT_Ra经过LayerNorm层进行归一化,以及一层包含Dc个神经元的全连接层和一层GELU激活函数,进一步学习时间特征,最后再经过一层包含Ct个神经元的全连接层后将输出与残差特征值FT_Ra相加,得到一个新的残差特征FNew_T_Ra维度大小为F×Ct,FNew_T_Ra即为当前多层感知混合器输出的时间特征矩阵。
特征序列β0经过第一个多层感知混合器后得到时间特征矩阵,时间特征矩阵与β0维度大小相同,后一个多层感知混合器的输入为前一个多层感知混合器输出的时间特征矩阵。经过8个多层感知混合器后,输出特征
Figure BDA0003363293660000092
将输出的特征经过LayerNorm层进行归一化,得到时间上下文特征
Figure BDA0003363293660000093
所述的时间多层感知网络模块,将时间特征矩阵(如果是第一个多层感知混合器则输入为特征序列β0)首先经过LayerNorm层进行归一化,接着使用转置操作将特征序列维度变成(544×243),接着经过一层包含256个神经元的全连接层,一层GELU激活函数和一层包含243个神经元的全连接层,得到中间特征其维度大小为(544×243),接着将中间特征经过转置操作将维度变成(243×544),并且与输入的特征相加,得到残差特征值
Figure BDA0003363293660000094
然后将残差特征值FT_Ra经过LayerNorm层进行归一化,以及一层包含512个神经元的全连接层和一层GELU激活函数,进一步学习时间特征,最后再经过一层包含544个神经元的全连接层后将输出与残差特征值FT_Ra相加,得到一个新的残差特征FNew_T_Ra维度大小为(243×544)。FNew_T_Ra即为当前多层感知混合器输出的时间特征矩阵。
步骤S5、将时间上下文特征在时间维度均值化,然后进行归一化,接着通过一个全连接层,预测对应的三维人体姿态结果。
本步骤将时间上下文特征FTC首先经过LayerNorm层进行归一化,接着在时间维度进行均值化操作,得到最终的时间特征
Figure BDA0003363293660000101
然后将时间特征FT_Final再经过LayerNorm层进行归一化,然后紧跟一层包含J×3个神经元的全连接层得到最终的预测结果
Figure BDA0003363293660000102
具体的,将时间上下文特征在时间维度均值化,从而获得输入的二维人体骨架序列中间帧相对应的三维人体姿态结果,包括以下步骤:
将时间上下文特征FTC首先经过LayerNorm层进行归一化,接着在时间维度进行均值化操作,得到最终的时间特征
Figure BDA0003363293660000103
将时间特征FT_Final在经过LayerNorm层进行归一化,然后紧跟一层包含(51)个神经元的全连接层得到最终的预测结果
Figure BDA0003363293660000104
在一个具体的实施例中,本申请基于时空上下文特征感知的三维人体姿态估计方法,还包括:
构建损失函数:
Figure BDA0003363293660000105
其中γ代表预测的结果,
Figure BDA0003363293660000106
代表真实数据结果,k代表人体骨架中第k个关节点。通过该损失函数可以精确的计算网络预测结果与真实数据结果之间的误差,从而反向传播给神经网络,更新网络的参数,促使神经网络学习有用的信息,并提高预测精度。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (8)

1.一种基于时空上下文特征感知的三维人体姿态估计方法,其特征在于,所述基于时空上下文特征感知的三维人体姿态估计方法,包括:
输入单目视频中连续F帧,检测出人体边界框,然后采用级联金字塔结构的二维人体姿态检测器对每一帧进行二维人体关节点坐标的检测,并组成一个二维人体骨架序列;
对二维人体骨架序列的每一个二维人体骨架进行归一化处理,对归一化处理后的二维人体骨架中关节点坐标进行升维,得到升维后的骨架特征;
将升维后的骨架特征输入到空间上下文感知模块,提取包含人体关节点间的几何依赖信息的依赖关系特征;
将依赖关系特征输入时间多层感知网络模块,在时间维度上进一步提取时间信息,得到时间上下文特征;
将时间上下文特征在时间维度均值化,然后进行归一化,接着通过一个全连接层,预测对应的三维人体姿态结果。
2.根据权利要求1所述的基于时空上下文特征感知的三维人体姿态估计方法,其特征在于,所述对二维人体骨架序列的每一个二维人体骨架进行归一化处理,包括:
对于二维人体骨架序列中的每一个二维人体骨架,每个关节点的二维坐标减去臀部关节点的二维坐标,从而得到归一化后的二维人体骨架。
3.根据权利要求1所述的基于时空上下文特征感知的三维人体姿态估计方法,其特征在于,所述将升维后的骨架特征输入到空间上下文感知模块,提取包含人体关节点间的几何依赖信息的依赖关系特征,包括:
3.1)、首先根据预设的人体结构,通过以下公式,构建结构矩阵
Figure FDA0003363293650000012
Figure FDA0003363293650000011
其中S(i,p)代表结构矩阵S中第i行,第p列的元素,MD(i,p)代表第i个人体关节点和第p个人体关节点间的流式距离,关节点间的流式距离由预设的人体骨架结构图所决定,K代表预定义的超参数。
3.2)、将结构矩阵S及升维后的骨架特征xnew输入空间上下文感知模块进行骨架特征学习,该空间上下文感知模块由N个相同结构的姿态编码器串联构成;结构矩阵S及升维后的骨架特征xnew经过第一个姿态编码器后得到特征矩阵,该特征矩阵与骨架特征xnew维度大小相同,后一个姿态编码器的输入为前一个姿态编码器输出的特征矩阵以及结构矩阵S;经过N个姿态编码器后,输出特征
Figure FDA0003363293650000021
将输出特征
Figure FDA0003363293650000022
经过LayerNorm层进行归一化,得到包含人体关节点间的几何依赖信息的依赖关系特征
Figure FDA0003363293650000023
4.根据权利要求3所述的基于时空上下文特征感知的三维人体姿态估计方法,其特征在于,所述姿态编码器,执行如下操作:
首先将结构矩阵S展平成维度为1×J2的一维向量,并将其输入骨架注意力模块,其中骨架注意力模块由一层J2个神经元的全连接层和一层sigmoid激活函数组成,输出注意力向量
Figure FDA0003363293650000024
将输入的特征矩阵首先经过LayerNorm层,然后经过转置操作将维度变成Cs×J,接着经过一层包含J2个神经元的全连接层和一层GELU激活函数,得到中间特征其维度大小为Cs×J2,然后将该中间特征与注意力向量WAtt做元素乘法操作,得到注意力特征矩阵,最后将注意力特征矩阵经过一层包含J个神经元的全连接层得到骨架注意力特征矩阵WSA维度大小为Cs×J,最后将骨架注意力特征矩阵WSA经过转置操作将维度变成J×Cs并且与输入特征xnew相加,得到残差特征值WRa
然后,将残差特征值WRa在经过LayerNorm层,以及一层包含Cs个神经元的全连接层和一层GELU激活函数,进一步学习骨架特征,最后再经过一层包含Cs个神经元的全连接层后将输出与残差特征值WRA相加,得到一个新的残差特征WNew_RA维度大小为J×Cs;WNew_RA即为当前姿态编码器输出的特征矩阵。
5.根据权利要求1所述的基于时空上下文特征感知的三维人体姿态估计方法,其特征在于,所述将依赖关系特征输入时间多层感知网络模块,在时间维度上进一步提取时间信息,得到时间上下文特征,包括:
4.1)、将每一个二维人体骨架的依赖关系特征进行拼接,组成骨架特征序列,然后将骨架特征序列的第二、三维展平成一维,形成新骨架特征序列;
4.2)将新骨架特征序列输入时间多层感知网络模块,输出的特征进行归一化,得到时间上下文特征。
6.根据权利要求4所述的基于时空上下文特征感知的三维人体姿态估计方法,其特征在于,所述时间多层感知网络模块由多个相同结构的多层感知混合器串联构成,每一个多层感知混合器执行如下操作:
首先经过LayerNorm层进行归一化,接着使用转置操作将输入特征维度变成Ct×F,接着经过一层包含Ds个神经元的全连接层,一层GELU激活函数和一层包含F个神经元的全连接层,得到中间特征其维度大小为Ct×F,接着将中间特征经过转置操作将维度变成F×Ct,并且与输入特征相加,得到残差特征值
Figure FDA0003363293650000031
然后将残差特征值FT_Ra经过LayerNorm层进行归一化,以及一层包含Dc个神经元的全连接层和一层GELU激活函数,进一步学习时间特征,最后再经过一层包含Ct个神经元的全连接层后将输出与残差特征值FT_Ra相加,得到一个新的残差特征FNew_T_Ra维度大小为F×Ct,FNew_T_Ra即为当前多层感知混合器输出的时间特征矩阵。
7.根据权利要求1所述的基于时空上下文特征感知的三维人体姿态估计方法,其特征在于,所述将时间上下文特征在时间维度均值化,然后进行归一化,接着通过一个全连接层,预测对应的三维人体姿态结果,包括:
将时间上下文特征FTC首先经过LayerNorm层进行归一化,接着在时间维度进行均值化操作,得到最终的时间特征
Figure FDA0003363293650000032
将时间特征FT_Final再经过LayerNorm层进行归一化,然后紧跟一层包含J×3个神经元的全连接层得到最终的预测结果
Figure FDA0003363293650000033
8.根据权利要求1所述的基于时空上下文特征感知的三维人体姿态估计方法,其特征在于,所述基于时空上下文特征感知的三维人体姿态估计方法,还包括:
构建损失函数:
Figure FDA0003363293650000034
其中γ代表预测的结果,
Figure FDA0003363293650000035
代表真实数据结果,k代表人体骨架中第k个关节点。
CN202111373663.4A 2021-11-19 2021-11-19 一种基于时空上下文特征感知的三维人体姿态估计方法 Pending CN114241515A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111373663.4A CN114241515A (zh) 2021-11-19 2021-11-19 一种基于时空上下文特征感知的三维人体姿态估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111373663.4A CN114241515A (zh) 2021-11-19 2021-11-19 一种基于时空上下文特征感知的三维人体姿态估计方法

Publications (1)

Publication Number Publication Date
CN114241515A true CN114241515A (zh) 2022-03-25

Family

ID=80750069

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111373663.4A Pending CN114241515A (zh) 2021-11-19 2021-11-19 一种基于时空上下文特征感知的三维人体姿态估计方法

Country Status (1)

Country Link
CN (1) CN114241515A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114973407A (zh) * 2022-05-10 2022-08-30 华南理工大学 一种基于rgb-d的视频三维人体姿态估计方法
CN117611753A (zh) * 2024-01-23 2024-02-27 吉林大学 基于人工智能重建技术的面部整形修复辅助系统及方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114973407A (zh) * 2022-05-10 2022-08-30 华南理工大学 一种基于rgb-d的视频三维人体姿态估计方法
CN114973407B (zh) * 2022-05-10 2024-04-02 华南理工大学 一种基于rgb-d的视频三维人体姿态估计方法
CN117611753A (zh) * 2024-01-23 2024-02-27 吉林大学 基于人工智能重建技术的面部整形修复辅助系统及方法
CN117611753B (zh) * 2024-01-23 2024-03-22 吉林大学 基于人工智能重建技术的面部整形修复辅助系统及方法

Similar Documents

Publication Publication Date Title
Qin et al. U2-Net: Going deeper with nested U-structure for salient object detection
Zhou et al. LSNet: Lightweight spatial boosting network for detecting salient objects in RGB-thermal images
CN107492121B (zh) 一种单目深度视频的二维人体骨骼点定位方法
Kuga et al. Multi-task learning using multi-modal encoder-decoder networks with shared skip connections
Cheng et al. Swin-depth: Using transformers and multi-scale fusion for monocular-based depth estimation
CN111814719A (zh) 一种基于3d时空图卷积的骨架行为识别方法
CN112329525A (zh) 一种基于时空图卷积神经网络的手势识别方法和装置
CN114241515A (zh) 一种基于时空上下文特征感知的三维人体姿态估计方法
CN112101262A (zh) 一种多特征融合手语识别方法及网络模型
Xu et al. RGB-T salient object detection via CNN feature and result saliency map fusion
Guan et al. AFE-CNN: 3D skeleton-based action recognition with action feature enhancement
Xu et al. Cross-modality online distillation for multi-view action recognition
CN115205336A (zh) 一种基于多层感知机的特征融合目标感知跟踪方法
CN111259749A (zh) 一种基于双向lstm的复杂环境下实时人体姿势识别方法
Tian et al. Rotation adaptive grasping estimation network oriented to unknown objects based on novel RGB-D fusion strategy
Yin et al. Msa-gcn: Multiscale adaptive graph convolution network for gait emotion recognition
Zhao et al. Human action recognition based on improved fusion attention CNN and RNN
Shao et al. Joint facial action unit recognition and self-supervised optical flow estimation
Wu et al. Hi-net: boosting self-supervised indoor depth estimation via pose optimization
CN116311345A (zh) 一种基于Transformer的遮挡行人重识别方法
Fang et al. Hand pose estimation on hybrid CNN-AE model
CN114419729A (zh) 一种基于轻量双流网络的行为识别方法
Ma et al. Convolutional transformer network for fine-grained action recognition
CN114613011A (zh) 基于图注意力卷积神经网络的人体3d骨骼行为识别方法
Huang et al. Human typical action recognition using gray scale image of silhouette sequence

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination