CN113239892A - 一种基于数据增强架构的单目人体三维姿态估计方法 - Google Patents

一种基于数据增强架构的单目人体三维姿态估计方法 Download PDF

Info

Publication number
CN113239892A
CN113239892A CN202110648495.9A CN202110648495A CN113239892A CN 113239892 A CN113239892 A CN 113239892A CN 202110648495 A CN202110648495 A CN 202110648495A CN 113239892 A CN113239892 A CN 113239892A
Authority
CN
China
Prior art keywords
dimensional
human body
posture
body posture
pose
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110648495.9A
Other languages
English (en)
Inventor
纪刚
周亚敏
周萌萌
周粉粉
杨春霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Lianhe Chuangzhi Technology Co ltd
Original Assignee
Qingdao Lianhe Chuangzhi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Lianhe Chuangzhi Technology Co ltd filed Critical Qingdao Lianhe Chuangzhi Technology Co ltd
Priority to CN202110648495.9A priority Critical patent/CN113239892A/zh
Publication of CN113239892A publication Critical patent/CN113239892A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明属于计算机图形学技术领域,涉及一种三维人体姿态估计方法,仅通过单张图像获得的二维姿态就可以精准回归得到三维姿态,摆脱需要依赖成本高的硬件才能获取精确三维姿态的技术约束,使得如人机交互、增强现实、虚拟现实等依赖于人体三维姿态的应用大大降低成本,同时由于大大扩展了对非常见动作的三维姿态捕获精度,可以使更为复杂的动作出现在人机交互等的应用中,并大大增加应用的趣味和实用性;其原理科学可靠,在现有数据集基础上扩展数据的多样性,提升模型泛化能力,在更加丰富的真实场景中,依靠单目相机采集的图像数据获得逼真、自然的三维人体姿态,可以显著提高对非常见动作的三维姿态估计的精度,能够适用更为多样的场景。

Description

一种基于数据增强架构的单目人体三维姿态估计方法
技术领域:
本发明属于计算机图形学技术领域,涉及一种三维人体姿态估计方法,具体是一种基于数据增强架构的单目三维人体姿态估计方法。
背景技术:
随着人体姿态估计研究和应用的不断深入开展,基于单目图像的二维人体姿态估计已经取得了显著的效果,在三维世界中,三维人体姿态能够提供更加真实、立体的感官效果,三维人体姿态需要借助专业的深度相机或者人体穿戴传感器获取,应用门槛过高。
借助单目相机采集的二维图像,通过神经网络回归生成三维姿态,能够大大提高应用的便捷性,拓展出更多的应用可能,实现广阔的商用价值。然而,由于二维图像中缺失深度信息,从二维图像映射到三维人体姿态存在固有的深度模糊性,同时一个二维图像可以对应多种三维人体姿态,所以映射也存在不确定性。
现有技术中,基于单目相机的三维人体姿态估计研究需要通过包含精确三维姿态和对应二维图像的数据集作为输入来进行监督或弱监督训练,然而,数据集为了保障数据的准确性,需要在装配专业相机和传感器的实验室中采集,通过十几个人模拟多个特定场景完成,基于这些数据集进行训练的神经网络模型,在面对真实的室外应用场景时,会出现泛化性不足的问题,同时对一些非常见动作(摔倒和空翻等)等情况,效果不理想。
因此,需要研发设计一种能够有效解决数据多样性不足、模型泛化能力差的基于单目视觉的三维人体姿态估计方法。
发明内容:
本发明的目的在于克服现有技术存在的缺点,寻求设计一种基于数据增强架构的单目人体三维姿态估计方法,在现有数据集基础上扩展数据的多样性,提升模型泛化能力,在更加丰富的真实场景中,依靠单目相机采集的图像数据获得逼真、自然的三维人体姿态。
为了实现上述目的,本发明涉及的基于数据增强架构的单目人体三维姿态估计方法的工艺过程为:
S1、人体姿态数据增强
人体姿态数据增强的输入为姿态估计数据集H3.6M中任一三维人体姿态P,P∈R3 *k,输出为新的三维骨骼矩阵B’,B’∈R3*(k-1)
S1.1三维人体姿态增强
三维人体姿态增强基于三维人体姿态增强器(Augmentor)实施,通过改变骨骼长度、改变骨骼向量或改变整个人体的比例和旋转角的方式对三维人体姿态进行改变,整合改变过程,使用神经网络代替改变过程的矩阵操作,得到新的三维人体姿态P’;
S1.2三维-二维人体姿态投影(3D-2D Projection)
将新的三维人体姿态P’与相机内参数和相机外参数结合,通过投影转换公式计算获得投影到二维平面上的二维人体姿态p′:首先通过计算获得关节点i在相机坐标系下的坐标,然后通过计算获得关节点i在二维平面上的坐标,依次完成全部关节点的二维平面投影,获得新的二维人体姿态p′;
S2、三维人体姿态判别
三维人体姿态判别基于三维人体姿态判别器(3D Discriminator)实施,其输入为三维人体姿态,输入来源包括姿态估计数据集H3.6M中的人体三维姿态P和通过步骤S1.1生成的新的人体三维姿态P’,将输入转换成三维骨骼矩阵B’后,分为两条支流处理:
支流一:首先将三维骨骼矩阵B’转换成包含三维骨骼夹角和三维骨骼长度的矩阵I,然后将矩阵I拉伸成一维向量,并输入FC全连接层;
支流二:直接将三维骨骼矩阵B’拉伸成一维向量,并输入FC全连接层;
通过Concat(特征连接)操作将支流一和支流二的输出连接,生成一个1*200的向量;
输出为包含一个神经元的FC全连接层,输出结果作为判别得分δ′3d
S3、二维人体姿态判别
二维人体姿态判别基于二维人体姿态判别器(2D Discriminator)实施,其输入为二维人体姿态,输入来源包括姿态估计数据集H3.6M中的人体二维姿态p和通过步骤S1.2生成的新的人体二维姿态p’,将输入转换成二维骨骼矩阵b’后,分为两条支流处理:
支流一:首先将二维骨骼矩阵b’转换成包含二维骨骼夹角和二维骨骼长度的矩阵I,然后将矩阵I拉伸成一维向量,并输入FC全连接层;
支流二:直接将二维骨骼矩阵b’拉伸成一维向量,并输入FC全连接层;
通过Concat操作将支流一和支流二的输出连接,生成一个1*200的向量;
输出为包含一个神经元的FC全连接层,输出结果作为判别得分δ′2d
S4、三维人体姿态估计
三维人体姿态估计基于三维人体姿态估计器(3D Estimator)实施,其输入为二维人体姿态,输入来源包括姿态估计数据集H3.6M中的人体二维姿态p和通过步骤S1.2生成的新的人体二维姿态p’,连接三个相同结构的Residual Block(残差块),输出为k=17个关节点的三维坐标;
S5、构造损失函数
S5.1构造姿态判别器损失函数
通过三维姿态判别器损失函数和二维姿态判别器损失函数构造姿态判别器损失函数;
S5.2构造姿态估计器损失函数
通过数据源为姿态估计数据集H3.6M的姿态估计器损失函数和三维姿态增强器生成的人体三维姿态的姿态估计器损失函数构造姿态估计器损失函数;
S5.3构造姿态增强器损失函数
采用姿态估计器损失函数作为姿态增强器损失函数;
S6模型训练
以姿态估计数据集H3.6M为源数据,将人体三维姿态-人体二维姿态-相机参数构建的姿态对作为一个训练数据,以每64个姿态对作为一次训练的输入数据量,根据步骤S5构造的损失函数调整人体姿态判别器、人体姿态估计器和人体姿态增强器参数,直至损失值逐步收敛并稳定,获得人体姿态判别器、人体姿态估计器和人体姿态增强器的模型参数;
S7模型测试
选取任意包含人体动作的图片,通过OpenPose(美国卡耐基梅隆大学提出的OpenPose人体姿态识别模型)模型生成人体二维姿态,通过步骤S6训练好的人体姿态估计器生成三维姿态。
本发明与现有技术相比,仅通过单张图像获得的二维姿态就可以精准回归得到三维姿态,摆脱需要依赖成本高的硬件才能获取精确三维姿态的技术约束,使得如人机交互、增强现实、虚拟现实等依赖于人体三维姿态的应用大大降低成本,同时由于大大扩展了对非常见动作的三维姿态捕获精度,可以使更为复杂的动作出现在人机交互等的应用中,并大大增加应用的趣味和实用性;其原理科学可靠,可以显著提高对非常见动作的三维姿态估计的精度,能够帮助依赖于三维姿态的应用实现适用于更为多样的场景,包括户外活动、极限运动、体操比赛、舞蹈表演等。
附图说明:
图1为本发明涉及的人体姿态数据增强的过程示意图。
图2为本发明涉及的人体关节点结构示意图。
图3为本发明涉及的人体关节点树状结构示意图。
图4为本发明涉及的三维人体姿态判别的过程示意图。
图5为本发明涉及的二维人体姿态判别的过程示意图。
图6为本发明涉及的三维人体姿态估计的过程示意图。
图7为本发明涉及的Residual Block的结构示意图。
图8为本发明涉及的模型结构示意图。
具体实施方式:
下面通过实施实例并结合附图对本发明做进一步描述。
实施例1:
本实施例涉及的基于数据增强架构的单目人体三维姿态估计方法的工艺过程为:
S1、人体姿态数据增强
人体姿态数据增强的过程如图1所示:
输入为姿态估计数据集H3.6M中任一三维人体姿态P,P∈R3*k
Figure BDA0003110149820000061
xi,yi,zi分别表示第i个关节点在世界坐标系下x、y、z方向上的数值,k=17为关节点的数量;
3D Transfer(三维姿态-骨骼变换)是将三维人体姿态P转换成三维骨骼向量B,即B=HP,H为关节点邻接矩阵;
Augmentor是三维人体姿态数据增强器,包含两个FC全连接层,每个全连接层包含1024个神经元,输出层神经元个数为67,激活函数使用tanH;
输出为新的三维骨骼矩阵B’,B’∈R3*(k-1)
3D InvTransfer(三维姿态-骨骼逆变换)是将三维骨骼矩阵B’转换成新的三维人体姿态P’,即P‘=H-1B′,P‘∈R3*k
Figure BDA0003110149820000062
Figure BDA0003110149820000063
x′i,y′i,z′i分别表示第i个关节点在世界坐标系下x、y、z方向上的数值;
3D-2D Projection是三维世界坐标系向二维平面的投影变换矩阵,输出为投影后的二维人体姿态p′,p′∈R2*k
Figure BDA0003110149820000064
ui,vi分别表示第i个关节点在二维平面坐标系下x、y方向上的数值。
上述步骤具体分解为如下:
S1.1三维人体姿态增强
三维人体姿态增强基于三维人体姿态增强器(Augmentor)实施,人体关节点是具有从属关系的树状结构,姿态估计数据集H3.6M中人体关节点和人体关节点树状结构分别如图2和3所示:
在三维人体姿态P中,选取第j个骨骼,该骨骼的起点为第r个关节点,终点为第t个关节点,转换为向量表示为:
Figure BDA0003110149820000071
Figure BDA0003110149820000072
其中,bj表示第n个三维人体姿态中第j个骨骼的空间向量,hi=(0,…,0,1,0,…,0,-1,0,…,0),表示第j个骨骼的关节邻接向量,hj∈R17,第r个位置上的值为1,第t个位置上的值为-1;
整个人体骨架的关节点邻接矩阵由每个骨骼的关节点邻接向量构成,即
Figure BDA0003110149820000073
则人体的三维骨骼向量表示为:
Figure BDA0003110149820000074
Figure BDA0003110149820000075
关节点的空间位置与骨骼长度、骨骼向量和人体整体比例相关,同时也与人体位置和人体整体旋转角相关,基于此,通过以下三种方式能够实现对三维人体姿态的改变:
a、改变骨骼长度(左右对称的骨骼长度一致):B’=LB,其中,L为骨骼长度变换系数矩阵;
b、改变骨骼向量:B’=B’+A,其中,A为骨骼变化向量;
c、改变整个人体的比例和旋转角:B’T=μR(β)B’T+DT,其中,
Figure BDA0003110149820000076
β=(βx,βy,βz)分别表示围绕x、y、z坐标轴的旋转角,μ为整体缩放比例,D=(dx,dy,dz)分别表示世界坐标系下的x、y、z坐标轴的偏移量;
整合上述改变过程,表示为:B’=μR(β)((LB)T+A)+DT,则新的三维人体姿态表示为:P’=μR(β)((LPH)T+A)+DT=μR(β)LPH+μR(β)A+DT,其中,H为固定矩阵,保持不变,μ、β、L、A和D均为随机变量,它们的改变影响新姿态的生成结果;
使用神经网络代替上述矩阵操作,神经网络的结构包括:输入层,输入为B,数据维度为3*(k-1);两个神经元个数为1024的全连接层;输出层,激活函数采用tanH,保障输出数值范围为[-1,1],输出为B’,数据维度为3*(k-1)。
S1.2三维-二维人体姿态投影(3D-2D Projection)
将新的三维人体姿态P’与相机内参数(fx,fy,cx,cy)和相机外参数结合,其中,相机外参数包括相机三维空间旋转角βcam=(βcam_x,βcam_y,βcam_z)和相机三维坐标Tcam=(tcam_x,tcam_y,tcam_z),通过投影转换公式计算获得投影到二维平面上的二维人体姿态p′:
首先通过计算获得关节点i在相机坐标系下的坐标:(xi_cam,yi_cam,zi_cam)T=[R(βcam),(Tcam)T](xi,yi,zi,1)T;然后通过计算获得关节点i在二维平面上的坐标(ui,vi):
Figure BDA0003110149820000081
Figure BDA0003110149820000082
依次完成全部关节点的二维平面投影,获得新的二维人体姿态
Figure BDA0003110149820000083
S2、三维人体姿态判别器(3D Discriminator)
三维人体姿态判别基于三维人体姿态判别器(3D Discriminator)实施,过程如图4所示:
输入为三维人体姿态,输入来源包括姿态估计数据集H3.6M中的人体三维姿态P和通过S1.1生成的新的人体三维姿态P’,以输入P’为例介绍之后的步骤;
3D Transfer表示将三维人体姿态P’转换成三维骨骼矩阵B’,即B’=HP’;
3D Transfer操作后,分为两条支流进行处理:
支流一:首先进行3D KCS(三维运动链空间变换)操作,将三维骨骼矩阵B’转换成包含三维骨骼夹角和三维骨骼长度的矩阵I,即I=B’TB’,I∈R(k-1)*(k-1),矩阵I的对角线元素为三维骨骼长度的平方,其余元素为三维骨骼向量之间的夹角,然后将矩阵I拉伸成一维向量,并输入包含100个神经元的FC全连接层;
支流二:直接将三维骨骼矩阵B’拉伸成一维向量,并输入包含100个神经元的FC全连接层;
通过Concat操作将支流一和支流二的输出连接,生成一个1*200的向量;
输出为包含一个神经元的FC全连接层,输出结果作为判别得分δ’3d
S3、二维人体姿态判别
二维人体姿态判别基于二维人体姿态判别器(2D Discriminator)实施,过程如图5所示:
输入为二维人体姿态,输入来源包括姿态估计数据集H3.6M中的人体二维姿态p和通过S1.2生成的新的人体二维姿态p’,以输入p’为例介绍之后的步骤:
2D Transfer(二维姿态-骨骼变换)是将二维人体姿态p’转换成二维骨骼矩阵b’,即b’=Hp’;
2D Transfer操作后,分为两条支流进行处理:
支流一:首先进行2D KCS操作,将二维骨骼矩阵b’转换成包含二维骨骼夹角和二维骨骼长度的矩阵I,即I=b’Tb’,I∈R(k-1)*(k-1),矩阵I的对角线元素为二维骨骼长度的平方,其余元素为二维骨骼向量之间的夹角,然后将矩阵I拉伸成一维向量,并输入包含100个神经元的FC全连接层;
支流二:直接将二维骨骼矩阵b’拉伸成一维向量,并输入包含100个神经元的FC全连接层;
通过Concat操作将支流一和支流二的输出连接,生成一个1*200的向量;
输出为包含一个神经元的FC全连接层,输出结果即为判别得分δ’2d
S4、三维人体姿态估计
三维人体姿态估计基于三维人体姿态估计器(3D Estimator)实施,过程如图6所示:
输入为人体二维姿态,输入来源包括姿态估计数据集H3.6M中的人体二维姿态和通过步骤S1.2生成的新的人体二维姿态p′;
FC 1024表示包含1024个神经元的FC全连接层;
之后连接三个相同结构的Residual Block,Residual Block的结构如图7所示:其中,FC 1024表示包含1024个神经元的FC全连接层;Batch Norm(批归一化)是对当前输入的一个/多个人体二维姿态进行归一化处理;ReLU是ReLU激活函数;
Figure BDA0003110149820000116
是将第一个FC全连接层输出与最后一个ReLU激活函数的输出求和;
FC 51是包含51个神经元的FC全连接层,输出为k=17个关节点的三维坐标,即17*3=51。
S5、构造损失函数
S5.1构造姿态判别器损失函数
通过三维姿态判别器损失函数和二维姿态判别器损失函数构造姿态判别器损失函数:
三维姿态判别器损失函数
Figure BDA0003110149820000111
其中,m=64,为当前次训练输入的姿态估计数据集H3.6M人体三维姿态总数,
Figure BDA0003110149820000112
表示姿态估计数据集H3.6M中的人体三维姿态输入三维人体姿态判别器后的得分,i表示第i个人体三维姿态,
Figure BDA0003110149820000113
表示第i个人体三维姿态通过人体三维姿态增强器后生成的人体三维姿态输入三维人体姿态判别器后的得分;
二维姿态判别器损失函数
Figure BDA0003110149820000114
其中,
Figure BDA0003110149820000115
表示姿态估计数据集H3.6M中的与上式人体三维姿态对应的人体二维姿态输入二维人体姿态判别器后的得分,i表示第i个人体二维姿态,
Figure BDA0003110149820000121
表示通过人体三维姿态增强器生成并投影后得到的人体二维姿态输入二维人体姿态判别器后的得分;
姿态判别器损失函数:LC=LC_2d+LC_3d
S5.2构造姿态估计器损失函数
通过数据源为姿态估计数据集H3.6M的姿态估计器损失函数和三维姿态增强器生成的人体三维姿态的姿态估计器损失函数构造姿态估计器损失函数:
数据源为姿态估计数据集H3.6M的姿态估计器损失函数为:
Figure BDA0003110149820000122
其中,xi_j表示本次训练中数据来源为姿态估计数据集H3.6M的第i个人体三维姿态的第j个关节点x轴坐标,
Figure BDA0003110149820000123
表示数据来源为三维姿态估计器预测的第i个人体三维姿态的第j个关节点x轴坐标,yi_j和y′i_j、zi_j和z′i_j表示对应y和z轴的坐标;
三维姿态增强器生成的人体三维姿态的姿态估计器损失函数为:
Figure BDA0003110149820000124
其中,xi_j‘表示本次训练中通过三维姿态增强器生成的第i个人体三维姿态的第j个关节点x轴坐标,
Figure BDA0003110149820000125
表示三维姿态估计器预测的第i个人体三维姿态的第j个关节点x轴坐标,yi_j‘和
Figure BDA0003110149820000126
zi_j‘和
Figure BDA0003110149820000127
表示对应y和z轴的坐标;
姿态估计器损失函数为:
Figure BDA0003110149820000128
其中,σ为控制系数,初始值设置为1.1,每完成一次全部姿态估计数据集H3.6M的训练,σ增大0.1倍,用以生成更为不常见但合理的姿态。
S5.3构造姿态增强器损失函数
由于姿态增强器能够生成多种多样不常见的姿态,帮助姿态估计器最大限度的增强泛化能力,同时将姿态估计器损失回馈到姿态增强器,以防止姿态增强器生成不合理的姿态,因此,采用姿态估计器损失函数作为姿态增强器损失函数:LA=LE
S6模型训练
以姿态估计数据集H3.6M为源数据,将人体三维姿态-人体二维姿态-相机参数构建的姿态对作为一个训练数据,以每64个姿态对作为一次训练的输入数据量,根据步骤S5构造的损失函数调整人体姿态判别器、人体姿态估计器和人体姿态增强器参数,直至损失值逐步收敛并稳定,获得如图8所示的人体姿态判别器、人体姿态估计器和人体姿态增强器模型参数,其中,人体姿态增强器生成复杂多样的姿态,人体姿态判别器判别人体姿态增强器生成复杂多样的姿态是否合理,目的都是为了帮助人体姿态估计器能够适应多样的动作,增强其泛化能力;
S7模型测试
选取任意包含人体动作的图片,通过OpenPose模型生成人体二维姿态,通过步骤S6训练好的人体姿态估计器生成三维姿态。

Claims (9)

1.一种基于数据增强架构的单目人体三维姿态估计方法,其特征在于,工艺过程包括以下步骤:
S1、人体姿态数据增强
人体姿态数据增强的输入为姿态估计数据集H3.6M中任一三维人体姿态P,P∈R3*k,输出为新的三维骨骼矩阵B’,B’∈R3*(k-1)
S1.1三维人体姿态增强
三维人体姿态增强基于三维人体姿态增强器实施,通过改变骨骼长度、改变骨骼向量或改变整个人体的比例和旋转角的方式对三维人体姿态进行改变,整合改变过程,使用神经网络代替改变过程的矩阵操作,得到新的三维人体姿态P’;
S1.2三维-二维人体姿态投影
将新的三维人体姿态P’与相机内参数和相机外参数结合,通过投影转换公式计算获得投影到二维平面上的二维人体姿态p′;
S2、三维人体姿态判别
三维人体姿态判别基于三维人体姿态判别器实施,输入为三维人体姿态将输入转换成三维骨骼矩阵B’后,分为两条支流处理:
支流一:首先将三维骨骼矩阵B’转换成包含三维骨骼夹角和三维骨骼长度的矩阵I,然后将矩阵I拉伸成一维向量,并输入FC全连接层;
支流二:直接将三维骨骼矩阵B’拉伸成一维向量,并输入FC全连接层;
通过Concat操作将支流一和支流二的输出连接,生成一个1*200的向量;
输出为包含一个神经元的FC全连接层,输出结果作为判别得分δ’3d
S3、二维人体姿态判别
二维人体姿态判别基于二维人体姿态判别器实施,输入为二维人体姿态,将输入转换成二维骨骼矩阵b’后,分为两条支流处理:
支流一:首先将二维骨骼矩阵b’转换成包含二维骨骼夹角和二维骨骼长度的矩阵I,然后将矩阵I拉伸成一维向量,并输入FC全连接层;
支流二:直接将二维骨骼矩阵b’拉伸成一维向量,并输入FC全连接层;
通过Concat操作将支流一和支流二的输出连接,生成一个1*200的向量;
输出为包含一个神经元的FC全连接层,输出结果作为判别得分δ’2d
S4、三维人体姿态估计
三维人体姿态估计基于三维人体姿态估计器实施,输入为二维人体姿态,连接三个相同结构的Residual Block,输出为k=17个关节点的三维坐标;
S5、构造损失函数
S5.1构造姿态判别器损失函数
通过三维姿态判别器损失函数和二维姿态判别器损失函数构造姿态判别器损失函数;
S5.2构造姿态估计器损失函数
通过数据源为姿态估计数据集H3.6M的姿态估计器损失函数和三维姿态增强器生成的人体三维姿态的姿态估计器损失函数构造姿态估计器损失函数;
S5.3构造姿态增强器损失函数
采用姿态估计器损失函数作为姿态增强器损失函数;
S6模型训练
以姿态估计数据集H3.6M为源数据,将人体三维姿态-人体二维姿态-相机参数构建的姿态对作为一个训练数据,以每64个姿态对作为一次训练的输入数据量,根据步骤S5构造的损失函数调整人体姿态判别器、人体姿态估计器和人体姿态增强器参数,直至损失值逐步收敛并稳定,获得人体姿态判别器、人体姿态估计器和人体姿态增强器的模型参数;
S7模型测试
首先选取任意包含人体动作的图片,然后通过OpenPose模型生成人体二维姿态,最后通过步骤S6训练好的人体姿态估计器生成三维姿态。
2.根据权利要求1所述的基于数据增强架构的单目人体三维姿态估计方法,其特征在于,步骤S1.1涉及的神经网络的结构包括输入层、两个神经元个数为1024的全连接层和输出层。
3.根据权利要求1所述的基于数据增强架构的单目人体三维姿态估计方法,其特征在于,步骤S1.2涉及的相机内参数包括fx,fy,cx,cy;相机外参数包括相机三维空间旋转角βcam=(βcam_xcam_ycam_z)和相机三维坐标Tcam=(tcam_x,tcam_y,tcam_z)。
4.根据权利要求1或3所述的基于数据增强架构的单目人体三维姿态估计方法,其特征在于,步骤S1.2的具体工艺过程是:首先通过计算获得关节点i在相机坐标系下的坐标,然后通过计算获得关节点i在二维平面上的坐标,依次完成全部关节点的二维平面投影,获得新的二维人体姿态p′。
5.根据权利要求1所述的基于数据增强架构的单目人体三维姿态估计方法,其特征在于,步骤S2的输入来源包括姿态估计数据集H3.6M中的人体三维姿态P和通过步骤S1.1生成的新的人体三维姿态P’。
6.根据权利要求1所述的基于数据增强架构的单目人体三维姿态估计方法,其特征在于,步骤S3和S4的输入来源相同,均包括姿态估计数据集H3.6M中的人体二维姿态p和通过步骤S1.2生成的新的人体二维姿态p’,。
7.根据权利要求1或6所述的基于数据增强架构的单目人体三维姿态估计方法,其特征在于,步骤S4涉及的Residual Block包括FC 1024、Batch Norm、ReLU和⊕。
8.根据权利要求2所述的基于数据增强架构的单目人体三维姿态估计方法,其特征在于,输入层的输入为B,数据维度为3*(k-1);输出层的激活函数采用tanH,保障输出数值范围为[-1,1],输出为B’,数据维度为3*(k-1)。
9.根据权利要求7所述的基于数据增强架构的单目人体三维姿态估计方法,其特征在于,FC 1024表示包含1024个神经元的FC全连接层;Batch Norm是对当前输入的一个/多个人体二维姿态进行归一化处理;ReLU是ReLU激活函数;⊕是将第一个FC全连接层输出与最后一个ReLU激活函数的输出求和。
CN202110648495.9A 2021-06-10 2021-06-10 一种基于数据增强架构的单目人体三维姿态估计方法 Pending CN113239892A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110648495.9A CN113239892A (zh) 2021-06-10 2021-06-10 一种基于数据增强架构的单目人体三维姿态估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110648495.9A CN113239892A (zh) 2021-06-10 2021-06-10 一种基于数据增强架构的单目人体三维姿态估计方法

Publications (1)

Publication Number Publication Date
CN113239892A true CN113239892A (zh) 2021-08-10

Family

ID=77139560

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110648495.9A Pending CN113239892A (zh) 2021-06-10 2021-06-10 一种基于数据增强架构的单目人体三维姿态估计方法

Country Status (1)

Country Link
CN (1) CN113239892A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114419272A (zh) * 2022-01-20 2022-04-29 盈嘉互联(北京)科技有限公司 一种基于单张照片和bim的室内定位方法
CN114529605A (zh) * 2022-02-16 2022-05-24 青岛联合创智科技有限公司 一种基于多视图融合的人体三维姿态估计方法
CN115937964A (zh) * 2022-06-27 2023-04-07 北京字跳网络技术有限公司 姿态估计的方法、装置、设备和存储介质
WO2023219371A1 (ko) * 2022-05-09 2023-11-16 삼성전자주식회사 학습 데이터를 증강시키는 전자 장치 및 그 제어 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110473284A (zh) * 2019-07-29 2019-11-19 电子科技大学 一种基于深度学习的运动物体三维模型重建方法
CN111311729A (zh) * 2020-01-18 2020-06-19 西安电子科技大学 一种基于双向投影网络的自然场景三维人体姿态重建方法
CN111428586A (zh) * 2020-03-09 2020-07-17 同济大学 基于特征融合与样本增强的三维人体姿态估计方法
CN111914618A (zh) * 2020-06-10 2020-11-10 华南理工大学 基于对抗式相对深度约束网络的三维人体姿态估计方法
CN112257534A (zh) * 2020-10-15 2021-01-22 合肥工业大学 一种从视频中估计三维人体姿态的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110473284A (zh) * 2019-07-29 2019-11-19 电子科技大学 一种基于深度学习的运动物体三维模型重建方法
CN111311729A (zh) * 2020-01-18 2020-06-19 西安电子科技大学 一种基于双向投影网络的自然场景三维人体姿态重建方法
CN111428586A (zh) * 2020-03-09 2020-07-17 同济大学 基于特征融合与样本增强的三维人体姿态估计方法
CN111914618A (zh) * 2020-06-10 2020-11-10 华南理工大学 基于对抗式相对深度约束网络的三维人体姿态估计方法
CN112257534A (zh) * 2020-10-15 2021-01-22 合肥工业大学 一种从视频中估计三维人体姿态的方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
BASTIAN WANDT AND BODO ROSENHAHN: "RepNet: Weakly Supervised Training of an Adversarial Reprojection Network for 3D Human Pose Estimation", 《ARXIV:1902.09868V2》 *
DYLAN DROVER ET AL: "Can 3D Pose be Learned from 2D Projections Alone?", 《ARXIV:1808.07182V1》 *
JULIETA MARTINEZ ET AL: "A simple yet effective baseline for 3d human pose estimation", 《ARXIV:1705.03098V2》 *
KEHONG GONG ET AL: "PoseAug: A Differentiable Pose Augmentation Framework for 3D Human Pose Estimation", 《ARXIV:2105.02465V1》 *
刘国华: "《HALCON数字图像处理》", 31 May 2018 *
我心飞翔: "从世界坐标系到相机坐标系", 《CSDN》 *
编辑部编译: "如何使用RepNet进行3D人体姿态估计", 《机器人产业》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114419272A (zh) * 2022-01-20 2022-04-29 盈嘉互联(北京)科技有限公司 一种基于单张照片和bim的室内定位方法
CN114419272B (zh) * 2022-01-20 2022-08-19 盈嘉互联(北京)科技有限公司 一种基于单张照片和bim的室内定位方法
CN114529605A (zh) * 2022-02-16 2022-05-24 青岛联合创智科技有限公司 一种基于多视图融合的人体三维姿态估计方法
CN114529605B (zh) * 2022-02-16 2024-05-24 青岛联合创智科技有限公司 一种基于多视图融合的人体三维姿态估计方法
WO2023219371A1 (ko) * 2022-05-09 2023-11-16 삼성전자주식회사 학습 데이터를 증강시키는 전자 장치 및 그 제어 방법
CN115937964A (zh) * 2022-06-27 2023-04-07 北京字跳网络技术有限公司 姿态估计的方法、装置、设备和存储介质
CN115937964B (zh) * 2022-06-27 2023-12-15 北京字跳网络技术有限公司 姿态估计的方法、装置、设备和存储介质

Similar Documents

Publication Publication Date Title
Nibali et al. 3d human pose estimation with 2d marginal heatmaps
CN113239892A (zh) 一种基于数据增强架构的单目人体三维姿态估计方法
CN109003301B (zh) 一种基于OpenPose和Kinect的人体姿态估计方法及康复训练系统
Liu et al. Two-stream 3d convolutional neural network for skeleton-based action recognition
CN111819568B (zh) 人脸旋转图像的生成方法及装置
Kundu et al. Unsupervised feature learning of human actions as trajectories in pose embedding manifold
Joo et al. Panoptic studio: A massively multiview system for social motion capture
CN111160164B (zh) 基于人体骨架和图像融合的动作识别方法
CN110020611B (zh) 一种基于三维假设空间聚类的多人动作捕捉方法
CN111553968B (zh) 一种三维人体重构动画的方法
CN101692284B (zh) 基于量子免疫克隆算法的三维人体运动跟踪方法
CN110633736A (zh) 一种基于多源异构数据融合的人体跌倒检测方法
CN112232106B (zh) 一种二维到三维人体姿态估计方法
CN110188700B (zh) 基于分组回归模型的人体三维关节点预测方法
CN113642379B (zh) 基于注意力机制融合多流图的人体姿态预测方法及系统
Zhang et al. GPU-accelerated real-time tracking of full-body motion with multi-layer search
CN114821640A (zh) 基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法
CN106815855A (zh) 基于产生式和判别式结合的人体运动跟踪方法
CN115951784B (zh) 一种基于双神经辐射场的穿衣人体运动捕捉和生成方法
CN111462274A (zh) 一种基于smpl模型的人体图像合成方法及系统
CN112446253B (zh) 一种骨架行为识别方法及装置
CN116778045A (zh) 神经辐射场数字人生成方法、系统及装置
Yu et al. Three-dimensional working pose estimation in industrial scenarios with monocular camera
Zhu et al. Mvp-human dataset for 3d human avatar reconstruction from unconstrained frames
Millerdurai et al. Eventego3d: 3d human motion capture from egocentric event streams

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210810