CN113239892A - 一种基于数据增强架构的单目人体三维姿态估计方法 - Google Patents
一种基于数据增强架构的单目人体三维姿态估计方法 Download PDFInfo
- Publication number
- CN113239892A CN113239892A CN202110648495.9A CN202110648495A CN113239892A CN 113239892 A CN113239892 A CN 113239892A CN 202110648495 A CN202110648495 A CN 202110648495A CN 113239892 A CN113239892 A CN 113239892A
- Authority
- CN
- China
- Prior art keywords
- dimensional
- human body
- posture
- body posture
- pose
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000036544 posture Effects 0.000 claims abstract description 179
- 239000011159 matrix material Substances 0.000 claims description 41
- 239000013598 vector Substances 0.000 claims description 41
- 239000003623 enhancer Substances 0.000 claims description 28
- 210000002569 neuron Anatomy 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 13
- 230000004913 activation Effects 0.000 claims description 7
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 abstract description 4
- 230000003190 augmentative effect Effects 0.000 abstract description 2
- 210000000988 bone and bone Anatomy 0.000 description 20
- 238000010586 diagram Methods 0.000 description 8
- 238000012546 transfer Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 210000002805 bone matrix Anatomy 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明属于计算机图形学技术领域,涉及一种三维人体姿态估计方法,仅通过单张图像获得的二维姿态就可以精准回归得到三维姿态,摆脱需要依赖成本高的硬件才能获取精确三维姿态的技术约束,使得如人机交互、增强现实、虚拟现实等依赖于人体三维姿态的应用大大降低成本,同时由于大大扩展了对非常见动作的三维姿态捕获精度,可以使更为复杂的动作出现在人机交互等的应用中,并大大增加应用的趣味和实用性;其原理科学可靠,在现有数据集基础上扩展数据的多样性,提升模型泛化能力,在更加丰富的真实场景中,依靠单目相机采集的图像数据获得逼真、自然的三维人体姿态,可以显著提高对非常见动作的三维姿态估计的精度,能够适用更为多样的场景。
Description
技术领域:
本发明属于计算机图形学技术领域,涉及一种三维人体姿态估计方法,具体是一种基于数据增强架构的单目三维人体姿态估计方法。
背景技术:
随着人体姿态估计研究和应用的不断深入开展,基于单目图像的二维人体姿态估计已经取得了显著的效果,在三维世界中,三维人体姿态能够提供更加真实、立体的感官效果,三维人体姿态需要借助专业的深度相机或者人体穿戴传感器获取,应用门槛过高。
借助单目相机采集的二维图像,通过神经网络回归生成三维姿态,能够大大提高应用的便捷性,拓展出更多的应用可能,实现广阔的商用价值。然而,由于二维图像中缺失深度信息,从二维图像映射到三维人体姿态存在固有的深度模糊性,同时一个二维图像可以对应多种三维人体姿态,所以映射也存在不确定性。
现有技术中,基于单目相机的三维人体姿态估计研究需要通过包含精确三维姿态和对应二维图像的数据集作为输入来进行监督或弱监督训练,然而,数据集为了保障数据的准确性,需要在装配专业相机和传感器的实验室中采集,通过十几个人模拟多个特定场景完成,基于这些数据集进行训练的神经网络模型,在面对真实的室外应用场景时,会出现泛化性不足的问题,同时对一些非常见动作(摔倒和空翻等)等情况,效果不理想。
因此,需要研发设计一种能够有效解决数据多样性不足、模型泛化能力差的基于单目视觉的三维人体姿态估计方法。
发明内容:
本发明的目的在于克服现有技术存在的缺点,寻求设计一种基于数据增强架构的单目人体三维姿态估计方法,在现有数据集基础上扩展数据的多样性,提升模型泛化能力,在更加丰富的真实场景中,依靠单目相机采集的图像数据获得逼真、自然的三维人体姿态。
为了实现上述目的,本发明涉及的基于数据增强架构的单目人体三维姿态估计方法的工艺过程为:
S1、人体姿态数据增强
人体姿态数据增强的输入为姿态估计数据集H3.6M中任一三维人体姿态P,P∈R3 *k,输出为新的三维骨骼矩阵B’,B’∈R3*(k-1);
S1.1三维人体姿态增强
三维人体姿态增强基于三维人体姿态增强器(Augmentor)实施,通过改变骨骼长度、改变骨骼向量或改变整个人体的比例和旋转角的方式对三维人体姿态进行改变,整合改变过程,使用神经网络代替改变过程的矩阵操作,得到新的三维人体姿态P’;
S1.2三维-二维人体姿态投影(3D-2D Projection)
将新的三维人体姿态P’与相机内参数和相机外参数结合,通过投影转换公式计算获得投影到二维平面上的二维人体姿态p′:首先通过计算获得关节点i在相机坐标系下的坐标,然后通过计算获得关节点i在二维平面上的坐标,依次完成全部关节点的二维平面投影,获得新的二维人体姿态p′;
S2、三维人体姿态判别
三维人体姿态判别基于三维人体姿态判别器(3D Discriminator)实施,其输入为三维人体姿态,输入来源包括姿态估计数据集H3.6M中的人体三维姿态P和通过步骤S1.1生成的新的人体三维姿态P’,将输入转换成三维骨骼矩阵B’后,分为两条支流处理:
支流一:首先将三维骨骼矩阵B’转换成包含三维骨骼夹角和三维骨骼长度的矩阵I,然后将矩阵I拉伸成一维向量,并输入FC全连接层;
支流二:直接将三维骨骼矩阵B’拉伸成一维向量,并输入FC全连接层;
通过Concat(特征连接)操作将支流一和支流二的输出连接,生成一个1*200的向量;
输出为包含一个神经元的FC全连接层,输出结果作为判别得分δ′3d;
S3、二维人体姿态判别
二维人体姿态判别基于二维人体姿态判别器(2D Discriminator)实施,其输入为二维人体姿态,输入来源包括姿态估计数据集H3.6M中的人体二维姿态p和通过步骤S1.2生成的新的人体二维姿态p’,将输入转换成二维骨骼矩阵b’后,分为两条支流处理:
支流一:首先将二维骨骼矩阵b’转换成包含二维骨骼夹角和二维骨骼长度的矩阵I,然后将矩阵I拉伸成一维向量,并输入FC全连接层;
支流二:直接将二维骨骼矩阵b’拉伸成一维向量,并输入FC全连接层;
通过Concat操作将支流一和支流二的输出连接,生成一个1*200的向量;
输出为包含一个神经元的FC全连接层,输出结果作为判别得分δ′2d;
S4、三维人体姿态估计
三维人体姿态估计基于三维人体姿态估计器(3D Estimator)实施,其输入为二维人体姿态,输入来源包括姿态估计数据集H3.6M中的人体二维姿态p和通过步骤S1.2生成的新的人体二维姿态p’,连接三个相同结构的Residual Block(残差块),输出为k=17个关节点的三维坐标;
S5、构造损失函数
S5.1构造姿态判别器损失函数
通过三维姿态判别器损失函数和二维姿态判别器损失函数构造姿态判别器损失函数;
S5.2构造姿态估计器损失函数
通过数据源为姿态估计数据集H3.6M的姿态估计器损失函数和三维姿态增强器生成的人体三维姿态的姿态估计器损失函数构造姿态估计器损失函数;
S5.3构造姿态增强器损失函数
采用姿态估计器损失函数作为姿态增强器损失函数;
S6模型训练
以姿态估计数据集H3.6M为源数据,将人体三维姿态-人体二维姿态-相机参数构建的姿态对作为一个训练数据,以每64个姿态对作为一次训练的输入数据量,根据步骤S5构造的损失函数调整人体姿态判别器、人体姿态估计器和人体姿态增强器参数,直至损失值逐步收敛并稳定,获得人体姿态判别器、人体姿态估计器和人体姿态增强器的模型参数;
S7模型测试
选取任意包含人体动作的图片,通过OpenPose(美国卡耐基梅隆大学提出的OpenPose人体姿态识别模型)模型生成人体二维姿态,通过步骤S6训练好的人体姿态估计器生成三维姿态。
本发明与现有技术相比,仅通过单张图像获得的二维姿态就可以精准回归得到三维姿态,摆脱需要依赖成本高的硬件才能获取精确三维姿态的技术约束,使得如人机交互、增强现实、虚拟现实等依赖于人体三维姿态的应用大大降低成本,同时由于大大扩展了对非常见动作的三维姿态捕获精度,可以使更为复杂的动作出现在人机交互等的应用中,并大大增加应用的趣味和实用性;其原理科学可靠,可以显著提高对非常见动作的三维姿态估计的精度,能够帮助依赖于三维姿态的应用实现适用于更为多样的场景,包括户外活动、极限运动、体操比赛、舞蹈表演等。
附图说明:
图1为本发明涉及的人体姿态数据增强的过程示意图。
图2为本发明涉及的人体关节点结构示意图。
图3为本发明涉及的人体关节点树状结构示意图。
图4为本发明涉及的三维人体姿态判别的过程示意图。
图5为本发明涉及的二维人体姿态判别的过程示意图。
图6为本发明涉及的三维人体姿态估计的过程示意图。
图7为本发明涉及的Residual Block的结构示意图。
图8为本发明涉及的模型结构示意图。
具体实施方式:
下面通过实施实例并结合附图对本发明做进一步描述。
实施例1:
本实施例涉及的基于数据增强架构的单目人体三维姿态估计方法的工艺过程为:
S1、人体姿态数据增强
人体姿态数据增强的过程如图1所示:
3D Transfer(三维姿态-骨骼变换)是将三维人体姿态P转换成三维骨骼向量B,即B=HP,H为关节点邻接矩阵;
Augmentor是三维人体姿态数据增强器,包含两个FC全连接层,每个全连接层包含1024个神经元,输出层神经元个数为67,激活函数使用tanH;
输出为新的三维骨骼矩阵B’,B’∈R3*(k-1);
3D InvTransfer(三维姿态-骨骼逆变换)是将三维骨骼矩阵B’转换成新的三维人体姿态P’,即P‘=H-1B′,P‘∈R3*k, x′i,y′i,z′i分别表示第i个关节点在世界坐标系下x、y、z方向上的数值;
上述步骤具体分解为如下:
S1.1三维人体姿态增强
三维人体姿态增强基于三维人体姿态增强器(Augmentor)实施,人体关节点是具有从属关系的树状结构,姿态估计数据集H3.6M中人体关节点和人体关节点树状结构分别如图2和3所示:
在三维人体姿态P中,选取第j个骨骼,该骨骼的起点为第r个关节点,终点为第t个关节点,转换为向量表示为: 其中,bj表示第n个三维人体姿态中第j个骨骼的空间向量,hi=(0,…,0,1,0,…,0,-1,0,…,0),表示第j个骨骼的关节邻接向量,hj∈R17,第r个位置上的值为1,第t个位置上的值为-1;
关节点的空间位置与骨骼长度、骨骼向量和人体整体比例相关,同时也与人体位置和人体整体旋转角相关,基于此,通过以下三种方式能够实现对三维人体姿态的改变:
a、改变骨骼长度(左右对称的骨骼长度一致):B’=LB,其中,L为骨骼长度变换系数矩阵;
b、改变骨骼向量:B’=B’+A,其中,A为骨骼变化向量;
c、改变整个人体的比例和旋转角:B’T=μR(β)B’T+DT,其中,
β=(βx,βy,βz)分别表示围绕x、y、z坐标轴的旋转角,μ为整体缩放比例,D=(dx,dy,dz)分别表示世界坐标系下的x、y、z坐标轴的偏移量;
整合上述改变过程,表示为:B’=μR(β)((LB)T+A)+DT,则新的三维人体姿态表示为:P’=μR(β)((LPH)T+A)+DT=μR(β)LPH+μR(β)A+DT,其中,H为固定矩阵,保持不变,μ、β、L、A和D均为随机变量,它们的改变影响新姿态的生成结果;
使用神经网络代替上述矩阵操作,神经网络的结构包括:输入层,输入为B,数据维度为3*(k-1);两个神经元个数为1024的全连接层;输出层,激活函数采用tanH,保障输出数值范围为[-1,1],输出为B’,数据维度为3*(k-1)。
S1.2三维-二维人体姿态投影(3D-2D Projection)
将新的三维人体姿态P’与相机内参数(fx,fy,cx,cy)和相机外参数结合,其中,相机外参数包括相机三维空间旋转角βcam=(βcam_x,βcam_y,βcam_z)和相机三维坐标Tcam=(tcam_x,tcam_y,tcam_z),通过投影转换公式计算获得投影到二维平面上的二维人体姿态p′:
首先通过计算获得关节点i在相机坐标系下的坐标:(xi_cam,yi_cam,zi_cam)T=[R(βcam),(Tcam)T](xi,yi,zi,1)T;然后通过计算获得关节点i在二维平面上的坐标(ui,vi): 依次完成全部关节点的二维平面投影,获得新的二维人体姿态
S2、三维人体姿态判别器(3D Discriminator)
三维人体姿态判别基于三维人体姿态判别器(3D Discriminator)实施,过程如图4所示:
输入为三维人体姿态,输入来源包括姿态估计数据集H3.6M中的人体三维姿态P和通过S1.1生成的新的人体三维姿态P’,以输入P’为例介绍之后的步骤;
3D Transfer表示将三维人体姿态P’转换成三维骨骼矩阵B’,即B’=HP’;
3D Transfer操作后,分为两条支流进行处理:
支流一:首先进行3D KCS(三维运动链空间变换)操作,将三维骨骼矩阵B’转换成包含三维骨骼夹角和三维骨骼长度的矩阵I,即I=B’TB’,I∈R(k-1)*(k-1),矩阵I的对角线元素为三维骨骼长度的平方,其余元素为三维骨骼向量之间的夹角,然后将矩阵I拉伸成一维向量,并输入包含100个神经元的FC全连接层;
支流二:直接将三维骨骼矩阵B’拉伸成一维向量,并输入包含100个神经元的FC全连接层;
通过Concat操作将支流一和支流二的输出连接,生成一个1*200的向量;
输出为包含一个神经元的FC全连接层,输出结果作为判别得分δ’3d。
S3、二维人体姿态判别
二维人体姿态判别基于二维人体姿态判别器(2D Discriminator)实施,过程如图5所示:
输入为二维人体姿态,输入来源包括姿态估计数据集H3.6M中的人体二维姿态p和通过S1.2生成的新的人体二维姿态p’,以输入p’为例介绍之后的步骤:
2D Transfer(二维姿态-骨骼变换)是将二维人体姿态p’转换成二维骨骼矩阵b’,即b’=Hp’;
2D Transfer操作后,分为两条支流进行处理:
支流一:首先进行2D KCS操作,将二维骨骼矩阵b’转换成包含二维骨骼夹角和二维骨骼长度的矩阵I,即I=b’Tb’,I∈R(k-1)*(k-1),矩阵I的对角线元素为二维骨骼长度的平方,其余元素为二维骨骼向量之间的夹角,然后将矩阵I拉伸成一维向量,并输入包含100个神经元的FC全连接层;
支流二:直接将二维骨骼矩阵b’拉伸成一维向量,并输入包含100个神经元的FC全连接层;
通过Concat操作将支流一和支流二的输出连接,生成一个1*200的向量;
输出为包含一个神经元的FC全连接层,输出结果即为判别得分δ’2d。
S4、三维人体姿态估计
三维人体姿态估计基于三维人体姿态估计器(3D Estimator)实施,过程如图6所示:
输入为人体二维姿态,输入来源包括姿态估计数据集H3.6M中的人体二维姿态和通过步骤S1.2生成的新的人体二维姿态p′;
FC 1024表示包含1024个神经元的FC全连接层;
之后连接三个相同结构的Residual Block,Residual Block的结构如图7所示:其中,FC 1024表示包含1024个神经元的FC全连接层;Batch Norm(批归一化)是对当前输入的一个/多个人体二维姿态进行归一化处理;ReLU是ReLU激活函数;是将第一个FC全连接层输出与最后一个ReLU激活函数的输出求和;
FC 51是包含51个神经元的FC全连接层,输出为k=17个关节点的三维坐标,即17*3=51。
S5、构造损失函数
S5.1构造姿态判别器损失函数
通过三维姿态判别器损失函数和二维姿态判别器损失函数构造姿态判别器损失函数:
三维姿态判别器损失函数其中,m=64,为当前次训练输入的姿态估计数据集H3.6M人体三维姿态总数,表示姿态估计数据集H3.6M中的人体三维姿态输入三维人体姿态判别器后的得分,i表示第i个人体三维姿态,表示第i个人体三维姿态通过人体三维姿态增强器后生成的人体三维姿态输入三维人体姿态判别器后的得分;
二维姿态判别器损失函数其中,表示姿态估计数据集H3.6M中的与上式人体三维姿态对应的人体二维姿态输入二维人体姿态判别器后的得分,i表示第i个人体二维姿态,表示通过人体三维姿态增强器生成并投影后得到的人体二维姿态输入二维人体姿态判别器后的得分;
姿态判别器损失函数:LC=LC_2d+LC_3d;
S5.2构造姿态估计器损失函数
通过数据源为姿态估计数据集H3.6M的姿态估计器损失函数和三维姿态增强器生成的人体三维姿态的姿态估计器损失函数构造姿态估计器损失函数:
数据源为姿态估计数据集H3.6M的姿态估计器损失函数为:其中,xi_j表示本次训练中数据来源为姿态估计数据集H3.6M的第i个人体三维姿态的第j个关节点x轴坐标,表示数据来源为三维姿态估计器预测的第i个人体三维姿态的第j个关节点x轴坐标,yi_j和y′i_j、zi_j和z′i_j表示对应y和z轴的坐标;
三维姿态增强器生成的人体三维姿态的姿态估计器损失函数为:其中,xi_j‘表示本次训练中通过三维姿态增强器生成的第i个人体三维姿态的第j个关节点x轴坐标,表示三维姿态估计器预测的第i个人体三维姿态的第j个关节点x轴坐标,yi_j‘和zi_j‘和表示对应y和z轴的坐标;
S5.3构造姿态增强器损失函数
由于姿态增强器能够生成多种多样不常见的姿态,帮助姿态估计器最大限度的增强泛化能力,同时将姿态估计器损失回馈到姿态增强器,以防止姿态增强器生成不合理的姿态,因此,采用姿态估计器损失函数作为姿态增强器损失函数:LA=LE。
S6模型训练
以姿态估计数据集H3.6M为源数据,将人体三维姿态-人体二维姿态-相机参数构建的姿态对作为一个训练数据,以每64个姿态对作为一次训练的输入数据量,根据步骤S5构造的损失函数调整人体姿态判别器、人体姿态估计器和人体姿态增强器参数,直至损失值逐步收敛并稳定,获得如图8所示的人体姿态判别器、人体姿态估计器和人体姿态增强器模型参数,其中,人体姿态增强器生成复杂多样的姿态,人体姿态判别器判别人体姿态增强器生成复杂多样的姿态是否合理,目的都是为了帮助人体姿态估计器能够适应多样的动作,增强其泛化能力;
S7模型测试
选取任意包含人体动作的图片,通过OpenPose模型生成人体二维姿态,通过步骤S6训练好的人体姿态估计器生成三维姿态。
Claims (9)
1.一种基于数据增强架构的单目人体三维姿态估计方法,其特征在于,工艺过程包括以下步骤:
S1、人体姿态数据增强
人体姿态数据增强的输入为姿态估计数据集H3.6M中任一三维人体姿态P,P∈R3*k,输出为新的三维骨骼矩阵B’,B’∈R3*(k-1);
S1.1三维人体姿态增强
三维人体姿态增强基于三维人体姿态增强器实施,通过改变骨骼长度、改变骨骼向量或改变整个人体的比例和旋转角的方式对三维人体姿态进行改变,整合改变过程,使用神经网络代替改变过程的矩阵操作,得到新的三维人体姿态P’;
S1.2三维-二维人体姿态投影
将新的三维人体姿态P’与相机内参数和相机外参数结合,通过投影转换公式计算获得投影到二维平面上的二维人体姿态p′;
S2、三维人体姿态判别
三维人体姿态判别基于三维人体姿态判别器实施,输入为三维人体姿态将输入转换成三维骨骼矩阵B’后,分为两条支流处理:
支流一:首先将三维骨骼矩阵B’转换成包含三维骨骼夹角和三维骨骼长度的矩阵I,然后将矩阵I拉伸成一维向量,并输入FC全连接层;
支流二:直接将三维骨骼矩阵B’拉伸成一维向量,并输入FC全连接层;
通过Concat操作将支流一和支流二的输出连接,生成一个1*200的向量;
输出为包含一个神经元的FC全连接层,输出结果作为判别得分δ’3d;
S3、二维人体姿态判别
二维人体姿态判别基于二维人体姿态判别器实施,输入为二维人体姿态,将输入转换成二维骨骼矩阵b’后,分为两条支流处理:
支流一:首先将二维骨骼矩阵b’转换成包含二维骨骼夹角和二维骨骼长度的矩阵I,然后将矩阵I拉伸成一维向量,并输入FC全连接层;
支流二:直接将二维骨骼矩阵b’拉伸成一维向量,并输入FC全连接层;
通过Concat操作将支流一和支流二的输出连接,生成一个1*200的向量;
输出为包含一个神经元的FC全连接层,输出结果作为判别得分δ’2d;
S4、三维人体姿态估计
三维人体姿态估计基于三维人体姿态估计器实施,输入为二维人体姿态,连接三个相同结构的Residual Block,输出为k=17个关节点的三维坐标;
S5、构造损失函数
S5.1构造姿态判别器损失函数
通过三维姿态判别器损失函数和二维姿态判别器损失函数构造姿态判别器损失函数;
S5.2构造姿态估计器损失函数
通过数据源为姿态估计数据集H3.6M的姿态估计器损失函数和三维姿态增强器生成的人体三维姿态的姿态估计器损失函数构造姿态估计器损失函数;
S5.3构造姿态增强器损失函数
采用姿态估计器损失函数作为姿态增强器损失函数;
S6模型训练
以姿态估计数据集H3.6M为源数据,将人体三维姿态-人体二维姿态-相机参数构建的姿态对作为一个训练数据,以每64个姿态对作为一次训练的输入数据量,根据步骤S5构造的损失函数调整人体姿态判别器、人体姿态估计器和人体姿态增强器参数,直至损失值逐步收敛并稳定,获得人体姿态判别器、人体姿态估计器和人体姿态增强器的模型参数;
S7模型测试
首先选取任意包含人体动作的图片,然后通过OpenPose模型生成人体二维姿态,最后通过步骤S6训练好的人体姿态估计器生成三维姿态。
2.根据权利要求1所述的基于数据增强架构的单目人体三维姿态估计方法,其特征在于,步骤S1.1涉及的神经网络的结构包括输入层、两个神经元个数为1024的全连接层和输出层。
3.根据权利要求1所述的基于数据增强架构的单目人体三维姿态估计方法,其特征在于,步骤S1.2涉及的相机内参数包括fx,fy,cx,cy;相机外参数包括相机三维空间旋转角βcam=(βcam_x,βcam_y,βcam_z)和相机三维坐标Tcam=(tcam_x,tcam_y,tcam_z)。
4.根据权利要求1或3所述的基于数据增强架构的单目人体三维姿态估计方法,其特征在于,步骤S1.2的具体工艺过程是:首先通过计算获得关节点i在相机坐标系下的坐标,然后通过计算获得关节点i在二维平面上的坐标,依次完成全部关节点的二维平面投影,获得新的二维人体姿态p′。
5.根据权利要求1所述的基于数据增强架构的单目人体三维姿态估计方法,其特征在于,步骤S2的输入来源包括姿态估计数据集H3.6M中的人体三维姿态P和通过步骤S1.1生成的新的人体三维姿态P’。
6.根据权利要求1所述的基于数据增强架构的单目人体三维姿态估计方法,其特征在于,步骤S3和S4的输入来源相同,均包括姿态估计数据集H3.6M中的人体二维姿态p和通过步骤S1.2生成的新的人体二维姿态p’,。
7.根据权利要求1或6所述的基于数据增强架构的单目人体三维姿态估计方法,其特征在于,步骤S4涉及的Residual Block包括FC 1024、Batch Norm、ReLU和⊕。
8.根据权利要求2所述的基于数据增强架构的单目人体三维姿态估计方法,其特征在于,输入层的输入为B,数据维度为3*(k-1);输出层的激活函数采用tanH,保障输出数值范围为[-1,1],输出为B’,数据维度为3*(k-1)。
9.根据权利要求7所述的基于数据增强架构的单目人体三维姿态估计方法,其特征在于,FC 1024表示包含1024个神经元的FC全连接层;Batch Norm是对当前输入的一个/多个人体二维姿态进行归一化处理;ReLU是ReLU激活函数;⊕是将第一个FC全连接层输出与最后一个ReLU激活函数的输出求和。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110648495.9A CN113239892A (zh) | 2021-06-10 | 2021-06-10 | 一种基于数据增强架构的单目人体三维姿态估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110648495.9A CN113239892A (zh) | 2021-06-10 | 2021-06-10 | 一种基于数据增强架构的单目人体三维姿态估计方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113239892A true CN113239892A (zh) | 2021-08-10 |
Family
ID=77139560
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110648495.9A Pending CN113239892A (zh) | 2021-06-10 | 2021-06-10 | 一种基于数据增强架构的单目人体三维姿态估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113239892A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114419272A (zh) * | 2022-01-20 | 2022-04-29 | 盈嘉互联(北京)科技有限公司 | 一种基于单张照片和bim的室内定位方法 |
CN114529605A (zh) * | 2022-02-16 | 2022-05-24 | 青岛联合创智科技有限公司 | 一种基于多视图融合的人体三维姿态估计方法 |
CN115937964A (zh) * | 2022-06-27 | 2023-04-07 | 北京字跳网络技术有限公司 | 姿态估计的方法、装置、设备和存储介质 |
WO2023219371A1 (ko) * | 2022-05-09 | 2023-11-16 | 삼성전자주식회사 | 학습 데이터를 증강시키는 전자 장치 및 그 제어 방법 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110473284A (zh) * | 2019-07-29 | 2019-11-19 | 电子科技大学 | 一种基于深度学习的运动物体三维模型重建方法 |
CN111311729A (zh) * | 2020-01-18 | 2020-06-19 | 西安电子科技大学 | 一种基于双向投影网络的自然场景三维人体姿态重建方法 |
CN111428586A (zh) * | 2020-03-09 | 2020-07-17 | 同济大学 | 基于特征融合与样本增强的三维人体姿态估计方法 |
CN111914618A (zh) * | 2020-06-10 | 2020-11-10 | 华南理工大学 | 基于对抗式相对深度约束网络的三维人体姿态估计方法 |
CN112257534A (zh) * | 2020-10-15 | 2021-01-22 | 合肥工业大学 | 一种从视频中估计三维人体姿态的方法 |
-
2021
- 2021-06-10 CN CN202110648495.9A patent/CN113239892A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110473284A (zh) * | 2019-07-29 | 2019-11-19 | 电子科技大学 | 一种基于深度学习的运动物体三维模型重建方法 |
CN111311729A (zh) * | 2020-01-18 | 2020-06-19 | 西安电子科技大学 | 一种基于双向投影网络的自然场景三维人体姿态重建方法 |
CN111428586A (zh) * | 2020-03-09 | 2020-07-17 | 同济大学 | 基于特征融合与样本增强的三维人体姿态估计方法 |
CN111914618A (zh) * | 2020-06-10 | 2020-11-10 | 华南理工大学 | 基于对抗式相对深度约束网络的三维人体姿态估计方法 |
CN112257534A (zh) * | 2020-10-15 | 2021-01-22 | 合肥工业大学 | 一种从视频中估计三维人体姿态的方法 |
Non-Patent Citations (7)
Title |
---|
BASTIAN WANDT AND BODO ROSENHAHN: "RepNet: Weakly Supervised Training of an Adversarial Reprojection Network for 3D Human Pose Estimation", 《ARXIV:1902.09868V2》 * |
DYLAN DROVER ET AL: "Can 3D Pose be Learned from 2D Projections Alone?", 《ARXIV:1808.07182V1》 * |
JULIETA MARTINEZ ET AL: "A simple yet effective baseline for 3d human pose estimation", 《ARXIV:1705.03098V2》 * |
KEHONG GONG ET AL: "PoseAug: A Differentiable Pose Augmentation Framework for 3D Human Pose Estimation", 《ARXIV:2105.02465V1》 * |
刘国华: "《HALCON数字图像处理》", 31 May 2018 * |
我心飞翔: "从世界坐标系到相机坐标系", 《CSDN》 * |
编辑部编译: "如何使用RepNet进行3D人体姿态估计", 《机器人产业》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114419272A (zh) * | 2022-01-20 | 2022-04-29 | 盈嘉互联(北京)科技有限公司 | 一种基于单张照片和bim的室内定位方法 |
CN114419272B (zh) * | 2022-01-20 | 2022-08-19 | 盈嘉互联(北京)科技有限公司 | 一种基于单张照片和bim的室内定位方法 |
CN114529605A (zh) * | 2022-02-16 | 2022-05-24 | 青岛联合创智科技有限公司 | 一种基于多视图融合的人体三维姿态估计方法 |
CN114529605B (zh) * | 2022-02-16 | 2024-05-24 | 青岛联合创智科技有限公司 | 一种基于多视图融合的人体三维姿态估计方法 |
WO2023219371A1 (ko) * | 2022-05-09 | 2023-11-16 | 삼성전자주식회사 | 학습 데이터를 증강시키는 전자 장치 및 그 제어 방법 |
CN115937964A (zh) * | 2022-06-27 | 2023-04-07 | 北京字跳网络技术有限公司 | 姿态估计的方法、装置、设备和存储介质 |
CN115937964B (zh) * | 2022-06-27 | 2023-12-15 | 北京字跳网络技术有限公司 | 姿态估计的方法、装置、设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Nibali et al. | 3d human pose estimation with 2d marginal heatmaps | |
CN113239892A (zh) | 一种基于数据增强架构的单目人体三维姿态估计方法 | |
CN109003301B (zh) | 一种基于OpenPose和Kinect的人体姿态估计方法及康复训练系统 | |
Liu et al. | Two-stream 3d convolutional neural network for skeleton-based action recognition | |
CN111819568B (zh) | 人脸旋转图像的生成方法及装置 | |
Kundu et al. | Unsupervised feature learning of human actions as trajectories in pose embedding manifold | |
Joo et al. | Panoptic studio: A massively multiview system for social motion capture | |
CN111160164B (zh) | 基于人体骨架和图像融合的动作识别方法 | |
CN110020611B (zh) | 一种基于三维假设空间聚类的多人动作捕捉方法 | |
CN111553968B (zh) | 一种三维人体重构动画的方法 | |
CN101692284B (zh) | 基于量子免疫克隆算法的三维人体运动跟踪方法 | |
CN110633736A (zh) | 一种基于多源异构数据融合的人体跌倒检测方法 | |
CN112232106B (zh) | 一种二维到三维人体姿态估计方法 | |
CN110188700B (zh) | 基于分组回归模型的人体三维关节点预测方法 | |
CN113642379B (zh) | 基于注意力机制融合多流图的人体姿态预测方法及系统 | |
Zhang et al. | GPU-accelerated real-time tracking of full-body motion with multi-layer search | |
CN114821640A (zh) | 基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法 | |
CN106815855A (zh) | 基于产生式和判别式结合的人体运动跟踪方法 | |
CN115951784B (zh) | 一种基于双神经辐射场的穿衣人体运动捕捉和生成方法 | |
CN111462274A (zh) | 一种基于smpl模型的人体图像合成方法及系统 | |
CN112446253B (zh) | 一种骨架行为识别方法及装置 | |
CN116778045A (zh) | 神经辐射场数字人生成方法、系统及装置 | |
Yu et al. | Three-dimensional working pose estimation in industrial scenarios with monocular camera | |
Zhu et al. | Mvp-human dataset for 3d human avatar reconstruction from unconstrained frames | |
Millerdurai et al. | Eventego3d: 3d human motion capture from egocentric event streams |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210810 |