CN116310066A - 一种单图像三维人体形态估计方法及应用 - Google Patents

一种单图像三维人体形态估计方法及应用 Download PDF

Info

Publication number
CN116310066A
CN116310066A CN202211090357.4A CN202211090357A CN116310066A CN 116310066 A CN116310066 A CN 116310066A CN 202211090357 A CN202211090357 A CN 202211090357A CN 116310066 A CN116310066 A CN 116310066A
Authority
CN
China
Prior art keywords
dimensional
model
human body
estimated
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211090357.4A
Other languages
English (en)
Inventor
刘乐元
高韵琪
陈靓影
刘三女牙
杨宗凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central China Normal University
Original Assignee
Central China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central China Normal University filed Critical Central China Normal University
Priority to CN202211090357.4A priority Critical patent/CN116310066A/zh
Publication of CN116310066A publication Critical patent/CN116310066A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Graphics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Psychiatry (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Social Psychology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种单图像三维人体形态估计方法,包括:根据输入图像估计所包含的人体区域在非衣着状态下以三维参数化模型描述的三维人体形态,并计算得到的估计结果与真实结果之间的误差信息用以描述第一损失函数;在估计结果与真实结果的引导下根据输入图像重建得到人体区域在衣着状态下的三维重建模型,并计算分别由两种结果引导得到的三维重建模型之间的误差信息用以描述第二损失函数;分别将第一损失函数输入三维重建模型以及将第二损失函数反馈至估计的三维参数化模型进行迭代直至模型收敛,得到优化后的三维人体形态估计结果。其可以解决现有的三维人体形态估计方法受到服装遮挡人体的干扰导致形态估计出现较大误差的问题。

Description

一种单图像三维人体形态估计方法及应用
技术领域
本发明涉及计算机图形学和计算机视觉领域技术领域,更具体的,涉及一种单图像三维人体形态估计方法、一种单图像三维人体形态估计系统、一种电子设备及一种计算机可读存储介质。
背景技术
三维人体形态估计是指从可见光图像中估计出人体的三维体形(shape)、姿态(pose)。三维人体形态估计在体育辅助训练与分析、虚拟试衣、影视制作、大健康等领域都有着广阔的应用前景。通常,采用一个参数化的三维人体模型(如SMPL、STAR等)来描述三维人体形态。基于估计出的姿态和体形参数即可通过参数化模型恢复出一个与估计姿态、体形相吻合的近似裸体的三维人体网格(mesh)。
近年来,随着深度学习的迅猛发展,学者们陆续提出了一些单图像三维人体形态估计方法,如SMPLify使用基于CNN的方法来预测2D人体关节位置和关节置信度,通过最小化目标函数来惩罚投影的3D模型关节与检测到的2D关节之间的误差、SPIN通过迭代的模型拟合学习重建三维人体姿势和体形、HMR使用基于回归估计出非衣着人体模型的形态并使用GAN模型来判别是否为真实人体、GCMR使用图卷积来预测非衣着人体每个顶点的位置、DecoMR显式地建立了网格与局部图像特征在UV空间(即用于三维网格纹理映射的二维空间)中的密集对应关系。
上述方法虽然可以较好地从身着紧身衣物的人体图像中估计出三维人体形态,但由于非衣着人体网格面与图像像素之间的密集对应关系缺失,对穿着日常衣物的人体图像估计三维人体形态的效果不好,从身着宽松衣服的人体图像中估计出的三维人体形态甚至会产生严重的错误,例如穿着宽松裤子的人士被识别成腿部弯曲、穿着宽松上衣的人士被识别成肥胖形态、穿着长大衣的人士被识别成上半身长而下半身短。因此,提出一种能够有效降低服装遮挡人体所带来的形态估计误差的单图像三维人体形态估计方法是当前亟待解决的问题。
发明内容
针对现有技术的至少一个缺陷或改进需求,本发明提供了一种单图像三维人体形态估计方法、系统和电子设备以及计算机可读存储介质,旨在解决现有的三维人体形态估计方法受到服装遮挡人体的干扰导致形态估计出现较大误差的问题。
为实现上述目的,按照本发明的第一个方面,提供了一种单图像三维人体形态估计方法,包括:根据输入图像估计所包含的人体区域在非衣着状态下的三维人体形态得到估计三维参数化模型,并计算所述估计三维参数化模型与真实三维参数化模型之间的误差信息用以描述深度神经网络的第一损失函数;在所述估计三维参数化模型的引导下根据输入图像重建得到所述人体区域在衣着状态下的三维重建模型,并计算分别由所述估计三维参数模型和所述真实参数化模型引导的重建模型之间的误差信息用以描述深度神经网络的第二损失函数;分别将所述第一损失函数输入所述三维重建模型以及将所述第二损失函数反馈至所述估计三维参数化模型进行迭代直至模型收敛,得到优化后的三维人体形态估计结果。
在本发明的一个实施例中,所述根据输入图像估计所包含的人体区域在非衣着状态下的三维人体形态得到估计三维参数化模型,包括:从所述输入图像中将所述人体区域分割出来并得到人体图像;从所述人体图像中提取图像特征;根据所述图像特征预测人体模型的顶点位置;将预测得到的人体模型顶点作为输入到全连接层回归出人体模型参数,根据所述人体模型参数还原得到所述估计三维参数化模型。
在本发明的一个实施例中,所述根据所述图像特征预测人体模型的顶点位置,包括:基于人体模型模板将提取的所述图像特征连接到对应的人体顶点,并输入图卷积神经网络中预测所述顶点位置,预测公式为:
Figure BDA0003837002000000031
其中,T∈RK×3和D∈RN×K分别表示所述人体模型模板和下采样矩阵,/>
Figure BDA0003837002000000032
表示图的邻接矩阵,F∈RN×f为提取的所述图像特征,W∈R(3+f)×3表示权重矩阵,/>
Figure BDA0003837002000000033
表示预测人体模型的顶点位置。
在本发明的一个实施例中,所述估计三维参数化模型以图的形式表示:M0=W(T(β,θ),J(β),θ,ω);
Figure BDA0003837002000000034
其中,/>
Figure BDA0003837002000000035
为标准人体模型,W(·)是融合蒙皮函数,J(β)描述由于体型变化引起的关节点位移,ω∈RN×K为融合权重矩阵,BP(·):R|θ|→R3N为姿态融合函数,BS(·):R|β|→R3N为体型融合函数。
在本发明的一个实施例中,所述第一损失函数为:Lsp=Lshape+L2D+L3D+Lθ+λLβ;其中,
Figure BDA0003837002000000036
Figure BDA0003837002000000037
其中,Lshape表示每个顶点的损失,L3D表示从SMPL模型获取的3D关节点的损失,L2D表示从所述人体模型模板获取的3D关节点映射到2D空间上的损失,Lθ表示姿态参数的损失,Lβ则表示体型参数的损失。
在本发明的一个实施例中,所述在所述估计三维参数化模型与所述真实三维参数化模型的引导下根据输入图像重建得到所述人体区域在衣着状态下的三维重建模型,包括:将所述估计三维参数化模型与所述真实三维参数化模型作为引导的先验条件来约束隐式曲面函数,通过所述隐式曲面函数进行所述表面重建得到所述三维重建模型。在本发明的一个实施例中,所述计算分别由所述估计三维参数模型和所述真实参数化模型引导的所述三维重建模型之间的误差信息用以描述深度神经网络的第二损失函数,包括:
在所述表面重建过程中使用深度-模糊感知重建损失得到所述第二损失函数为:
Figure BDA0003837002000000038
其中,np为三维采样点的个数,F*(pi)为pi点的真实占有值,F(pi)为pi点为所述估计三维参数化模型进行表面重建的预测占有值,Fgt(pi)为pi点所述真实三维参数化模型进行表面重建的预测占有值。
按照本发明的第二个方面,还提供了一种单图像三维人体形态估计系统,其包括:非衣着人体模型估计模块,用于根据输入图像估计所包含的人体区域在非衣着状态下的三维人体形态得到估计三维参数化模型,并计算所述估计三维参数化模型与真实三维参数化模型之间的误差信息用以描述深度神经网络的第一损失函数;衣着人体模型重建模块,用于在所述估计三维参数化模型与所述真实三维参数化模型的引导下根据输入图像重建得到所述人体区域在衣着状态下的三维重建模型,并计算分别由所述估计三维参数模型和所述真实参数化模型引导的重建模型之间的误差信息用以描述深度神经网络的第二损失函数;模型优化模块,用于分别将所述第一损失函数输入所述三维重建模型以及将所述第二损失函数反馈至所述估计三维参数化模型进行迭代直至模型收敛,得到优化后的三维人体形态估计结果。
按照本发明的第三个方面,还提供了一种电子设备,其包括至少一个处理单元、以及至少一个存储单元,其中,所述存储单元存储有计算机程序,当所述计算机程序被所述处理单元执行时,使得所述处理单元执行上述中任一个实施例所述方法的步骤。
按照本发明的第四个方面,还提供了一种计算机可读存储介质,其存储有可由访问认证设备执行的计算机程序,当所述计算机程序在访问认证设备上运行时,使得所述访问认证设备执行上述中任一个实施例所述方法的步骤。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,至少能够取得下列有益效果:
1)根据输入图像估计所包含的人体区域在非衣着状态下以三维参数化模型描述的三维人体形态,并计算得到的估计三维参数化模型与真实三维参数化模型之间的误差信息描述第一损失函数;在估计三维参数化模型的引导下根据输入图像重建得到人体区域在衣着状态下的三维重建模型,并计算分别由估计三维参数模型和真实参数化模型引导的重建模型之间的误差信息描述第二损失函数;分别将第一损失函数输入三维重建模型以及将第二损失函数反馈至估计三维参数化模型进行迭代直至模型收敛,得到优化后的三维人体形态估计结果,有效地解决了由于衣服着装的复杂性导致人体姿态估计不准的问题;
2)使用图表示的三维模型在人体形态估计过程中更加灵活且精确,由于图结构由点和线组成,适用于准确拟合人体模型,同时图表示具有一定的灵活性,可以模拟人体顶点位置的变化。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种单图像三维人体形态估计方法的执行步骤示意图;
图2为本申请实施例提供的非衣着人体三维形态估计的流程示意图;
图3为本申请实施例提供的衣着人体三维模型重建的流程示意图;
图4为本申请实施例提供的衣着人体三维模型重建损失回馈的网络框架示意图;
图5为本申请实施例提供的非衣着人体三维形态估计与结合非衣着人体三维形态估计及衣着人体三维模型重建的效果对比示意图;
图6为本申请实施例提供的对日常运动图片进行三维人体形态估计的效果示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
如图1所示,本发明第一实施例提出一种单图像三维人体形态估计方法,例如包括:步骤P1,根据输入图像估计所包含的人体区域在非衣着状态下的三维人体形态得到估计三维参数化模型,并计算所述估计三维参数化模型与真实三维参数化模型之间的误差信息用以描述深度神经网络的第一损失函数;步骤P2,在估计三维参数化模型与所述真实三维参数化模型的引导下根据输入图像重建得到所述人体区域在衣着状态下的三维重建模型,并计算分别由估计三维参数模型和真实参数化模型引导的所述三维重建模型之间的误差信息用以描述深度神经网络的第二损失函数;步骤P3,分别将所述第一损失函数输入所述三维重建模型以及将所述第二损失函数反馈至所述估计三维参数化模型进行迭代直至模型收敛,得到优化后的三维人体形态估计结果。
在步骤P1中,提到的三维人体形态例如包括体形(Shape)和姿态(Pose)。估计非衣着三维人体形态后,计算估计结果与真实结果之间的误差,并用其描述深度神经网络的一个损失函数Lsp
具体的,如图2所示,P1例如包括如下步骤:
S1:人体图像分割:从输入图像中将人体区域分割出来,分割之后的人体图像记为I。
S2:图像特征提取:利用图像编码器G从图像I中提取图像特征G(I)。提到的图像编码器G例如为一个残差卷积神经网络。
S3:根据提取的图像特征预测人体模型的顶点位置。在一个实施方式中,例如基于人体模型模板如SMPL人体模型将提取的图像特征连接到对应的人体顶点,并输入图卷积神经网络中预测所述顶点位置。具体的,SMPL人体模型由6890个顶点组成,为了构建一个轻量级网络,例如将6890个顶点的人体模板下采样到1732个顶点。预测顶点的公式如下:
Figure BDA0003837002000000071
其中,T∈RK×3和D∈RN×K分别表示所述人体模型模板和下采样矩阵,
Figure BDA0003837002000000072
表示图的邻接矩阵,F∈RN×f为提取的所述图像特征,W∈R(3+f)×3表示权重矩阵,/>
Figure BDA0003837002000000073
表示预测人体模型的顶点位置。
进一步的,除了得出每个顶点的3D旋转角度,图卷积神经网络还对弱透视相机模型的相机参数进行了回归,并将相机参数通过变换投影得到弱监督相机模型的缩放和平移参数[s,t],t∈R2
S4:回归人体三维参数化模型参数。例如将步骤S3预测得到的人体模型顶点作为输入到全连接层回归出参数化人体模型SMPL的参数(β,θ)。三维参数化该人体模型的参数(β,θ)和对应的相机参数[s,t](其中s为缩放因子,t为平移因子),并根据估计的参数还原初始的三维参数化模型M0。值得一提的是,上述步骤优选采用SMPL或STAR作为三维参数化人体模型的模板,当然,在其它实施方式中也采用另外的人体模型模板,本申请并不以此为限制。
进一步的,三维人体模型M0例如以图(包含顶点、边)的形式表示。具体的,通过估计的模型参数(β,θ)还原三维人体模型为:
M0=W(T(β,θ),J(β),θ,ω);
Figure BDA0003837002000000074
其中,
Figure BDA0003837002000000075
为标准人体模型,W(·)是融合蒙皮函数,J(β)描述由于体型变化引起的关节点位移,ω∈RN×K为融合权重矩阵,BP(·):R|θ|→R3N为姿态融合函数,BS(·):R|β|→R3N为体型融合函数。
在一个实施方式中,为了约束和得到更精确的人体模型参数,该步骤例如在网络中定义了五个损失函数组合成所述第一损失函数来进行约束:
Lsp=Lshape+L2D+L3D+Lθ+λLβ
其中:
Figure BDA0003837002000000081
Figure BDA0003837002000000082
Figure BDA0003837002000000083
Figure BDA0003837002000000084
Figure BDA0003837002000000085
其中,Lshape表示每个顶点的损失,L3D表示从SMPL模型获取的3D关节点的损失,L2D表示从所述人体模型模板获取的3D关节点映射到2D空间上的损失,Lθ表示姿态参数的损失,Lβ则表示体型参数的损失。
在步骤P2中,如图3所示,对衣着人体三维模型重建例如包括如下步骤:
E1:数据准备。例如将步骤S1获取得到的图像、步骤S4获取得到的估计三维参数化模型M(β,θ)和真实三维参数化模型M(βgtgt)作为输入。
E2:衣着人体三维模型重建。在训练中,例如将步骤S4得到的估计三维参数化模型M(β,θ)和真实三维参数化模型M(βgtgt)进行表面细节重建,将这两个SMPL人体模型作为引导的先验条件来约束隐式曲面函数,通过使用隐式曲面函数对SMPL模型进行表面重建。
具体的,隐式曲面函数例如为:
F(p;fI,fV)=o,o∈[0,1];
其中,p为三维采样点,F(·)表示隐式曲面函数,o为顶点的预测占有值,如果预测点在模型里面则取1,否则取0,fI和fV分别表示该顶点的二维像素特征和三维体素特征,该方法是将2D图像的像素特征和3D人体模型SMPL的体素特征进行连接,使用解码器解码后判断每个采样顶点的占有值来重建出人体表面的细节。
E3:反馈重建损失。步骤E3将由估计三维参数模型和真实参数化模型引导的三维重建模型之间的误差信息回传到前向网络中。具体的,例如在表面重建过程中使用深度-模糊感知重建损失来判断构建的准确性,该方法将计算的第二损失函数Lc回传到步骤S3的图卷积神经网络中,用于调整SMPL模型预测结果。该第二损失函数为:
Figure BDA0003837002000000091
其中,np为三维采样点的个数,F*(pi)为pi点的真实占有值,F(pi)为pi点为所述估计三维参数化模型进行表面重建的预测占有值,Fgt(pi)为pi点所述真实三维参数化模型进行表面重建的预测占有值。
通过这个该第二损失函数可以不断优化表面重建的最终结果,同时通过迭代的方式将第二损失函数进一步反作用于人体姿态估计的姿态参数θ和形态参数β,从而得到更好的估计人体模型的结果。
在步骤P3中,如图4所示,该网络的参数通过最小化损失函数Lsp和Lc的训练得到,训练步骤例如如下:
T1:训练集样本准备。例如对每个数据项的人体图像执行步骤S1,使得训练数据集中每个数据项包含:人体图像、人体图像的2D关节点位置,真实参数化SMPL模型、真实三维人体模型。
T2:网络训练。迭代执行T21和T22最小化损失函数Lsp和Lc直到模型收敛。
T21:执行P1中的步骤S2,S3,S4最小化损失函数Lsp,并将损失函数Lsp和得到的初步的参数化人体模型传至P2中。
T22:执行P2,将基步骤S4估计人体模型以致衣着人体模型重建损失惩罚项Lc回传到步骤S3中,优化步骤S4的输出。
综上所述,本发明第一实施例提出的一种单图像三维人体形态估计方法,根据输入图像估计所包含的人体区域在非衣着状态下的三维人体形态得到估计三维参数化模型,并计算得到的估计三维参数化模型与真实三维参数化模型之间的误差信息描述第一损失函数,在估计三维参数化模型的引导下根据输入图像重建得到人体区域在衣着状态下的三维重建模型,并计算分别由估计三维参数模型和真实参数化模型引导的重建模型之间的误差信息描述第二损失函数,分别将第一损失函数输入三维重建模型以及将第二损失函数反馈至估计三维参数化模型进行迭代直至模型收敛,得到优化后的三维人体形态估计结果,有效地解决了由于衣服着装的复杂性导致人体姿态估计不准的问题;另外,使用图表示的三维模型在人体形态估计过程中更加灵活且精确,由于图结构由点和线组成,适用于准确拟合人体模型,同时图表示具有一定的灵活性,可以模拟人体顶点位置的变化。
另外,本发明第二实施例还提出一种单图像三维人体形态估计系统,例如包括:非衣着人体模型估计模块、衣着人体模型重建模块和模型优化模块。
其中,非衣着人体模型估计模块用于根据输入图像估计所包含的人体区域在非衣着状态下的三维人体形态得到估计三维参数化模型,并计算所述估计三维参数化模型与真实三维参数化模型之间的误差信息用以描述深度神经网络的第一损失函数。衣着人体模型重建模块用于在估计三维参数化模型与所述真实三维参数化模型的引导下根据输入图像重建得到所述人体区域在衣着状态下的三维重建模型,并计算分别由所述估计三维参数模型和所述真实参数化模型引导的所述三维重建模型之间的误差信息用以描述深度神经网络的第二损失函数。模型优化模块用于分别将所述第一损失函数输入所述三维重建模型以及将所述第二损失函数反馈至所述估计三维参数化模型进行迭代直至模型收敛,得到优化后的三维人体形态估计结果。
具体的,例如先通过预处理模块对前期图像进行预处理。该预处理模块准备训练集样本,训练数据集中每个数据项包含人体图像、人体图像的2D关节点位置,真实参数化SMPL模型、真实三维人体模型。同时,该模块封装了MODNet算法,用以执行上述步骤S1。具体的,例如输入一个外部设备拍摄的图片,预处理模块将输入图像中的人体区域利用MODNet算法分割出来并裁剪到为512*512分辨率。
通过非衣着人体模型估计模块封装P1过程中训练好的非衣着人体形态估计模型,该模块是由图像编码模块、图卷积神经网络预测顶点模块,回归参数化人体姿态和形态参数模块组成的网络,并执行上述步骤S2、S3、S4。具体的,例如输入512*512(已除背景)的人体图像,通过步骤S2得到图像特征向量F∈R1×2048连接到步骤S3人体模型下采样模板每个顶点中DT∈R1732×3,得到输入特征模板为
Figure BDA0003837002000000111
通过乘上邻接矩阵
Figure BDA0003837002000000112
和权重参数W∈R(3+1732)×3来预测出1732个顶点位置,最后上采样到6890个顶点的位置。接着执行步骤S4,将步骤S3得到的6890个顶点的坐标连接人体模板SMPL作为输入,输出全连接层回归的85个参数(包括相机参数c∈R3,姿态参数θ∈R24×3,形态参数β∈R10)。此过程得到的参数化人体模型SMPL将引导非衣着人体模型估计模块对参数化人体模型进行表面重建。
通过衣着人体模型重建模块在训练过程中封装P2训练好的衣着人体三维模型表面重建的模型,在估计三维参数化模型和真实三维参数化模型的引导下根据输入图像重建得到的人体区域在衣着状态下的三维重建模型。具体的,该模块包含衣着人体三维模型重建和重建损失回馈两个小模块,并执行步骤E2和E3,计算分别由估计三维参数模型和真实参数化模型引导的重建模型之间的误差信息用以描述深度神经网络的第二损失函数Lc回传到非衣着人体模型估计模块中。
通过模型优化模块在训练过程中将非衣着人体模型估计模块的损失函数输入衣着人体模型估计模块,M2衣着人体模型估计模块的损失函数反馈至非衣着人体模型估计模块进行迭代直至模型收敛,得到优化后的三维人体形态估计结果,最终得到SMPL模型的姿态和形态参数。
使用衣着人体模型重建损失回传非衣着的人体形态估计中可以得到更好的估计输出。如图5中展示了仅使用P1(非衣着人体形态估计)和结合使用P1和P2(非衣着人体形态估计和衣着人体模型重建)的结果,可以看出,后者可以更好地规避服装的影响,更准确地估计出人体的形态。结合图6所示,使用非衣着人体形态估计结合衣着人体模型重建来估计人体形态参数不仅在动作简单下有效,对于复杂动作也可以估计得很准确。
值得一提的是,本发明第二实施例公开的单图像三维人体形态估计系统所实现的方法如前述第一实施例中所述,故在此不再进行详细讲述。可选地,第二实施例中的各个模块和上述其他操作或功能分别为了实现第一实施例所述的单图像三维人体形态估计方法,且本实施例的有益效果同前述第一实施例的有益效果相同,为了简洁,不在此赘述。
本发明第三实施例还提出一种电子设备,例如包括:至少一个处理单元、以及至少一个存储单元,其中,所述存储单元存储有计算机程序,当所述计算机程序被所述处理单元执行时,使得所述处理单元执行如第一实施例所述的方法,且本实施例提供的电子设备的有益效果与第一实施例提供的单图像三维人体形态估计方法的有益效果相同。
本发明第四实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤,且本实施例提供的计算机可读存储介质的有益效果与第一实施例提供的单图像三维人体形态估计方法的有益效果相同。
其中,计算机可读存储介质可以包括但不限于任何类型的盘,包括软盘、光盘、DVD、CD-ROM、微型驱动器以及磁光盘、ROM、RAM、EPROM、EEPROM、DRAM、VRAM、闪速存储器设备、磁卡或光卡、纳米系统(包括分子存储器IC),或适合于存储指令和/或数据的任何类型的媒介或设备。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些服务接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通进程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random AccessMemory,RAM)、磁盘或光盘等。
以上所述者,仅为本公开的示例性实施例,不能以此限定本公开的范围。即但凡依本公开教导所作的等效变化与修饰,皆仍属本公开涵盖的范围内。本领域技术人员在考虑说明书及实践这里的公开后,将容易想到本公开的其实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未记载的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的范围和精神由权利要求限定。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种单图像三维人体形态估计方法,其特征在于,包括:
根据输入图像估计所包含的人体区域在非衣着状态下的三维人体形态得到估计三维参数化模型,并计算所述估计三维参数化模型与真实三维参数化模型之间的误差信息用以描述深度神经网络的第一损失函数;
在所述估计三维参数化模型与所述真实三维参数化模型的引导下根据输入图像重建得到所述人体区域在衣着状态下的三维重建模型,并计算分别由所述估计三维参数模型和所述真实参数化模型引导的所述三维重建模型之间的误差信息用以描述深度神经网络的第二损失函数;
分别将所述第一损失函数输入所述三维重建模型以及将所述第二损失函数反馈至所述估计三维参数化模型进行迭代直至模型收敛,得到优化后的三维人体形态估计结果。
2.根据权利要求1所述的单图像三维人体形态估计方法,其特征在于,所述根据输入图像估计所包含的人体区域在非衣着状态下的三维人体形态得到估计三维参数化模型,包括:
从所述输入图像中将所述人体区域分割出来得到人体图像;
从所述人体图像中提取图像特征;
根据所述图像特征预测人体模型的顶点位置;
将预测得到的人体模型顶点作为输入到全连接层回归出人体模型参数,根据所述人体模型参数还原得到所述估计三维参数化模型。
3.根据权利要求2所述的单图像三维人体形态估计方法,其特征在于,所述根据所述图像特征预测人体模型的顶点位置,包括:
基于人体模型模板将提取的所述图像特征连接到对应的人体顶点,并输入图卷积神经网络中预测所述顶点位置,预测公式为:
Figure FDA0003837001990000011
其中,T∈RK×3和D∈RN×K分别表示所述人体模型模板和下采样矩阵,
Figure FDA0003837001990000021
表示图的邻接矩阵,F∈RN×f为提取的所述图像特征,W∈R(3+f)×3表示权重矩阵,/>
Figure FDA0003837001990000022
表示预测人体模型的顶点位置。
4.根据权利要求2所述的单图像三维人体形态估计方法,其特征在于,所述估计三维参数化模型以图的形式表示:
M0=W(T(β,θ),J(β),θ,ω);
Figure FDA0003837001990000023
其中,
Figure FDA0003837001990000024
为标准人体模型,W(·)是融合蒙皮函数,J(β)描述由于体型变化引起的关节点位移,ω∈RN×K为融合权重矩阵,BP(·):R|θ|→R3N为姿态融合函数,BS(·):R|β|→R3N为体型融合函数。
5.根据权利要求4所述的单图像三维人体形态估计方法,其特征在于,所述第一损失函数为:
Lsp=Lshape+L2D+L3D+Lθ+λLβ
其中,
Figure FDA0003837001990000025
Figure FDA0003837001990000026
其中,表示每个顶点的损失,L3D表示从SMPL模型获取的3D关节点的损失,L2D表示从所述人体模型模板获取的3D关节点映射到2D空间上的损失,Lθ表示姿态参数的损失,Lβ则表示体型参数的损失。
6.根据权利要求1所述的单图像三维人体形态估计方法,其特征在于,所述在所述估计三维参数化模型与所述真实三维参数化模型的引导下根据输入图像重建得到所述人体区域在衣着状态下的三维重建模型,包括:
将所述估计三维参数化模型与所述真实三维参数化模型作为引导的先验条件来约束隐式曲面函数,通过所述隐式曲面函数进行所述表面重建得到所述三维重建模型。
7.根据权利要求1所述的单图像三维人体形态估计方法,其特征在于,所述计算分别由所述估计三维参数模型和所述真实参数化模型引导的所述三维重建模型之间的误差信息用以描述深度神经网络的第二损失函数,包括:
在所述表面重建过程中使用深度-模糊感知重建损失得到所述第二损失函数为:
Figure FDA0003837001990000031
其中,np为三维采样点的个数,F*(pi)为pi点的真实占有值,F(pi)为pi点为所述估计三维参数化模型进行表面重建的预测占有值,Fgt(pi)为pi点所述真实三维参数化模型进行表面重建的预测占有值。
8.一种单图像三维人体形态估计系统,其特征在于,包括:
非衣着人体模型估计模块,用于根据输入图像估计所包含的人体区域在非衣着状态下的三维人体形态得到估计三维参数化模型,并计算所述估计三维参数化模型与真实三维参数化模型之间的误差信息用以描述深度神经网络的第一损失函数;
衣着人体模型重建模块,用于在所述估计三维参数化模型与所述真实三维参数化模型的引导下根据输入图像重建得到所述人体区域在衣着状态下的三维重建模型,并计算分别由所述估计三维参数模型和所述真实参数化模型引导的所述三维重建模型之间的误差信息用以描述深度神经网络的第二损失函数;
模型优化模块,用于分别将所述第一损失函数输入所述三维重建模型以及将所述第二损失函数反馈至所述估计三维参数化模型进行迭代直至模型收敛,得到优化后的三维人体形态估计结果。
9.一种电子设备,其特征在于,包括至少一个处理单元、以及至少一个存储单元,其中,所述存储单元存储有计算机程序,当所述计算机程序被所述处理单元执行时,使得所述处理单元执行权利要求1-7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其特征在于,其存储有可由访问认证设备执行的计算机程序,当所述计算机程序在访问认证设备上运行时,使得所述访问认证设备执行权利要求1-7中任一项所述方法的步骤。
CN202211090357.4A 2022-09-07 2022-09-07 一种单图像三维人体形态估计方法及应用 Pending CN116310066A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211090357.4A CN116310066A (zh) 2022-09-07 2022-09-07 一种单图像三维人体形态估计方法及应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211090357.4A CN116310066A (zh) 2022-09-07 2022-09-07 一种单图像三维人体形态估计方法及应用

Publications (1)

Publication Number Publication Date
CN116310066A true CN116310066A (zh) 2023-06-23

Family

ID=86820917

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211090357.4A Pending CN116310066A (zh) 2022-09-07 2022-09-07 一种单图像三维人体形态估计方法及应用

Country Status (1)

Country Link
CN (1) CN116310066A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116993926A (zh) * 2023-09-26 2023-11-03 北京渲光科技有限公司 单视图人体三维重建方法
CN117911630A (zh) * 2024-03-18 2024-04-19 之江实验室 一种三维人体建模的方法、装置、存储介质及电子设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116993926A (zh) * 2023-09-26 2023-11-03 北京渲光科技有限公司 单视图人体三维重建方法
CN116993926B (zh) * 2023-09-26 2024-01-16 北京渲光科技有限公司 单视图人体三维重建方法
CN117911630A (zh) * 2024-03-18 2024-04-19 之江实验室 一种三维人体建模的方法、装置、存储介质及电子设备
CN117911630B (zh) * 2024-03-18 2024-05-14 之江实验室 一种三维人体建模的方法、装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
Tung et al. Self-supervised learning of motion capture
Alldieck et al. imghum: Implicit generative models of 3d human shape and articulated pose
US10679046B1 (en) Machine learning systems and methods of estimating body shape from images
Balan et al. Detailed human shape and pose from images
Stoll et al. Fast articulated motion tracking using a sums of gaussians body model
US11158121B1 (en) Systems and methods for generating accurate and realistic clothing models with wrinkles
CN109544677A (zh) 基于深度图像关键帧的室内场景主结构重建方法及系统
CN110310285B (zh) 一种精确的基于三维人体重建的烧伤面积计算方法
CN116310066A (zh) 一种单图像三维人体形态估计方法及应用
CN109829972B (zh) 一种面向连续帧点云的三维人体标准骨架提取方法
CN111968165A (zh) 动态人体三维模型补全方法、装置、设备和介质
WO2021063271A1 (zh) 人体模型重建方法、重建系统及存储介质
US20220245911A1 (en) Methods of estimating a bare body shape from a concealed scan of the body
Caliskan et al. Multi-view consistency loss for improved single-image 3d reconstruction of clothed people
Huang et al. A bayesian approach to multi-view 4d modeling
Allain et al. On mean pose and variability of 3d deformable models
Madadi et al. Deep unsupervised 3D human body reconstruction from a sparse set of landmarks
Garcia-D’Urso et al. Accurate estimation of parametric models of the human body from 3D point clouds
CN115049764B (zh) Smpl参数预测模型的训练方法、装置、设备及介质
CN111369662A (zh) Ct图像中血管的三维模型重建方法及系统
Starck et al. Model-based human shape reconstruction from multiple views
Alcoverro et al. Skeleton and shape adjustment and tracking in multicamera environments
CN115769259A (zh) 从影像学习铰接形状重建
Bertiche et al. Deep parametric surfaces for 3d outfit reconstruction from single view image
US20230126829A1 (en) Point-based modeling of human clothing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination