CN112530019A - 三维人体重建方法、装置、计算机设备和存储介质 - Google Patents

三维人体重建方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN112530019A
CN112530019A CN202011446853.XA CN202011446853A CN112530019A CN 112530019 A CN112530019 A CN 112530019A CN 202011446853 A CN202011446853 A CN 202011446853A CN 112530019 A CN112530019 A CN 112530019A
Authority
CN
China
Prior art keywords
model
parameters
facial
dimensional
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011446853.XA
Other languages
English (en)
Other versions
CN112530019B (zh
Inventor
刘宝玉
王磊
马晓亮
林佩珍
程俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN202011446853.XA priority Critical patent/CN112530019B/zh
Publication of CN112530019A publication Critical patent/CN112530019A/zh
Application granted granted Critical
Publication of CN112530019B publication Critical patent/CN112530019B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/20Finite element generation, e.g. wire-frame surface description, tesselation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Geometry (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Software Systems (AREA)
  • Computer Graphics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本申请适用于计算机视觉技术领域,尤其涉及三维人体重建方法、装置、计算机设备和存储介质,三维人体重建方法包括:获取目标物的人体图像;提取人体图像中的面部图像和身体图像;利用面部图像并根据面部参数预测模型得到面部参数;基于身体图像并利用身体参数预测模型得到身体参数;将人体图像输入性别分类器模型,得到性别参数;根据面部参数、身体参数和性别参数,通过SMPL‑X模型得到目标物的人体三维模型。本申请相对现有的人体预测模型可以解决基于三维人体模型中忽略面部重建的问题。

Description

三维人体重建方法、装置、计算机设备和存储介质
技术领域
本申请属于计算机视觉技术领域,尤其涉及一种三维人体重建方法、装置、计算机设备和存储介质。
背景技术
三维人体重建是通过图像或视频读懂人们姿态、交流线索和互动含义的重要技术手段。目前,基于人体图像的三维人体重建中,由于面部与手部在人体图像中占比较小,且容易模糊与遮挡,因此现有三维人体重建常常忽略了面部重建,且已有的面部重建方法不适合加入到身体模型上,因此现有三维人体重建通常形成无面部表情的三维人体模型。
发明内容
本申请实施例提供了三维人体重建方法、装置、计算机设备和存储介质,以解决基于三维人体模型中忽略面部重建的问题。
为实现上述目的,本申请采用的一种技术方案是:提供一种三维人体重建方法,包括:
获取目标物的人体图像;
提取所述人体图像中的面部图像和身体图像;
利用所述面部图像并根据面部参数预测模型得到面部参数;
基于所述身体图像并利用身体参数预测模型得到身体参数;
将所述人体图像输入性别分类器模型,得到性别参数;
根据所述面部参数、所述身体参数和所述性别参数,通过SMPL-X模型得到所述目标物的人体三维模型。
可选地,所述方法还包括:
提取所述人体图像中的手部图像;
基于所述手部图像并利用手部参数预测模型得到手部参数;
所述根据所述面部参数、所述身体参数和所述性别参数,通过SMPL-X模型得到所述目标物的人体三维模型,包括:根据所述面部参数、所述手部参数、所述身体参数和所述性别参数,通过SMPL-X模型得到所述目标物的人体三维模型。
可选地,所述提取所述人体图像中的面部图像步骤包括:
通过人脸数据集获得面部边框标签;
根据所述面部边框标签检测所述人体图像的面部边框;
利用所述面部边框对所述人体图像进行切割,得到所述面部图像。
可选地,在所述利用所述面部图像并根据面部参数预测模型得到面部参数步骤之前,所述方法还包括:
获取人脸数据集中各图像的人脸关键点位置数据;
根据预设置信度对多组所述人脸关键点位置数据进行筛选,得到合格关键点位置数据;
将所述合格关键点位置数据及其对应人脸图像输入到第一预设神经网络模型进行训练,得到所述面部参数预测模型。
可选地,在所述将所述人体图像输入性别分类器模型,得到性别参数步骤之前,所述方法还包括:
对人脸数据集中各人脸图像进行性别标签标记和获取人脸关键点位置数据;
将所述人脸关键点位置数据和对应的性别标签输入到第二预设神经网络模型进行训练,得到所述性别分类器模型。
可选地,所述根据所述面部参数、所述身体参数和所述性别参数,通过SMPL-X模型得到所述目标物的人体三维模型步骤包括:
将所述面部参数输入所述SMPL-X模型包括的面部模型,得到面部三维模型;
将所述身体参数输入所述SMPL-X模型包括的身体模型,得到身体三维模型;
对所述面部三维模型和所述身体三维模型进行整合构建出所述人体三维模型。
可选地,所述根据所述面部参数、所述手部参数、所述身体参数和所述性别参数,通过SMPL-X模型得到所述目标物的人体三维模型步骤包括:
将所述面部参数输入所述SMPL-X模型包括的面部模型,得到面部三维模型;
将所述手部参数输入所述SMPL-X模型包括的手部模型,得到手部三维模型;
将所述身体参数输入所述SMPL-X模型包括的身体模型,得到身体三维模型;
对所述面部三维模型、所述手部三维模型和所述身体三维模型进行整合构建出所述人体三维模型。
可选地,所述将所述面部参数输入所述SMPL-X模型包括的面部模型,得到面部三维模型步骤包括:
将所述面部参数输入至所述面部模型,获取面部三维网格顶点坐标得到面部三维模型;所述面部参数包括面部形状、面部表情、面部姿态和面部图像相机参数。
可选地,所述将所述手部参数输入所述SMPL-X模型包括的手部模型,得到手部三维模型步骤包括:
将左手和右手各自对应的所述手部参数分别输入至所述手部模型,获取左手和右手各自的手部三维网格顶点坐标得到手部三维模型;所述手部参数包括手部关节参数、手部形状参数和手部图像相机参数;
可选地,所述将所述身体参数输入所述SMPL-X模型包括的身体模型,得到身体三维模型步骤包括:
将所述身体参数输入至所述身体模型,获取身体三维网格顶点坐标得到身体三维模型;所述身体参数包括身体关节参数、身体形状参数和身体图像相机参数。
可选地,所述将所述人体图像输入性别分类器模型,得到性别参数步骤包括:
所述性别分类器模型输出所述性别参数和所述目标物为所述性别参数的性别概率;所述性别参数为男性参数或女性参数。
本申请还提供一种三维人体重建装置,包括:
获取模块,用于获取目标物的人体图像;
提取模块,用于提取所述人体图像中的面部图像和身体图像;
面部预测模块,用于基于所述面部图像,利用面部参数预测模型得到面部参数;
身体预测模块,用于基于所述身体图像,利用身体参数预测模型得到身体参数;
性别检测模块,用于将所述人体图像输入性别分类器模型,得到性别参数;
模型处理模块,用于根据所述面部参数、所述身体参数和所述性别参数,通过SMPL-X模型得到所述目标物的人体三维模型。
可选地,所述提取模块还用于提取所述人体图像中的手部图像;
所述装置还包括:手部预测模块,用于基于所述手部图像,利用手部参数预测模型得到手部参数;
所述模型处理模块用于根据所述面部参数、所述手部参数、所述身体参数和所述性别参数,通过SMPL-X模型得到所述目标物的人体三维模型。
本申请还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
获取目标物的人体图像;
提取所述人体图像中的面部图像和身体图像;
利用所述面部图像并根据面部参数预测模型得到面部参数;
基于所述身体图像并利用身体参数预测模型得到身体参数;
将所述人体图像输入性别分类器模型,得到性别参数;
根据所述面部参数、所述身体参数和所述性别参数,通过SMPL-X模型得到所述目标物的人体三维模型。
本申请还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
获取目标物的人体图像;
提取所述人体图像中的面部图像和身体图像;
利用所述面部图像并根据面部参数预测模型得到面部参数;
基于所述身体图像并利用身体参数预测模型得到身体参数;
将所述人体图像输入性别分类器模型,得到性别参数;
根据所述面部参数、所述身体参数和所述性别参数,通过SMPL-X模型得到所述目标物的人体三维模型。
本申请提供的三维人体重建方法的有益效果在于:本申请采用SMPL-X人体预测模型的结构针对面部参数、手部参数、身体参数和性别参数进行最后的整合,将目标物的人体图像中各个部分输入各自对应的参数预测模型,实现通过人体图像形成具有完整面部重建的三维人体模型。本申请相对现有人体预测模型使用基于优化的方法简单且耗时短。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提供的三维人体重建方法的流程示意图;
图2-(a)、图2-(b)、图2-(c)、图2-(d)是本申请中人体图像的示例示意图;
图3是本申请一实施例提供的面部参数预测模型的形成过程示意图;
图4为面部关键点的示意图;
图5是一种SMPL-X人体预测模型结构的示意图;
图6是采用SMPL-X人体预测模型、不具有性别参数的人体预测模型和具有性别参数的SMPL-X人体预测模型的预测结果对比图;
图7是本申请一实施例提供的一种三维人体重建装置的结构框图。
图8是本申请一实施例中计算机设备的内部结构图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
本申请首先获取待进行三维人体重建的目标物的人体图像,之后基于获得的人体图像进行面部图像和身体图像的提取,并分别基于所述面部图像和身体图像相应根据面部参数预测模型和身体参数预测模型得到面部参数和身体参数,以及利用人体图像和性别分类器模型获得性别参数,最后根据得到的面部参数、身体参数和性别参数,采用SMPL-X模型得到所述目标物的人体三维模型。本申请得到的人体三维模型充分考虑了面部重建,更有利于通过本申请的人体三维模型获知人物姿态、交流线索和互动含义。
如图1所示,本申请一实施例提供的一种三维人体重建方法,可以包括:
步骤1、获取目标物的人体图像。
其中,获取目标物的人体图像,其中人体图像可以包括面部、双手和身体。人体图像可以采用RGB图像。示例性地,图2-(a)、图2-(b)、图2-(c)和图2-(d)分别给出了本申请人体图像采用RGB图像的示例图像。
步骤2、提取人体图像中的面部图像和身体图像。
获取人体图像中的面部图像的方法,可以采用包括但不限于CenterFace(实用的边缘设备无锚人脸检测)、MTCNN(Multi-task convolutional neural network,基于多任务级联卷积网络的联合人脸检测与对准)、FaceBoxes(高精度的CPU实时人脸检测器)和RetinaFace(野外单阶段密集脸定位)。
示例性地,下面以CenterFace方法为例介绍如何获取人体图像中面部图像的过程:
步骤21,通过人脸数据集获得面部边框标签。人脸数据集使用vggface2数据集,该数据集包括人脸图片、相应的面部边框标签以及性别标签。
步骤22,根据面部边框标签检测人体图像的面部边框。示例性地,其中,面部边框的尺寸可以为224x224。
步骤23,利用面部边框对人体图像进行切割,得到面部图像。
提取身体图像的方法可以采用Real-time 2D Multi-Person Pose Estimationon CPU:Lightweight OpenPose(基于CPU的实时二维多人姿态估计:轻量级OpenPose),Daniil Osokin.Real-time 2D Multi-Person Pose Estimation on CPU:LightweightOpenPose.In arXiv preprint arXiv:1811.12004,2018,在此不做限定。
获取人体图像中的身体图像的方法,可以采用包括但不限于Real-time 2DMulti-Person Pose Estimation on CPU:Lightweight OpenPose(基于CPU的实时二维多人姿态估计:轻量级OpenPose),Daniil Osokin.Real-time 2D Multi-Person PoseEstimation on CPU:LightweightOpenPose.In arXiv preprint arXiv:1811.12004,2018,在此不做限定。
步骤3、利用面部图像并根据面部参数预测模型得到面部参数。
其中,如图3所示,面部参数预测模型的形成过程可以如下:
步骤31、获取人脸数据集中各图像的人脸关键点位置数据。
其中,获取人脸数据集中各图像的人脸关键点位置数据的方法可以采用OpenPose。OpenPose也可以称为人体姿态识别项目,是美国卡耐基梅隆大学(CMU)基于卷积神经网络和监督学习并以caffe为框架开发的开源库,可以实现人体动作、面部表情、手指运动等姿态估计。
人脸数据集可以采用VGGFace2,VGGFace2是一个大规模人脸识别数据集,包含331万图片,9131个ID,平均图片个数为362.6。VGGFace2具有人物ID较多,且每个ID包含的图片个数也较多,覆盖大范围的姿态、年龄和种族的特点。
人脸关键点位置数据可以包括各关键点的x、y坐标和置信度,且置信度小于1。如图4所示,人脸关键点位置数据可以根据需要选取,例如可以选取68个,也可以选取可以较好表现面部表情的人脸关键点位置数据数量。
步骤32、根据预设置信度对多组人脸关键点位置数据进行筛选,得到合格关键点位置数据。
其中,预设置信度可以根据实际需要而设定,多组人脸关键点数据中置信度高于预设置信度的人脸关键点数据为合格关键点位置数据,例如,预设置信度可以为0.4,则相当于选取置信度在0.4-1之间的数据作为合格关键点位置数据。
步骤33、将合格关键点位置数据及其对应人脸图像输入到第一预设神经网络模型进行训练,得到面部参数预测模型。
其中,面部参数预测模型Wf包括编码器与解码器,其中编码器为第一预设神经网络模型,其使用ResNet50,即特征提取预训练的网络ResNet50从二维图片上提取2048维的特征。解码器由一组全连接层组成,从特征中回归出头部参数,包括面部的面部形状参数βf、面部姿态参数θf、面部表情参数
Figure BDA0002831308330000091
和面部图像相机参数cf
ResNet是Residual Network,残差网络的缩写,广泛用于目标分类等领域以及作为计算机视觉任务主干经典神经网络的一部分。ResNet50是指包含了50个二维卷积的ResNet,其对合格关键点位置数据做了卷积操作,之后包含4个残差块(ResidualBlock),最后进行全连接操作以便于进行分类任务。神经网络模型在训练过程中均有损失项,加入损失项后经过训练得到训练完成的神经网络模型。第一预设神经网络模型训练过程中的损失项Ltotal可以表示为:
Figure BDA0002831308330000101
其中,λproj是Lproj损失项权重,Lproj是关键点损失,
Figure BDA0002831308330000102
Figure BDA0002831308330000103
是从预测三维模型投影到二维坐标,K2D是面部关键点的二维标记坐标,λproj是Lproj损失项权重。
Figure BDA0002831308330000104
是面部形状损失项权重,
Figure BDA0002831308330000105
是面部形状损失,
Figure BDA0002831308330000106
是面部表情损失项权重,
Figure BDA0002831308330000107
是面部表情损失。
步骤4、基于身体图像并利用身体参数预测模型得到身体参数;
其中,身体参数预测模型可以采用包括但不限于Learning to Reconstruct 3DHuman Pose and Shape via Model-fitting in the Loop(在回路中通过模型拟合学习重建三维人体姿态和形状),详见Nikos Kolotouros,Georgios Pavlakos,Michael J Black,and Kostas Daniilidis.Learning to reconstruct 3d human pose and shape viamodel-fitting in the loop.In ICCV,2019。
步骤5、将人体图像输入性别分类器模型,得到性别参数。示例性地,步骤5可以包括:性别分类器模型输出性别参数和目标物为性别参数的性别概率;性别参数为男性参数或女性参数。通过性别分类器模型输出的性别概率若低于预先设定的阈值,则直接将性别参数确定为中性参数。其中,性别分类器模型可以采用SMPL-X中Smplify-X训练的一个分类器,具体地,在将人体图像输入性别分类器模型,得到性别参数步骤之前即步骤5之前还包括性别分类器模型的形成过程:
步骤51、对人脸数据集中各人脸图像进行性别标签标记和获取人脸关键点位置数据。
其中,人脸数据集采用若干包含人脸的人体RGB图像,可以通过OpenPose获取人脸关键点位置数据。
步骤52、将人脸关键点位置数据和对应的性别标签输入到第二预设神经网络模型进行训练,得到性别分类器模型。
其中,第二预设神经网络模型可以采用Resnet18。
步骤6、根据面部参数、身体参数和性别参数,通过SMPL-X模型得到目标物的人体三维模型。
在一个实施例中,步骤2还可以为:提取人体图像中的面部图像、手部图像和身体图像,即除了提取面部图像和身体图像外,还可以对人体图像中的手部图像进行提取。本实施例提供的三维人体重建方法可以包括基于手部图像并利用手部参数预测模型得到手部参数,相应地,在此基础上,步骤6还可以为根据面部参数、手部参数、身体参数和性别参数,通过SMPL-X模型得到目标物的人体三维模型。即本实施例重建后的人体三维模型除了包括面部三维模型和身体三维模型外,还可以包括手部三维模型,当然重建后的人体三维模型可以只包括面部三维模型和身体三维模型。
其中,提取手部图像的方法可以采用包括但不限于Understanding Human Handsin Contact at Internet Scale(在互联网尺度上理解人类的双手接触),详见Shan,D.,Geng,J.,Shu,M.,and Fouhey,D.F.Understanding Human Hands in Contact atInternet Scale..In arXiv preprint arXiv:2006.06669,2020。
手部参数预测模型可以采用包括但不限于FrankMocap(基于回归和积分的快速单目三维手和身体运动捕捉)。
本申请中的SMPL-X人体预测模型不同于SMPL模型仅仅专注于身体运动部分,还包括了手部运动,例如手指的弯曲张开,以及面部表情。如图5示出了根据人体图像得到人体三维模型所需的各模型。
SMPL-X人体预测模型的函数可表述为:
Figure BDA0002831308330000111
其中,β是形状参数,用于描述人体模型的形状,包括一个10维的线性形状参数。形状参数是低维形状空间的系数,是从成千上万个已注册扫描的训练集中进行获得。
θ是动作参数,用于描述人体模型关节的旋转,包括人体身体21个关节、手部30个关节和面部3个关节,共54个关节的关节角信息。人体姿势空间参数可以在不同姿势下的1786种路线上得到训练,手部姿势参数可以从1500个手部扫描中学习,动作参数θ可以分解成身体动作参数θb,手部动作参数θh,面部动作参数θf,即θ=(θb,θh,θf)。
Figure BDA0002831308330000121
是表情参数,用于描述面部表情,从3800个高分辨率头部扫描中学到。
TP是平均模板,用于描述根据β、θ、
Figure BDA0002831308330000122
的变化从模板模型上所需作出的变形,其中模板模型是SMPL-X模型。
J是三维关节位置。
现分别介绍人体各部分模型的形成过程,示例性地:
步骤61、将面部参数输入SMPL-X模型包括的面部模型,得到面部三维模型。
在一个实施例中,步骤61具体可以包括以下步骤:
将面部形状、面部姿态、面部表情和面部图像相机参数输入至面部模型,并获取面部三维网格顶点坐标即面部三维模型。面部参数包括面部形状、面部表情、面部姿态和面部图像相机参数。
其中,面部参数预测模型Wf采用SMPL-X模型中面部模型。面部参数预测模型使用端到端的神经网络结构以回归出头部参数,可表述为:
Figure BDA0002831308330000123
其中,If是使用CenterFace方法进行剪裁后得到的具有头部区域的图像,βf是面部形状,θf是面部姿态,用旋转角表示,
Figure BDA0002831308330000125
是面部表情,与函数(1)中
Figure BDA0002831308330000124
相同,cf是面部图像相机参数。
通过回归器获取的参数输入到面部模型中,得到面部三维网格顶点坐标,即三维面部模型。
步骤62、将手部参数输入SMPL-X模型包括的手部模型,得到手部三维模型。
在一个实施例中,步骤62可以具体包括以下步骤:
将左手和右手各自对应的手部关节参数、手部形状参数和手部图像相机参数分别输入至手部模型,并获取左手和右手各自的手部三维网格顶点坐标即手部三维模型。手部参数包括手部关节参数、手部形状参数和手部图像相机参数。
其中,在手部参数预测模型Wh中,先由手部边框检测器检测出左手与右手的二维图像,作为手部参数预测模型的输入,预测出手部关节参数与手部形状参数,可表述为:
h,θh,ch]=Wh(Ih) (3)
Ih为手部的二维图像,βh是手部形状参数,取值与函数(1)中β相同。θh是手部的15个关节参数,取值与函数(1)中θ相同。ch为手部图像相机参数,取值为实数。
步骤63、将身体参数输入SMPL-X模型包括的身体模型,得到身体三维模型。
在一个实施例中,步骤63可以包括:
将身体关节参数、身体形状参数和身体图像相机参数输入至身体模型,并获取身体三维网格顶点坐标即身体三维模型。身体参数包括身体关节参数、身体形状参数和身体图像相机参数。其中,在身体参数预测模型Wb中,忽略面部与手部的关节、面部表情,采用基于神经网络的模型预测身体的21个关节参数与形状参数,可表述为:
b,θb,cb]=Wb(I) (4)
其中,输入I是人物二维图像,即包含人体的RGB图像,输出βb,θb,cb
βb是身体形状参数,10维向量,取值与函数(1)中β相同,θb是身体的21个关节旋转角,取值与函数(1)中θ相同。cb为身体的相机参数,取值为实数。
SMPL-X人体预测模型是在SMPL人体预测模型的基础上增加了手部和面部的扩展模型。本申请采用SMPL-X人体预测模型的结构针对面部参数、手部参数、身体参数和性别参数进行整合,将目标物的人体图像中的各个部分输入各自对应的参数预测模型,实现通过人体图像形成具有面部重建的三维人体模型。相对现有人体预测模型使用基于优化的方法简单且耗时短。
如图6所示,第一列图像为人体图像,第二列图像为采用现有人体预测模型处理后的人体三维图像,第三列图像为不具有性别且具有面部表情的人体三维图像,第四列图像为具有性别且具有面部表情的人体三维图像,通过图6中的图像可知,具有性别且具有面部表情的人体三维图像更加精准。
参考图7所示,本申请一实施例提供了一种三维人体重建装置,可以包括获取模块21、提取模块22、面部预测模块23、身体预测模块25、性别检测模块26和模型处理模块27。获取模块21可以用于获取目标物的人体图像。提取模块22可以用于提取人体图像中的面部图像和身体图像。面部预测模块23可以用于基于面部图像,利用面部参数预测模型得到面部参数。身体预测模块25可以用于基于身体图像,利用身体参数预测模型得到身体参数。性别检测模块26可以用于将人体图像输入性别分类器模型,得到性别参数。模型处理模块27可以用于根据面部参数、身体参数和性别参数,通过SMPL-X模型,得到目标物的人体三维模型。
在一个实施例中,参考图7所示,提取模块22还可以用于提取人体图像中的手部图像。三维人体重建装置还可以包括手部预测模块24,手部预测模块24可以用于基于手部图像,利用手部参数预测模型得到手部参数。模型处理模块27可以用于根据面部参数、手部参数、身体参数和性别参数,通过SMPL-X模型,得到目标物的人体三维模型。
在一个实施例中,面部预测模块23可以包括获取单元、筛选单元和处理单元。获取单元用于获取人脸数据集中各图像的人脸关键点位置数据。筛选单元用于根据预设置信度对多组人脸关键点位置数据进行筛选,得到合格关键点位置数据。筛选单元用于将合格关键点位置数据输入到第一预设神经网络模型进行训练,得到面部参数预测模型。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再详述。
本申请还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如任一实施例中三维人体重建方法的步骤。
图8示出了一个实施例中计算机设备的内部结构图。如图8所示,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现三维人体重建方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行三维人体重建方法。本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现上述各实施例中三维人体重建的方法步骤。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/网络设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/网络设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均包含在本申请的保护范围之内。

Claims (15)

1.一种三维人体重建方法,其特征在于,所述方法包括:
获取目标物的人体图像;
提取所述人体图像中的面部图像和身体图像;
利用所述面部图像并根据面部参数预测模型得到面部参数;
基于所述身体图像并利用身体参数预测模型得到身体参数;
将所述人体图像输入性别分类器模型,得到性别参数;
根据所述面部参数、所述身体参数和所述性别参数,通过SMPL-X模型得到所述目标物的人体三维模型。
2.根据权利要求1所述的三维人体重建方法,其特征在于,
所述方法还包括:
提取所述人体图像中的手部图像;
基于所述手部图像并利用手部参数预测模型得到手部参数;
所述根据所述面部参数、所述身体参数和所述性别参数,通过SMPL-X模型得到所述目标物的人体三维模型,包括:根据所述面部参数、所述手部参数、所述身体参数和所述性别参数,通过SMPL-X模型得到所述目标物的人体三维模型。
3.根据权利要求1所述的三维人体重建方法,其特征在于,所述提取所述人体图像中的面部图像步骤包括:
通过人脸数据集获得面部边框标签;
根据所述面部边框标签检测所述人体图像的面部边框;
利用所述面部边框对所述人体图像进行切割,得到所述面部图像。
4.根据权利要求1至3任一项所述的三维人体重建方法,其特征在于,在所述利用所述面部图像并根据面部参数预测模型得到面部参数步骤之前,所述方法还包括:
获取人脸数据集中各图像的人脸关键点位置数据;
根据预设置信度对多组所述人脸关键点位置数据进行筛选,得到合格关键点位置数据;
将所述合格关键点位置数据及其对应人脸图像输入到第一预设神经网络模型进行训练,得到所述面部参数预测模型。
5.根据权利要求1至3任一项所述的三维人体重建方法,其特征在于,在所述将所述人体图像输入性别分类器模型,得到性别参数步骤之前,所述方法还包括:
对人脸数据集中各人脸图像进行性别标签标记和获取人脸关键点位置数据;
将所述人脸关键点位置数据和对应的性别标签输入到第二预设神经网络模型进行训练,得到所述性别分类器模型。
6.根据权利要求1所述的三维人体重建方法,其特征在于,所述根据所述面部参数、所述身体参数和所述性别参数,通过SMPL-X模型得到所述目标物的人体三维模型步骤包括:
将所述面部参数输入所述SMPL-X模型包括的面部模型,得到面部三维模型;
将所述身体参数输入所述SMPL-X模型包括的身体模型,得到身体三维模型;
对所述面部三维模型和所述身体三维模型进行整合构建出所述人体三维模型。
7.根据权利要求2所述的三维人体重建方法,其特征在于,所述根据所述面部参数、所述手部参数、所述身体参数和所述性别参数,通过SMPL-X模型得到所述目标物的人体三维模型步骤包括:
将所述面部参数输入所述SMPL-X模型包括的面部模型,得到面部三维模型;
将所述手部参数输入所述SMPL-X模型包括的手部模型,得到手部三维模型;
将所述身体参数输入所述SMPL-X模型包括的身体模型,得到身体三维模型;
对所述面部三维模型、所述手部三维模型和所述身体三维模型进行整合构建出所述人体三维模型。
8.根据权利要求6或7所述的三维人体重建方法,其特征在于,所述将所述面部参数输入所述SMPL-X模型包括的面部模型,得到面部三维模型步骤包括:
将所述面部参数输入至所述面部模型,获取面部三维网格顶点坐标得到面部三维模型;所述面部参数包括面部形状、面部表情、面部姿态和面部图像相机参数。
9.根据权利要求7所述的三维人体重建方法,其特征在于,所述将所述手部参数输入所述SMPL-X模型包括的手部模型,得到手部三维模型步骤包括:
将左手和右手各自对应的所述手部参数分别输入至所述手部模型,获取左手和右手各自的手部三维网格顶点坐标得到手部三维模型;所述手部参数包括手部关节参数、手部形状参数和手部图像相机参数;
10.根据权利要求6或7所述的三维人体重建方法,其特征在于,所述将所述身体参数输入所述SMPL-X模型包括的身体模型,得到身体三维模型步骤包括:
将所述身体参数输入至所述身体模型,获取身体三维网格顶点坐标得到身体三维模型;所述身体参数包括身体关节参数、身体形状参数和身体图像相机参数。
11.根据权利要求1或3所述的三维人体重建方法,其特征在于,所述将所述人体图像输入性别分类器模型,得到性别参数步骤包括:
所述性别分类器模型输出所述性别参数和所述目标物为所述性别参数的性别概率;所述性别参数为男性参数或女性参数。
12.一种三维人体重建装置,其特征在于,所述装置包括:
获取模块,用于获取目标物的人体图像;
提取模块,用于提取所述人体图像中的面部图像和身体图像;
面部预测模块,用于基于所述面部图像,利用面部参数预测模型得到面部参数;
身体预测模块,用于基于所述身体图像,利用身体参数预测模型得到身体参数;
性别检测模块,用于将所述人体图像输入性别分类器模型,得到性别参数;
模型处理模块,用于根据所述面部参数、所述身体参数和所述性别参数,通过SMPL-X模型得到所述目标物的人体三维模型。
13.根据权利要求12所述的三维人体重建装置,其特征在于,
所述提取模块还用于提取所述人体图像中的手部图像;
所述装置还包括:手部预测模块,用于基于所述手部图像,利用手部参数预测模型得到手部参数;
所述模型处理模块用于根据所述面部参数、所述手部参数、所述身体参数和所述性别参数,通过SMPL-X模型得到所述目标物的人体三维模型。
14.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至11中任一项所述三维人体重建方法的步骤。
15.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至11中任一项所述三维人体重建方法的步骤。
CN202011446853.XA 2020-12-11 2020-12-11 三维人体重建方法、装置、计算机设备和存储介质 Active CN112530019B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011446853.XA CN112530019B (zh) 2020-12-11 2020-12-11 三维人体重建方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011446853.XA CN112530019B (zh) 2020-12-11 2020-12-11 三维人体重建方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN112530019A true CN112530019A (zh) 2021-03-19
CN112530019B CN112530019B (zh) 2023-03-14

Family

ID=75000438

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011446853.XA Active CN112530019B (zh) 2020-12-11 2020-12-11 三维人体重建方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN112530019B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113096249A (zh) * 2021-03-30 2021-07-09 Oppo广东移动通信有限公司 训练顶点重建模型的方法、图像重建方法及电子设备
CN113658303A (zh) * 2021-06-29 2021-11-16 清华大学 一种基于单目视觉的虚拟人生成方法、装置
CN113689541A (zh) * 2021-07-23 2021-11-23 电子科技大学 一种交互场景下两人三维人体形状优化重建方法
CN113780120A (zh) * 2021-08-27 2021-12-10 深圳云天励飞技术股份有限公司 生成人体三维模型的方法、装置、服务器和存储介质
CN114299581A (zh) * 2021-12-29 2022-04-08 北京奥鹏远程教育中心有限公司 一种人体动作展示的方法、装置、设备及可读存储介质
CN114332914A (zh) * 2021-11-29 2022-04-12 中国电子科技集团公司电子科学研究院 人员特征识别方法、装置和计算机可读存储介质
CN115457644A (zh) * 2022-11-10 2022-12-09 成都智元汇信息技术股份有限公司 一种基于扩展空间映射获得目标的识图方法及装置
CN115830642A (zh) * 2023-02-13 2023-03-21 粤港澳大湾区数字经济研究院(福田) 2d全身人体关键点标注方法及3d人体网格标注方法
CN116714251A (zh) * 2023-05-16 2023-09-08 北京盈锋科技有限公司 一种人物三维立体打印系统、方法、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4517792A (en) * 1982-05-07 1985-05-21 Deere & Company Grain loss monitor sensor mounting arrangement for a combine
WO2013101562A2 (en) * 2011-12-18 2013-07-04 Metritrack, Llc Three dimensional mapping display system for diagnostic ultrasound machines
CN109325908A (zh) * 2018-10-30 2019-02-12 北京市商汤科技开发有限公司 图像处理方法及装置、电子设备和存储介质
GB201902067D0 (en) * 2019-02-14 2019-04-03 Facesoft Ltd 3D Face reconstruction system and method
US20200302180A1 (en) * 2018-03-13 2020-09-24 Tencent Technology (Shenzhen) Company Limited Image recognition method and apparatus, terminal, and storage medium
WO2020234339A1 (en) * 2019-05-23 2020-11-26 Koninklijke Philips N.V. Estimating a surface area and/or volume of a body or a body part of a subject
CN112036288A (zh) * 2020-08-27 2020-12-04 华中师范大学 基于跨连接多特征融合卷积神经网络的面部表情识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4517792A (en) * 1982-05-07 1985-05-21 Deere & Company Grain loss monitor sensor mounting arrangement for a combine
WO2013101562A2 (en) * 2011-12-18 2013-07-04 Metritrack, Llc Three dimensional mapping display system for diagnostic ultrasound machines
US20200302180A1 (en) * 2018-03-13 2020-09-24 Tencent Technology (Shenzhen) Company Limited Image recognition method and apparatus, terminal, and storage medium
CN109325908A (zh) * 2018-10-30 2019-02-12 北京市商汤科技开发有限公司 图像处理方法及装置、电子设备和存储介质
GB201902067D0 (en) * 2019-02-14 2019-04-03 Facesoft Ltd 3D Face reconstruction system and method
WO2020234339A1 (en) * 2019-05-23 2020-11-26 Koninklijke Philips N.V. Estimating a surface area and/or volume of a body or a body part of a subject
CN112036288A (zh) * 2020-08-27 2020-12-04 华中师范大学 基于跨连接多特征融合卷积神经网络的面部表情识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
GEORGIOS PAVLAKOS 等: "Expressive Body Capture: 3D Hands, Face, and Body From a Single Image", 《2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》, 15 June 2019 (2019-06-15), pages 10967 - 10977, XP033686409, DOI: 10.1109/CVPR.2019.01123 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113096249A (zh) * 2021-03-30 2021-07-09 Oppo广东移动通信有限公司 训练顶点重建模型的方法、图像重建方法及电子设备
CN113096249B (zh) * 2021-03-30 2023-02-17 Oppo广东移动通信有限公司 训练顶点重建模型的方法、图像重建方法及电子设备
CN113658303A (zh) * 2021-06-29 2021-11-16 清华大学 一种基于单目视觉的虚拟人生成方法、装置
CN113689541B (zh) * 2021-07-23 2023-03-07 电子科技大学 一种交互场景下两人三维人体形状优化重建方法
CN113689541A (zh) * 2021-07-23 2021-11-23 电子科技大学 一种交互场景下两人三维人体形状优化重建方法
CN113780120A (zh) * 2021-08-27 2021-12-10 深圳云天励飞技术股份有限公司 生成人体三维模型的方法、装置、服务器和存储介质
CN114332914A (zh) * 2021-11-29 2022-04-12 中国电子科技集团公司电子科学研究院 人员特征识别方法、装置和计算机可读存储介质
CN114299581A (zh) * 2021-12-29 2022-04-08 北京奥鹏远程教育中心有限公司 一种人体动作展示的方法、装置、设备及可读存储介质
CN115457644A (zh) * 2022-11-10 2022-12-09 成都智元汇信息技术股份有限公司 一种基于扩展空间映射获得目标的识图方法及装置
CN115830642A (zh) * 2023-02-13 2023-03-21 粤港澳大湾区数字经济研究院(福田) 2d全身人体关键点标注方法及3d人体网格标注方法
CN115830642B (zh) * 2023-02-13 2024-01-12 粤港澳大湾区数字经济研究院(福田) 2d全身人体关键点标注方法及3d人体网格标注方法
CN116714251A (zh) * 2023-05-16 2023-09-08 北京盈锋科技有限公司 一种人物三维立体打印系统、方法、电子设备及存储介质
CN116714251B (zh) * 2023-05-16 2024-05-31 北京盈锋科技有限公司 一种人物三维立体打印系统、方法、电子设备及存储介质

Also Published As

Publication number Publication date
CN112530019B (zh) 2023-03-14

Similar Documents

Publication Publication Date Title
CN112530019B (zh) 三维人体重建方法、装置、计算机设备和存储介质
Wang et al. Deep 3D human pose estimation: A review
Anwar et al. Image colorization: A survey and dataset
Wang et al. Hmor: Hierarchical multi-person ordinal relations for monocular multi-person 3d pose estimation
Sharp et al. Accurate, robust, and flexible real-time hand tracking
Aggarwal et al. Human activity recognition from 3d data: A review
Dockstader et al. Multiple camera tracking of interacting and occluded human motion
CN110555481A (zh) 一种人像风格识别方法、装置和计算机可读存储介质
Chen et al. End-to-end learning of object motion estimation from retinal events for event-based object tracking
WO2022120843A1 (zh) 三维人体重建方法、装置、计算机设备和存储介质
Tu et al. Consistent 3d hand reconstruction in video via self-supervised learning
Lee et al. 3-D human behavior understanding using generalized TS-LSTM networks
CN113569598A (zh) 图像处理方法和图像处理装置
Zhao et al. Human parsing based texture transfer from single image to 3D human via cross-view consistency
CN114339409A (zh) 视频处理方法、装置、计算机设备及存储介质
Zhou et al. Hemlets posh: Learning part-centric heatmap triplets for 3d human pose and shape estimation
Núñez et al. Multiview 3D human pose estimation using improved least-squares and LSTM networks
Huang et al. A review of 3D human body pose estimation and mesh recovery
Zhou et al. A study on attention-based LSTM for abnormal behavior recognition with variable pooling
Zhang et al. Deep learning-based real-time 3D human pose estimation
CN106778576B (zh) 一种基于sehm特征图序列的动作识别方法
Chen et al. SkeletonPose: Exploiting human skeleton constraint for 3D human pose estimation
Tur et al. Isolated sign recognition with a siamese neural network of RGB and depth streams
Ma et al. VommaNet: An End-to-End network for disparity estimation from reflective and texture-less light field images
Das et al. A fusion of appearance based CNNs and temporal evolution of skeleton with LSTM for daily living action recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant