CN117132713A - 模型训练方法、数字人驱动方法及相关装置 - Google Patents
模型训练方法、数字人驱动方法及相关装置 Download PDFInfo
- Publication number
- CN117132713A CN117132713A CN202311155402.4A CN202311155402A CN117132713A CN 117132713 A CN117132713 A CN 117132713A CN 202311155402 A CN202311155402 A CN 202311155402A CN 117132713 A CN117132713 A CN 117132713A
- Authority
- CN
- China
- Prior art keywords
- target
- topology
- base
- digital person
- shape
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 107
- 238000012549 training Methods 0.000 title claims abstract description 41
- 241000282414 Homo sapiens Species 0.000 claims abstract description 61
- 230000008921 facial expression Effects 0.000 claims abstract description 56
- 239000000758 substrate Substances 0.000 claims abstract description 56
- 230000005012 migration Effects 0.000 claims description 79
- 238000013508 migration Methods 0.000 claims description 79
- 230000014509 gene expression Effects 0.000 claims description 68
- 239000011159 matrix material Substances 0.000 claims description 66
- 239000013598 vector Substances 0.000 claims description 24
- 230000008569 process Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 12
- 238000009877 rendering Methods 0.000 claims description 10
- 239000013604 expression vector Substances 0.000 claims description 7
- 230000000007 visual effect Effects 0.000 claims description 7
- 238000013179 statistical model Methods 0.000 claims description 6
- 238000013473 artificial intelligence Methods 0.000 abstract description 5
- 230000003190 augmentative effect Effects 0.000 abstract description 2
- 238000013135 deep learning Methods 0.000 abstract description 2
- 210000000887 face Anatomy 0.000 description 13
- 230000006870 function Effects 0.000 description 11
- 238000003062 neural network model Methods 0.000 description 11
- 230000009286 beneficial effect Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 210000002105 tongue Anatomy 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 210000005252 bulbus oculi Anatomy 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 210000005069 ears Anatomy 0.000 description 2
- 230000008909 emotion recognition Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 210000000214 mouth Anatomy 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 210000000697 sensory organ Anatomy 0.000 description 2
- 210000000515 tooth Anatomy 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 238000004873 anchoring Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 210000001508 eye Anatomy 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 210000001202 rhombencephalon Anatomy 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/04—Texture mapping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Software Systems (AREA)
- Processing Or Creating Images (AREA)
Abstract
本公开提供了模型训练方法、数字人驱动方法及相关装置,涉及人工智能技术领域,尤其涉及计算机视觉、增强现实、虚拟现实、深度学习等技术领域。具体实现方案为:将样本图像输入三维人脸重建模型,以得到三维人脸重建系数;基于三维人脸重建系数和目标基底,重建目标对象在目标数字人拓扑下的三维人脸模型;获取目标对象的三维人脸模型的二维人脸图像;基于样本图像和二维人脸图像之间的损失调整三维人脸重建模型的参数以得到面部表情捕捉模型。本公开实施例中,通过将3DMM拓扑下的基底迁移到目标数字人拓扑下,能够适配目标数字人拓扑,训练出能够准确捕捉适用于目标数字人拓扑的面部表情捕捉模型,以驱动数字人。
Description
技术领域
本公开涉及人工智能技术领域,尤其涉及计算机视觉、增强现实、虚拟现实、深度学习等技术领域,可应用于人工智能的内容生成、数字人等场景。
背景技术
近年来,随着人工智能、机器学习等技术的发展,数字人的概念也逐渐引起了广泛关注。数字人可以理解为虚拟人体形象,是运用数字技术创造出来的、与人类形象接近的数字化人物形象。数字人可以在数字世界中展现出与真实人类类似的形象和动作。相比于传统的图像动画,数字人技术可以实现更加复杂的动画效果,包括外貌形象、表情变化等。
发明内容
本公开提供了模型训练方法、数字人驱动方法及相关装置。
根据本公开的一方面,提供了一种模型训练方法,包括:
将样本图像输入三维人脸重建模型,以得到样本图像中的目标对象的三维人脸重建系数;
基于三维人脸重建系数和目标数字人拓扑的目标基底,重建目标对象在目标数字人拓扑下的三维人脸模型;目标基底由人脸三维形变统计模型3DMM的参数化基底迁移到目标数字人拓扑下得到;
将目标对象的三维人脸模型投射到二维空间,得到目标对象的二维人脸图像;
基于样本图像和二维人脸图像之间的损失,调整三维人脸重建模型的参数,以在满足训练收敛条件的情况下结束训练得到面部表情捕捉模型。
根据本公开的另一方面,提供了一种数字人驱动方法,包括:
获取源图像;
将源图像输入至面部表情捕捉模型,得到面部表情捕捉模型输出的表情系数;
基于表情系数和待驱动数字人的表情基底,控制待驱动数字人的表情;
其中,待驱动数字人的表情基底与目标数字人拓扑相同。
根据本公开的另一方面,提供了一种模型训练装置,包括:
第一输入模块,用于将样本图像输入三维人脸重建模型,以得到样本图像中的目标对象的三维人脸重建系数;
重建模块,用于基于三维人脸重建系数和目标数字人拓扑的目标基底,重建目标对象在目标数字人拓扑下的三维人脸模型;目标基底由人脸三维形变统计模型3DMM的参数化基底迁移到目标数字人拓扑下得到;
投射模块,用于将目标对象的三维人脸模型投射到二维空间,得到目标对象的二维人脸图像;
调整模块,用于基于样本图像和二维人脸图像之间的损失,调整三维人脸重建模型的参数,以在满足训练收敛条件的情况下结束训练得到面部表情捕捉模型。
根据本公开的另一方面,提供了一种数字人驱动装置,包括:
第二获取模块,用于获取源图像;
第二输入模块,用于将源图像输入至面部表情捕捉模型,得到面部表情捕捉模型输出的表情系数;
控制模块,用于基于表情系数和待驱动数字人的表情基底,控制待驱动数字人的表情;
其中,待驱动数字人的表情基底与目标数字人拓扑相同。
根据本公开的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与该至少一个处理器通信连接的存储器;其中,
该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行本公开中任一实施例的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,该计算机指令用于使该计算机执行根据本公开中任一实施例的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现根据本公开中任一实施例的方法。
本公开实施例中,通过将3DMM拓扑下的基底迁移到目标数字人拓扑下,能够适配目标数字人拓扑,训练出能够准确捕捉适用于目标数字人拓扑的面部表情捕捉模型,以驱动数字人。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开实施例中模型训练方法的流程示意图;
图2是根据本公开另一实施例中RBF神经网络模型的示意图;
图3是根据本公开另一实施例中模型训练方法的整体流程示意图;
图4是根据本公开另一实施例中数字人驱动方法的流程示意图;
图5是根据本公开另一实施例中模型训练装置的结构示意图;
图6是根据本公开另一实施例中数字人驱动装置的结构示意图;
图7是用来实现本公开实施例的模型训练方法或数字人驱动方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者多个该特征。在本公开的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
3D(three-dimensional,三维)面部表情捕捉技术在数字人技术领域具有重要作用,其主要用途是捕捉真实驱动人的人脸表情。在捕捉到真实驱动人的人脸表情后,可以基于该人脸表情对目标数字人的面部表情进行驱动,以使目标数字人具有和真实驱动人相同的表情变化。
相关技术中,可以通过光学扫描真实驱动人的方式来建模相应的目标数字人,同时实现对真实驱动人面部表情的捕捉,并将真实驱动人的面部表情还原到目标数字人模型上。
但考虑到实现成本的问题,通常情况下,3D面部表情捕捉技术一般需要通过训练3DMM(three-dimensional Morphable Face Model,人脸三维形变统计模型)来实现。由于三维人脸一般具有相应的形状和纹理,此外根据实际需求,还应具有相应的表情,所以用于面部表情捕捉的3DMM一般需要结合形状基、纹理基和表情基来进行训练。其中,3DMM可以理解为一种人脸3D结构,可以由很多独立人脸特征加权后相加或相乘得到。由3DMM可以得到用于构建人脸3D结构的相关系数,例如形状系数、纹理系数、表情系数等。基于3DMM的方式,可以从二维图像中还原出精确的三维人脸。
要想实现面部表情捕捉,训练3DMM就需要模型师手工制作能应用在目标数字人拓扑下的3DMM的blendshapes(融合形变变形器),以使3DMM模型输出的表情系数能够直接应用到目标数字人的拓扑结构中,从而可以实现对目标数字人面部表情的驱动。其中,blendshapes可以理解为表情基底。一种表情类型的blendshapes下可能会包含上百个blendshape(融合形变变形器),这些blendshape可以理解为不同的面部表情。其中,每个blendshape的制作成本极高,同时还需要模型师具备较高的审美能力和操作技巧,因此制作耗时也较长。此外,不同模型师制作的blendshapes的质量也较难统一,导致很难通过3DMM获得较高质量的真实驱动人的面部表情,从而目标数字人也就无法准确还原真实驱动人的表情变化,因此也就难以较好地完成目标数字人的面部表情驱动。
有鉴于此,本公开实施例提供了一种模型训练方法。如图1所示,为本公开实施例中模型训练方法的流程图,包括:
S101,将样本图像输入三维人脸重建模型,以得到样本图像中的目标对象的三维人脸重建系数。
其中,该样本图像为任何能够使三维人脸重建模型输出三维人脸重建系数的图像,可以是任意包含人脸的二维图像,本公开对此不进行限定。样本图像中包含目标对象,该目标对象即需要进行面部表情捕捉的真实驱动人的图像。
在将样本图像输入三维人脸重建模型之前,可以对样本图像进行预处理,以便于基于预处理后的样本图像更好的训练三维人脸重建模型。预处理过程可包括:检测样本图像中的关键点;基于关键点将样本图像中的人脸区域对齐并裁剪为统一大小,例如256*256;然后将裁剪后的图片进行图像归一化处理,例如将样本图像中每个像素的像素值除以255再减1,以使每个像素的像素值都分布在[-1,1]或[0,1]之间。
三维人脸重建模型包括例如resnet(残差神经网络)、FaRL(针对人脸任务的预训练大模型)等通用编码器,一般包含卷积层和池化层。
S102,基于三维人脸重建系数和目标数字人拓扑的目标基底,重建目标对象在目标数字人拓扑下的三维人脸模型。
其中,该目标基底由3DMM的参数化基底迁移到目标数字人拓扑下得到。3DMM的参数化基底包括3DMM的形状基和纹理基。
目标数字人拓扑即由具有一定结构的点云和面片组成的三维结构。其中,可以对点云中的点进行编号,相同编号的点代表相同的语义,例如在2017版本的BFM(Basel FaceModel,基线人脸模型)数据库中,人脸形状基的第2217个面片顶点表达的语义都是左外眼角点。实施时,顶点的数量和面片的数量可以根据实际需求确定。
S103,将目标对象的三维人脸模型投射到二维空间,得到目标对象的二维人脸图像。
S104,基于样本图像和二维人脸图像之间的损失,调整三维人脸重建模型的参数,以在满足训练收敛条件的情况下结束训练得到面部表情捕捉模型。
其中,样本图像和二维人脸图像之间的损失可采用L1 Loss(均绝对误差)、L2Loss(均方误差)或Wing Loss(关键点损失)中的至少一种损失函数来计算获得。当然,还可以根据实际需求引入其它的损失,例如两图像之间的感知损失等,本公开对此不进行限定。
本公开实施例中,在引入三维人脸重建模型获取三维人脸重建系数的基础上,通过将3DMM的参数化基底迁移到目标数字人拓扑下以得到目标基底,实现了直接结合目标数字人拓扑对三维人脸重建模型进行训练,使得训练好的面部表情捕捉模型输出的系数能直接应用于目标数字人的拓扑结构中。通过该面部表情捕捉模型,无需人工手动制作大量的blendshape即可实现捕捉真实驱动人的面部表情,节省了大量人力成本和时间成本,且有利于在目标数字人面部还原真实驱动人的面部表情,从而有利于目标数字人实现复杂的动画效果。
由于通常情况下3DMM的拓扑结构和目标数字人的拓扑结构不同,所以二者的形状基一般不能直接进行互换,即直接利用3DMM的参数化基底会对数字人的驱动效果产生影响。3DMM的拓扑空间和目标数字人拓扑的空间表达也存在差异,通常没有固定的映射关系,为了避免无锚定的迁移来的形状基发生畸变,出现形状异常。本公开实施例中,需要在进行形状基迁移之前,将3DMM的形状基和目标数字人拓扑进行配准,以避免3DMM的形状基在迁移后发生形变。具体的配准实现步骤如下,包括:
A1,从3DMM的多个人脸中,获取参考脸。
其中,该参考脸为3DMM的多个人脸中的任一人脸。
A2,将参考脸的参数化形状基和目标数字人拓扑下的数字人模板进行配准,得到参考脸在目标数字人拓扑下的参考形状基。
其中,由于目标数字人拓扑只是由具有特定结构的点云和面片组成的三维人脸模型,不具备参数化基底,所以,需要采用目标数字人拓扑下具有参数化基底的数字人模板来与参考脸进行配准。具体的,是将参考脸的参数化形状基与目标数字人拓扑下的数字人模板的参数化形状基进行配准。举例来说,可以采用基于点云匹配的ICP(iterative closestpoint,迭代最近点)算法来实现上述配准过程。当然,可以响应于建模师的手动调整操作,使得参考脸与数字人模板的人脸贴合,以完成配准。
在将参考脸的参数化形状基和目标数字人拓扑下的数字人模板配准后,得到参考形状基。该参考形状基即参考脸在目标数字人拓扑下的表达,是参考脸的参数化形状基的点云中点的坐标发生了改变而得到的。
A3,基于参考形状基,采用形状迁移方法将3DMM的参数化基底中的形状基和纹理基迁移至目标数字人拓扑下,以构建目标基底。
本公开实施例中3DMM中具有多个形状基和多个纹理基。目标数字人拓扑下没有丰富的形状基和纹理基,为了能够在目标数字人拓扑下准确的驱动其拓扑下的数字人,需要将3DMM的形状基和纹理基迁移到目标数字人拓扑下。针对3DMM的每个形状基其表达了人脸的外貌特征,迁移前后人脸的外貌特征不变或近似,只是拓扑结构由3DMM迁移到目标数字人拓扑下。
本公开实施例中,在将参考脸的参数化形状基和目标数字人拓扑下的数字人模板进行配准的基础上,采用形状迁移方法实现3DMM的形状基到目标数字人拓扑下的迁移,有利于使形状基的迁移更加易于实现。在完成配准的情况下,一定程度上简化了形状基的迁移过程。同时,有利于使3DMM的形状基在迁移到目标数字人拓扑下后发生更加合理的变化,以使3DMM的形状基和目标数字人拓扑下的3DMM的形状基的区别仅在于同一形状基在不同拓扑下的表达方式不同。
在一些实施例中,基于参考形状基,采用形状迁移方法将3DMM的参数化基底中的形状基和纹理基迁移至目标数字人拓扑下,可实施为:
B1,基于参考形状基中的多个参考顶点,在数字人模板中确定多个参考顶点对应的多个目标顶点。
其中,由于参考形状基中的点的数量一般会少于数字人模板中点的数量,所以可以将参考形状基中的多个点或所有点作为参考顶点,并将这些参考顶点分别对应到数字人模板中的点,则数字人模板中与这些参考顶点对应的点即可确定为目标顶点。对于具体的对应方法,举例来说,可以采用数字人模板中距离参考顶点最近的点作为目标顶点。本公开对此不进行限定。基于这些目标顶点,可以确定参考脸的参数化形状基和目标数字人拓扑下的数字人模板已经配准完成。
B2,基于多个目标顶点,采用形状迁移方法将3DMM的形状基和纹理基迁移至目标数字人拓扑下。
本公开实施例中,将3DMM的参数化基底中的形状基和纹理基迁移至目标数字人拓扑下,有利于基于形状迁移的方法论自动将3DMM的参数化基底迁移至目标数字人拓扑下,提高迁移的效率和准确性,以便于在数字人拓扑下完成三维人脸的重建。
其中,上述形状迁移方法可以采用例如RBF(Radial Basis Function,径向基函数)技术、deformation transfer(变形传递)技术来实现。
在RBF技术中,如果给定一个点x和一组RBF基函数,就可以使用RBF插值计算f(x)的值,如下面的式(1)所示:
其中,wi表示每个RBF基函数的权重值,是待解的未知数。将RBF基函数的中心x'设置为参考脸的参数化形状基和数字人模板配准后的目标数字人拓扑下的目标顶点,即目标数字人拓扑下与参考脸对应的点。输入x设置为目标数字人拓扑下原始顶点的位置,计算得到f(x)的值作为原始顶点的偏移量。这样,原始顶点的偏移位置即x+f(x)。
以采用RBF技术举例来说,如果存在三个已知值点和一个未知值点,需要根据已知值点的参数值求得未知值点相同类型的参数值,该参数值可例如点云的形状基参数、纹理参数等。通过RBF技术,能够根据已知值点之间的距离计算得到第一距离矩阵,并根据已知值点各自同一类型的参数值得到参数值矩阵,然后将该第一距离矩阵和该参数值矩阵进行计算,即用该参数值矩阵乘以该第一距离矩阵的逆,以得到权重矩阵。再分别计算未知值点和已知值点的距离,得到第二距离矩阵。然后用该第二距离矩阵和上述权重矩阵相乘,即可得到未知值点的相同类型的参数值。下面结合本公开实施例,是将RBF技术作为形状迁移方法分别将3DMM的形状基和纹理基迁移至目标数字人拓扑下的具体实现方式。
在一些实施例中,基于多个目标顶点,采用形状迁移方法将3DMM的形状基迁移至目标数字人拓扑下,可实施为:
针对3DMM的形状基的待迁移顶点,执行以下操作:
C1,基于多个目标顶点在目标数字人拓扑下的位置信息,确定多个目标顶点之间的距离,得到第一距离矩阵。
C2,基于多个目标顶点在目标数字人拓扑下的形状基参数矩阵和第一距离矩阵,计算得到第一权重矩阵。
其中,该形状基参数作为RBF技术中的参数值。
C3,分别确定形状基的待迁移顶点和多个目标顶点之间的距离,得到第二距离矩阵。
C4,基于第二距离矩阵和第一权重矩阵,确定形状基的待迁移顶点在目标数字人拓扑下的形状基参数。
本公开实施例中,通过形状迁移方法将3DMM的形状基迁移至目标数字人拓扑下,以丰富目标数字人拓扑下的形状基,有利于直接在目标数字人拓扑下基于3DMM的参数化基底中的形状基进行三维人脸的重建。
在一些实施例中,基于多个目标顶点,采用形状迁移方法将3DMM的纹理基迁移至目标数字人拓扑下,可实施为:
针对3DMM的纹理基的待迁移顶点,执行以下操作:
D1,基于多个目标顶点在目标数字人拓扑下的位置信息,确定多个目标顶点之间的距离,得到第一距离矩阵。
D2,基于多个目标顶点在目标数字人拓扑下的纹理基参数矩阵和第一距离矩阵,计算得到第二权重矩阵。
其中,该纹理基参数作为RBF技术中的参数值。
D3,分别确定纹理基的待迁移顶点和多个目标顶点之间的距离,得到第三距离矩阵。
D4,基于第三距离矩阵和第二权重矩阵,确定纹理基的待迁移顶点在目标数字人拓扑下的纹理基参数。
本公开实施例中,通过形状迁移方法将3DMM的纹理基迁移至目标数字人拓扑下,以丰富目标数字人拓扑下的纹理基,有利于直接在目标数字人拓扑下基于3DMM的参数化基底中的纹理基进行三维人脸的重建。
此外,还可以基于配准得到的目标顶点,直接将3DMM的参数化基底中的纹理参数映射为目标数字人拓扑下目标顶点的纹理参数。
综上,本公开对形状迁移方法的具体实现不进行限定。
在一些实施例中,基于多个目标顶点,采用形状迁移方法将3DMM的形状基和纹理基迁移至目标数字人拓扑下,还可实施为:
E1,基于多个目标顶点构建形状基迁移模型和纹理基迁移模型。
其中,需要将多个目标顶点作为训练标签。例如可以构建第一RBF神经网络模型,并训练该模型得到形状基迁移模型。类似的,构建第二RBF神经网络模型,并训练该模型得到纹理基迁移模型。以其中第一RBF神经网络模型为例,该模型的输入为参考脸的3DMM形状基参数,通过训练使其输出不断接近目标顶点对应的形状基。由此,得到形状基迁移模型。
针对第二RBF神经网络模型,其输入为3DMM的纹理基,通过训练使其输出不断接近为目标顶点对应的纹理基。由此,得到纹理基迁移模型。
此外,针对第二RBF神经网络模型,其输入为3DMM的纹理基,输出为预测的数字人拓扑下的纹理基,预测的纹理基通过判别器来判别是否属于目标数字人拓扑下的真实纹理还是假纹理。由此,通过判别器来优化第二RBF的参数,通过训练使其输出不断接近真实的目标数字人拓扑下的纹理基。由此,得到纹理基迁移模型。
第一RBF神经网络模型和第二RBF神经网络模型可简化表示为如图2所示,包括输入层,隐层和输出层。通过不断优化隐层的权重,和动态优化径向基函数的中心来实现对模型参数的调整。其中,隐层由多个径向基函数的中心来搭建,多个径向基函数的中心的初始值可设置为目标顶点的值。
E2,将3DMM的形状基输入形状基迁移模型中,以将3DMM的形状基迁移到目标数字人拓扑下;以及,
E3,将3DMM的纹理基输入纹理基迁移模型中,以将3DMM的纹理基迁移到目标数字人拓扑下。
其中,分别输入形状基迁移模型和纹理基迁移模型的是3DMM中参考脸的形状基和纹理基。
本公开实施例中,将3DMM的形状基和纹理基分别输入基于多个目标顶点构建的形状基迁移模型和纹理基迁移模型,以自动实现3DMM的形状基和纹理基的迁移,有利于简化迁移过程并提高迁移效率。
由于3DMM的多个人脸中的单一人脸很难代表3DMM的参数化形状基的平均水平,所以,通常情况下,一般会基于3DMM的多个人脸计算3DMM的平均脸,并将3DMM的平均脸的参数化形状基作为能够代表3DMM的参数化形状基。
在一些实施例中,参考脸的参数化形状基为3DMM的平均脸。
此外,考虑到3DMM的多个人脸之间可能存在差异较大的参数化形状基,使得求得的3DMM平均脸并不能准确表达3DMM的参数化形状基特征的平均水平。因此,还可以基于例如年龄段、性别等因素对3DMM中的人脸做出大致的分类,在各类别下分别计算3DMM的平均脸,并采用与数字人模板相近类别下的3DMM的平均脸作为参考脸的参数化形状基,以减轻不同人脸的参数化形状基之间可能存在较大差异对计算3DMM的平均脸的影响。
本公开实施例中,将3DMM的平均脸作为参考脸的参数化形状基更具有代表性,有利于基于3DMM的平均脸获取到3DMM整体的形状基特征。
在一些实施例中,目标基底中包括目标形状基、目标纹理基和目标数字人拓扑下的表情基底。该表情基底,即目标数字人拓扑下原有的blendshapes。
其中,将3DMM的形状基迁移至目标数字人拓扑下,作为目标形状基;将3DMM的纹理基迁移至目标数字人拓扑下,作为目标纹理基。该目标基底不仅包含3DMM的参数化基底中的形状基和纹理基,还采用了目标数字人拓扑下的数字人模板的表情基底作为目标基底的表情基。由此,目标数字人拓扑下的数字人模板的表情基相较于3DMM中的表情基,一般会具有更加丰富的表情内容,即具有更加丰富的blendshapes。
本公开实施例中,由于目标数字人自身的表情基底相较于3DMM的表情基底更为丰富,即能更好地捕捉到真实驱动人的面部表情,所以采用目标数字人自身拓扑下的表情基底,有利于基于目标基底训练三维人脸重建模型以得到面部表情捕捉模型,并通过面部表情捕捉模型输出更能准确体现真实驱动人面部表情的表情参数。
在一些实施例中,在3DMM的形状基的顶点数量小于目标数字人拓扑的顶点数量的情况下,目标数字人拓扑下相比3DMM的形状基多出的顶点的形状基参数在目标基底中保持不变。
其中,3DMM中包括人脸外部的可视五官,目标数字人拓扑除了人脸外部的可视五官,还包括例如眼球、舌头、口腔、耳朵、牙齿等不可视或不影响表情的内容(如耳朵、舌头)。因此,目标数字人拓扑的顶点数量一般会大于3DMM的形状基的顶点数量,多出的顶点即上述眼球、舌头、口腔、耳朵、牙齿等的顶点。
本公开实施例中,在3DMM的形状基迁移到目标数字人拓扑下的过程中,保持目标数字人拓扑中相对于3DMM的形状基多出的顶点在目标基底中不参与形状基迁移方法的相关计算,有利于避免多出的顶点影响形状基迁移的质量,还有利于避免多出的顶点的形状基参数发生不必要的改变。
在一些实施例中,在将3DMM的形状基迁移至目标数字人拓扑的过程中,需要保持迁移前后目标锚点的位置不变。
其中,该目标锚点指的是例如目标数字人拓扑中的后脑勺点、脖子点等。由于在将3DMM的形状基迁移至目标数字人拓扑的过程中,不需要采用目标锚点进行相关操作,所以需要保持形状基迁移前后的目标锚点的位置不发生改变。
本公开实施例中,保持3DMM的形状基迁移到目标数字人拓扑前后目标锚点的位置不变,有利于一定程度上减轻形状基迁移过程中的计算负担。有利于保障除了目标数字人的形状基发生变化外,目标数字人整体的身体结构不受到影响,以确保形状迁移后得到的目标数字人拓扑的网格形状不会异常。
在一些实施例中,三维人脸重建系数包括形状向量,表情向量,姿态向量和纹理向量。
其中,形状向量、表情向量、姿态向量和纹理向量在三维人脸重建系数中缺一不可。姿态向量用于调整将目标对象的三维人脸模型可微渲染到二维空间时调整目标对象的姿态,即三维人脸模型的角度。且上述各向量分别具有自身相应的维度。例如,三维人脸重建模型可能会输出一个500维的形状向量,一个150维的表情向量,一个12维的姿态向量以及一个200维的纹理向量,这些向量的维度由3DMM的参数化基底来决定。
具体的,采用下面的(2)式(3)式和基于三维人脸重建系数重建目标对象在目标数字人拓扑下的三维人脸模型:
S=Smean +ci Ibase+ce Ebase (2)
T=Tmean +ct Tbase (3)
其中,Smean表示3DMM的平均人脸形状,Tmean表示3DMM的平均人脸纹理,Ibase表示PCA降维后的人脸形状,Tbase表示PCA降维后的人脸纹理,Ebase表示目标数字人拓扑下的数字人模板的人脸表情。ci表示形状向量,ct表示纹理向量,ce表示表情向量。
本公开实施例中,三维人脸重建系数包含多种类型的向量,有利于从不同角度表达三维人脸,以使重建的三维人脸更加真实还原。
在一些实施例中,将目标对象的三维人脸模型投射到二维空间,得到目标对象的二维人脸图像,可实施为:应用可微渲染将目标对象的三维人脸模型投射到二维空间,得到目标对象的二维人脸图像。
其中,得到目标对象的二维人脸图像的目的在于采用二维人脸图像与样本图像之间计算损失,将二维人脸图像和样本图像分别输入任一用于情绪识别的神经网络模型,计算两个图像对应的情绪识别模型的输出向量之间的损失,作为perceptual expressionloss(感知损失)。
本公开实施例中,应用可微渲染将目标对象的三维人脸模型投射到二维空间,有利于确保得到目标对象的二维人脸图像的准确性。从而有利于基于二维人脸图像与样本图像之间计算感知损失,以调整三维人脸重建模型的参数。
在一些实施例中,在可微渲染之前,需要将目标对象的三维人脸模型中的不可视点抠除。
其中,由于可微渲染的目的在于得到目标对象的三维人脸模型在二维空间的投影,以得到目标对象的二维人脸图像,而目标对象的二维人脸图像用于和样本图像计算损失,样本图像也属于二维图像。即该过程不需要用到目标对象的三维人脸模型中的不可视点,故需要将这些不可视点抠除。
本公开实施例中,在可微渲染之前将目标对象的三维人脸模型中的不可视点抠除,有利于一定程度上减少可微渲染对不可视点进行渲染的计算负担,增加渲染的效率。
为了便于更好的理解本公开中的模型训练方法,下面结合图对上述模型训练方法的整体流程进行说明。在图3中,将左下方的样本图像输入三维人脸重建模型。然后分别将3DMM的参数化形状基和参数化纹理基迁移到目标数字人拓扑下,并将二者分别作为目标形状基和目标纹理基。进一步地,可以将目标形状基和目标纹理基结合目标数字人拓扑下的数字人模板的表情基,以及光照、姿态等三维人脸重建模型输出的三维人脸重建系数,一起参与目标数字人拓扑下的三维人脸模型的重建,得到目标对象的三维人脸模型。然后对该三维人脸模型进行可微渲染,得到目标对象的二维人脸图像。接着,计算该二维人脸图像和目标对象对应的原始样本图像的损失,以基于该损失调整三维人脸重建模型的参数,最终基于训练收敛的三维人脸重建模型得到面部表情捕捉模型。
综上,基于前述的模型训练方法能够得到面部表情捕捉模型。该面部表情捕捉模型,不仅适用于目标数字人拓扑,由于是基于目标数字人拓扑下的表情基底训练的,可以适用于具有相同表情基底即blendshapes的数字人。由此,本公开实施例训练好的面部表情捕捉模型能够重复利用,可复制应用到具有相同blendshapes的数字人。
基于相同的技术构思,本公开实施例还提供了一种数字人驱动方法,如图4所示,为本公开实施例中数字人驱动方法的流程示意图,包括:
S401,获取源图像。
S402,将源图像输入至上述面部表情捕捉模型,得到该面部表情捕捉模型输出的表情系数。
S403,基于表情系数和待驱动数字人的表情基底,控制待驱动数字人的表情。
其中,待驱动数字人的表情基底与目标数字人拓扑相同。
本公开实施例中,通过将源图像输入面部表情捕捉模型,再基于该面部表情捕捉模型输出的表情系数和待驱动数字人的表情基底来控制待驱动数字人的表情。采用训练好的面部表情捕捉模型获取表情系数,有利于使得到的表情系数更加准确可靠。将表情系数作用于待驱动数字人的表情基底,基于待驱动数字人自身丰富的表情基底,有利于使对待驱动数字人的表情的控制更加严谨细致,从而使待驱动数字人对于真实驱动人的面部表情变化更加还原。
基于相同的技术构思,本公开实施例还提供一种模型训练装置500,如图5所示,该装置包括:
第一输入模块501,用于将样本图像输入三维人脸重建模型,以得到样本图像中的目标对象的三维人脸重建系数;
重建模块502,用于基于三维人脸重建系数和目标数字人拓扑的目标基底,重建目标对象在目标数字人拓扑下的三维人脸模型;目标基底由人脸三维形变统计模型3DMM的参数化基底迁移到目标数字人拓扑下得到;
投射模块503,用于将目标对象的三维人脸模型投射到二维空间,得到目标对象的二维人脸图像;
调整模块504,用于基于样本图像和二维人脸图像之间的损失,调整三维人脸重建模型的参数,以在满足训练收敛条件的情况下结束训练得到面部表情捕捉模型。
在一些实施例中,还包括:
第一获取模块,用于从3DMM的多个人脸中,获取参考脸;
配准模块,用于将参考脸的参数化形状基和目标数字人拓扑下的数字人模板进行配准,得到参考脸在目标数字人拓扑下的参考形状基;
迁移模块,用于基于参考形状基,采用形状迁移方法将3DMM的参数化基底中的形状基和纹理基迁移至目标数字人拓扑下,以构建目标基底。
在一些实施例中,参考脸的参数化形状基为3DMM的平均脸。
在一些实施例中,迁移模块,包括:
确定单元,用于基于参考形状基中的多个参考顶点,在数字人模板中确定多个参考顶点对应的多个目标顶点;
迁移单元,用于基于多个目标顶点,采用形状迁移方法将3DMM的形状基和纹理基迁移至目标数字人拓扑下。
在一些实施例中,迁移单元,具体用于:
针对3DMM的形状基的待迁移顶点,执行以下操作:
基于多个目标顶点在目标数字人拓扑下的位置信息,确定多个目标顶点之间的距离,得到第一距离矩阵;
基于多个目标顶点在目标数字人拓扑下的形状基参数矩阵和第一距离矩阵,计算得到第一权重矩阵;
分别确定形状基的待迁移顶点和多个目标顶点之间的距离,得到第二距离矩阵;
基于第二距离矩阵和第一权重矩阵,确定形状基的待迁移顶点在目标数字人拓扑下的形状基参数。
在一些实施例中,迁移单元,具体用于:
针对3DMM的纹理基的待迁移顶点,执行以下操作:
基于多个目标顶点在目标数字人拓扑下的位置信息,确定多个目标顶点之间的距离,得到第一距离矩阵;
基于多个目标顶点在目标数字人拓扑下的纹理基参数矩阵和第一距离矩阵,计算得到第二权重矩阵;
分别确定纹理基的待迁移顶点和多个目标顶点之间的距离,得到第三距离矩阵;
基于第三距离矩阵和第二权重矩阵,确定纹理基的待迁移顶点在目标数字人拓扑下的纹理基参数。
在一些实施例中,迁移单元,具体用于:
基于多个目标顶点构建形状基迁移模型和纹理基迁移模型;
将3DMM的形状基输入形状基迁移模型中,以将3DMM的形状基迁移到目标数字人拓扑下;以及,
将3DMM的纹理基输入纹理基迁移模型中,以将3DMM的纹理基迁移到目标数字人拓扑下。
在一些实施例中,目标基底中包括目标形状基、目标纹理基和目标数字人拓扑下的表情基底;
其中,3DMM的形状基迁移至目标数字人拓扑下,作为目标形状基;
3DMM的纹理基迁移至目标数字人拓扑下,作为目标纹理基。
在一些实施例中,在3DMM的形状基的顶点数量小于目标数字人拓扑的顶点数量的情况下,目标数字人拓扑下相比3DMM的形状基多出的顶点的形状基参数在目标基底中保持不变。
在一些实施例中,还包括:
保持模块,用于在将3DMM的形状基迁移至目标数字人拓扑的过程中,保持迁移前后目标锚点的位置不变。
在一些实施例中,三维人脸重建系数包括形状向量,表情向量,姿态向量和纹理向量。
在一些实施例中,投射模块,具体用于应用可微渲染将目标对象的三维人脸模型投射到二维空间,得到目标对象的二维人脸图像。
在一些实施例中,还包括:
抠除模块,用于在可微渲染之前,将目标对象的三维人脸模型中的不可视点抠除。
基于相同的技术构思,本公开实施例还提供一种数字人驱动装置600,应用于基于前述装置得到的面部表情捕捉模型,如图6所示,该装置包括:
第二获取模块601,用于获取源图像;
第二输入模块602,用于将源图像输入至面部表情捕捉模型,得到面部表情捕捉模型输出的表情系数;
控制模块603,用于基于表情系数和待驱动数字人的表情基底,控制待驱动数字人的表情;
其中,待驱动数字人的表情基底与目标数字人拓扑相同。
本公开实施例的装置的各单元、子单元的具体功能和示例的描述,可以参见上述方法实施例中对应步骤的相关描述,在此不再赘述。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图7所示,设备700包括计算单元701,其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序,来执行各种适当的动作和处理。在RAM 703中,还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如模型训练方法、数字人驱动方法。例如,在一些实施例中,模型训练方法、数字人驱动方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时,可以执行上文描述的模型训练方法、数字人驱动方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行模型训练方法、数字人驱动方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (31)
1.一种模型训练方法,包括:
将样本图像输入三维人脸重建模型,以得到所述样本图像中的目标对象的三维人脸重建系数;
基于所述三维人脸重建系数和目标数字人拓扑的目标基底,重建所述目标对象在所述目标数字人拓扑下的三维人脸模型;所述目标基底由人脸三维形变统计模型3DMM的参数化基底迁移到所述目标数字人拓扑下得到;
将所述目标对象的三维人脸模型投射到二维空间,得到所述目标对象的二维人脸图像;
基于所述样本图像和所述二维人脸图像之间的损失,调整所述三维人脸重建模型的参数,以在满足训练收敛条件的情况下结束训练得到面部表情捕捉模型。
2.根据权利要求1所述的方法,还包括:
从所述3DMM的多个人脸中,获取参考脸;
将所述参考脸的参数化形状基和所述目标数字人拓扑下的数字人模板进行配准,得到所述参考脸在所述目标数字人拓扑下的参考形状基;
基于所述参考形状基,采用形状迁移方法将所述3DMM的参数化基底中的形状基和纹理基迁移至所述目标数字人拓扑下,以构建所述目标基底。
3.根据权利要求2所述的方法,其中,所述参考脸的参数化形状基为所述3DMM的平均脸。
4.根据权利要求2或3所述的方法,其中,所述基于所述参考形状基,采用形状迁移方法将所述3DMM的参数化基底中的形状基和纹理基迁移至所述目标数字人拓扑下,包括:
基于所述参考形状基中的多个参考顶点,在所述数字人模板中确定所述多个参考顶点对应的多个目标顶点;
基于所述多个目标顶点,采用形状迁移方法将所述3DMM的形状基和纹理基迁移至所述目标数字人拓扑下。
5.根据权利要求4所述的方法,其中,基于所述多个目标顶点,采用形状迁移方法将所述3DMM的形状基迁移至所述目标数字人拓扑下,包括:
针对所述3DMM的形状基的待迁移顶点,执行以下操作:
基于所述多个目标顶点在所述目标数字人拓扑下的位置信息,确定所述多个目标顶点之间的距离,得到第一距离矩阵;
基于所述多个目标顶点在所述目标数字人拓扑下的形状基参数矩阵和所述第一距离矩阵,计算得到第一权重矩阵;
分别确定所述形状基的待迁移顶点和所述多个目标顶点之间的距离,得到第二距离矩阵;
基于所述第二距离矩阵和所述第一权重矩阵,确定所述形状基的待迁移顶点在所述目标数字人拓扑下的形状基参数。
6.根据权利要求4所述的方法,其中,基于所述多个目标顶点,采用形状迁移方法将所述3DMM的纹理基迁移至所述目标数字人拓扑下,包括:
针对所述3DMM的纹理基的待迁移顶点,执行以下操作:
基于所述多个目标顶点在所述目标数字人拓扑下的位置信息,确定所述多个目标顶点之间的距离,得到第一距离矩阵;
基于所述多个目标顶点在所述目标数字人拓扑下的纹理基参数矩阵和所述第一距离矩阵,计算得到第二权重矩阵;
分别确定所述纹理基的待迁移顶点和所述多个目标顶点之间的距离,得到第三距离矩阵;
基于所述第三距离矩阵和所述第二权重矩阵,确定所述纹理基的待迁移顶点在所述目标数字人拓扑下的纹理基参数。
7.根据权利要求4所述的方法,其中,所述基于所述多个目标顶点,采用形状迁移方法将所述3DMM的形状基和纹理基迁移至所述目标数字人拓扑下,包括:
基于所述多个目标顶点构建形状基迁移模型和纹理基迁移模型;
将所述3DMM的形状基输入所述形状基迁移模型中,以将所述3DMM的形状基迁移到所述目标数字人拓扑下;以及,
将所述3DMM的纹理基输入所述纹理基迁移模型中,以将所述3DMM的纹理基迁移到所述目标数字人拓扑下。
8.根据权利要求1-7中任一项所述的方法,其中,所述目标基底中包括目标形状基、目标纹理基和所述目标数字人拓扑下的表情基底;
其中,所述3DMM的形状基迁移至所述目标数字人拓扑下,作为所述目标形状基;
所述3DMM的纹理基迁移至所述目标数字人拓扑下,作为所述目标纹理基。
9.根据权利要求8所述的方法,其中,在所述3DMM的形状基的顶点数量小于所述目标数字人拓扑的顶点数量的情况下,所述目标数字人拓扑下相比所述3DMM的形状基多出的顶点的形状基参数在所述目标基底中保持不变。
10.根据权利要求4所述的方法,还包括:
在将所述3DMM的形状基迁移至所述目标数字人拓扑的过程中,保持迁移前后目标锚点的位置不变。
11.根据权利要求1-10中任一项所述的方法,其中,所述三维人脸重建系数包括形状向量,表情向量,姿态向量和纹理向量。
12.根据权利要求1-11中任一项所述的方法,其中,所述将所述目标对象的三维人脸模型投射到二维空间,得到所述目标对象的二维人脸图像,包括:
应用可微渲染将所述目标对象的三维人脸模型投射到二维空间,得到所述目标对象的二维人脸图像。
13.根据权利要求12所述的方法,还包括:
在可微渲染之前,将所述目标对象的三维人脸模型中的不可视点抠除。
14.一种数字人驱动方法,应用于权利要求1-13中任一项所述方法得到的面部表情捕捉模型,包括:
获取源图像;
将所述源图像输入至所述面部表情捕捉模型,得到所述面部表情捕捉模型输出的表情系数;
基于所述表情系数和待驱动数字人的表情基底,控制所述待驱动数字人的表情;
其中,所述待驱动数字人的表情基底与目标数字人拓扑相同。
15.一种模型训练装置,包括:
第一输入模块,用于将样本图像输入三维人脸重建模型,以得到所述样本图像中的目标对象的三维人脸重建系数;
重建模块,用于基于所述三维人脸重建系数和目标数字人拓扑的目标基底,重建所述目标对象在所述目标数字人拓扑下的三维人脸模型;所述目标基底由人脸三维形变统计模型3DMM的参数化基底迁移到所述目标数字人拓扑下得到;
投射模块,用于将所述目标对象的三维人脸模型投射到二维空间,得到所述目标对象的二维人脸图像;
调整模块,用于基于所述样本图像和所述二维人脸图像之间的损失,调整所述三维人脸重建模型的参数,以在满足训练收敛条件的情况下结束训练得到面部表情捕捉模型。
16.根据权利要求15所述的装置,还包括:
第一获取模块,用于从所述3DMM的多个人脸中,获取参考脸;
配准模块,用于将所述参考脸的参数化形状基和所述目标数字人拓扑下的数字人模板进行配准,得到所述参考脸在所述目标数字人拓扑下的参考形状基;
迁移模块,用于基于所述参考形状基,采用形状迁移方法将所述3DMM的参数化基底中的形状基和纹理基迁移至所述目标数字人拓扑下,以构建所述目标基底。
17.根据权利要求16所述的装置,其中,所述参考脸的参数化形状基为所述3DMM的平均脸。
18.根据权利要求16或17所述的装置,其中,所述迁移模块,包括:
确定单元,用于基于所述参考形状基中的多个参考顶点,在所述数字人模板中确定所述多个参考顶点对应的多个目标顶点;
迁移单元,用于基于所述多个目标顶点,采用形状迁移方法将所述3DMM的形状基和纹理基迁移至所述目标数字人拓扑下。
19.根据权利要求18所述的装置,其中,所述迁移单元,具体用于:
针对所述3DMM的形状基的待迁移顶点,执行以下操作:
基于所述多个目标顶点在所述目标数字人拓扑下的位置信息,确定所述多个目标顶点之间的距离,得到第一距离矩阵;
基于所述多个目标顶点在所述目标数字人拓扑下的形状基参数矩阵和所述第一距离矩阵,计算得到第一权重矩阵;
分别确定所述形状基的待迁移顶点和所述多个目标顶点之间的距离,得到第二距离矩阵;
基于所述第二距离矩阵和所述第一权重矩阵,确定所述形状基的待迁移顶点在所述目标数字人拓扑下的形状基参数。
20.根据权利要求18所述的装置,其中,所述迁移单元,具体用于:
针对所述3DMM的纹理基的待迁移顶点,执行以下操作:
基于所述多个目标顶点在所述目标数字人拓扑下的位置信息,确定所述多个目标顶点之间的距离,得到第一距离矩阵;
基于所述多个目标顶点在所述目标数字人拓扑下的纹理基参数矩阵和所述第一距离矩阵,计算得到第二权重矩阵;
分别确定所述纹理基的待迁移顶点和所述多个目标顶点之间的距离,得到第三距离矩阵;
基于所述第三距离矩阵和所述第二权重矩阵,确定所述纹理基的待迁移顶点在所述目标数字人拓扑下的纹理基参数。
21.根据权利要求18所述的装置,其中,所述迁移单元,具体用于:
基于所述多个目标顶点构建形状基迁移模型和纹理基迁移模型;
将所述3DMM的形状基输入所述形状基迁移模型中,以将所述3DMM的形状基迁移到所述目标数字人拓扑下;以及,
将所述3DMM的纹理基输入所述纹理基迁移模型中,以将所述3DMM的纹理基迁移到所述目标数字人拓扑下。
22.根据权利要求15-21中任一项所述的装置,其中,所述目标基底中包括目标形状基、目标纹理基和所述目标数字人拓扑下的表情基底;
其中,所述3DMM的形状基迁移至所述目标数字人拓扑下,作为所述目标形状基;
所述3DMM的纹理基迁移至所述目标数字人拓扑下,作为所述目标纹理基。
23.根据权利要求22所述的装置,其中,在所述3DMM的形状基的顶点数量小于所述目标数字人拓扑的顶点数量的情况下,所述目标数字人拓扑下相比所述3DMM的形状基多出的顶点的形状基参数在所述目标基底中保持不变。
24.根据权利要求18所述的装置,还包括:
保持模块,用于在将所述3DMM的形状基迁移至所述目标数字人拓扑的过程中,保持迁移前后目标锚点的位置不变。
25.根据权利要求15-24中任一项所述的装置,其中,所述三维人脸重建系数包括形状向量,表情向量,姿态向量和纹理向量。
26.根据权利要求15-25中任一项所述的装置,其中,所述投射模块,具体用于应用可微渲染将所述目标对象的三维人脸模型投射到二维空间,得到所述目标对象的二维人脸图像。
27.根据权利要求26所述的装置,还包括:
抠除模块,用于在可微渲染之前,将所述目标对象的三维人脸模型中的不可视点抠除。
28.一种数字人驱动装置,应用于权利要求15-27中任一项所述装置得到的面部表情捕捉模型,包括:
第二获取模块,用于获取源图像;
第二输入模块,用于将所述源图像输入至所述面部表情捕捉模型,得到所述面部表情捕捉模型输出的表情系数;
控制模块,用于基于所述表情系数和待驱动数字人的表情基底,控制所述待驱动数字人的表情;
其中,所述待驱动数字人的表情基底与目标数字人拓扑相同。
29.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-14中任一项所述的方法。
30.一种存储有计算机指令的非瞬时计算机可存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-14中任一项所述的方法。
31.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-14中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311155402.4A CN117132713A (zh) | 2023-09-07 | 2023-09-07 | 模型训练方法、数字人驱动方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311155402.4A CN117132713A (zh) | 2023-09-07 | 2023-09-07 | 模型训练方法、数字人驱动方法及相关装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117132713A true CN117132713A (zh) | 2023-11-28 |
Family
ID=88859837
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311155402.4A Pending CN117132713A (zh) | 2023-09-07 | 2023-09-07 | 模型训练方法、数字人驱动方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117132713A (zh) |
-
2023
- 2023-09-07 CN CN202311155402.4A patent/CN117132713A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11302064B2 (en) | Method and apparatus for reconstructing three-dimensional model of human body, and storage medium | |
US10679046B1 (en) | Machine learning systems and methods of estimating body shape from images | |
US20200257891A1 (en) | Face Reconstruction from a Learned Embedding | |
EP3992919B1 (en) | Three-dimensional facial model generation method and apparatus, device, and medium | |
CN111714885B (zh) | 游戏角色模型生成、角色调整方法、装置、设备及介质 | |
CN111598998A (zh) | 三维虚拟模型重建方法、装置、计算机设备和存储介质 | |
WO2022057526A1 (zh) | 三维模型重建方法、三维重建模型的训练方法和装置 | |
CN114820905B (zh) | 虚拟形象生成方法、装置、电子设备及可读存储介质 | |
JP2023545200A (ja) | パラメータ推定モデルの訓練方法、パラメータ推定モデルの訓練装置、デバイスおよび記憶媒体 | |
CN113111861A (zh) | 人脸纹理特征提取、3d人脸重建方法及设备及存储介质 | |
JP2024004444A (ja) | 3次元顔再構成モデルトレーニング、3次元顔イメージ生成方法及び装置 | |
CN115578515B (zh) | 三维重建模型的训练方法、三维场景渲染方法及装置 | |
CN112102480B (zh) | 图像数据处理方法、装置、设备以及介质 | |
CN111028354A (zh) | 一种基于图像序列的模型形变人脸三维重建方案 | |
CN116977522A (zh) | 三维模型的渲染方法、装置、计算机设备和存储介质 | |
CN113313631B (zh) | 图像渲染方法和装置 | |
WO2022179603A1 (zh) | 一种增强现实方法及其相关设备 | |
WO2024174422A1 (zh) | 模型的生成方法及装置、电子设备、存储介质 | |
CN111754431B (zh) | 一种图像区域替换方法、装置、设备及存储介质 | |
CN116524162A (zh) | 三维虚拟形象迁移方法、模型更新方法及相关设备 | |
CN116342782A (zh) | 生成虚拟形象渲染模型的方法和装置 | |
CN117745915B (zh) | 一种模型渲染方法、装置、设备及存储介质 | |
CN114049442A (zh) | 三维人脸视线计算方法 | |
CN116433812B (zh) | 利用2d人脸图片生成虚拟人物的方法和装置 | |
EP2260403B1 (en) | Mesh transfer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |