CN116630491A - 动画生成方法和存储介质 - Google Patents
动画生成方法和存储介质 Download PDFInfo
- Publication number
- CN116630491A CN116630491A CN202310509356.7A CN202310509356A CN116630491A CN 116630491 A CN116630491 A CN 116630491A CN 202310509356 A CN202310509356 A CN 202310509356A CN 116630491 A CN116630491 A CN 116630491A
- Authority
- CN
- China
- Prior art keywords
- facial
- image
- parameters
- target object
- expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 109
- 230000001815 facial effect Effects 0.000 claims abstract description 629
- 238000009877 rendering Methods 0.000 claims abstract description 116
- 238000012545 processing Methods 0.000 claims abstract description 60
- 230000003190 augmentative effect Effects 0.000 claims abstract description 10
- 230000008921 facial expression Effects 0.000 claims description 126
- 238000012549 training Methods 0.000 claims description 37
- 230000004044 response Effects 0.000 claims description 24
- 230000000007 visual effect Effects 0.000 claims description 21
- 230000009466 transformation Effects 0.000 claims description 18
- 238000002372 labelling Methods 0.000 claims description 9
- 239000013585 weight reducing agent Substances 0.000 claims 1
- 238000003672 processing method Methods 0.000 description 27
- 238000010586 diagram Methods 0.000 description 26
- 238000004422 calculation algorithm Methods 0.000 description 21
- 230000008569 process Effects 0.000 description 19
- 230000003287 optical effect Effects 0.000 description 14
- 230000000694 effects Effects 0.000 description 13
- 230000033001 locomotion Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000011176 pooling Methods 0.000 description 5
- 230000000903 blocking effect Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 239000003795 chemical substances by application Substances 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000006073 displacement reaction Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 210000003128 head Anatomy 0.000 description 2
- 210000004373 mandible Anatomy 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 241000190070 Sarracenia purpurea Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/005—General purpose rendering architectures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/006—Mixed reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
- G06V40/176—Dynamic expression
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Computer Graphics (AREA)
- Computer Hardware Design (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Processing Or Creating Images (AREA)
Abstract
本申请公开了一种动画生成方法和存储介质。其中,该方法包括:采集位于真实世界中的目标对象的原始图像,其中,原始图像至少包括:覆盖在目标对象面部的面部图像;调用面部参数识别模型,对原始图像中面部图像的参数进行联合识别,至少得到目标对象的面部动态表情参数和面部姿态参数;基于面部动态表情参数将虚拟对象的初始表情渲染为表情动画,其中,虚拟对象为目标对象映射在虚拟世界中的对象;基于面部姿态参数对表情动画进行渲染,得到目标对象在虚拟世界中的虚拟形象的面部动画。本申请可以应用于虚拟现实、增强现实方面的人脸重建领域,解决了面部图像处理效率低的技术问题。
Description
技术领域
本申请涉及虚拟现实、增强现实方面的人脸重建领域,具体而言,涉及一种动画生成方法和存储介质。
背景技术
随着计算机技术的发展,表情动画的应用越来越广泛,表情估计算法主要通过两个模型分两个阶段来完成,其中一个模型用于基于面部图像完成面部关键点标注和姿态估计,另一个模型用于基于面部图像完成表情估计,流程较为复杂,计算量较大,存在面部图像处理效率低的技术问题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种动画生成方法和存储介质,以至少解决面部图像处理效率低的技术问题。
根据本申请实施例的一个方面,提供了一种动画生成方法。该方法可以包括:采集位于真实世界中的目标对象的原始图像,其中,原始图像至少包括:覆盖在目标对象面部的面部图像;调用面部参数识别模型,对原始图像中面部图像的参数进行联合识别,至少得到目标对象的面部动态表情参数和面部姿态参数;基于面部动态表情参数将虚拟对象的初始表情渲染为表情动画,其中,虚拟对象为目标对象映射在虚拟世界中的对象;基于面部姿态参数对表情动画进行渲染,得到目标对象在虚拟世界中的虚拟形象的面部动画。
根据本申请实施例的一个方面,提供了一种面部图像的处理方法。该方法可以包括:采集位于真实世界中的目标对象的原始图像,其中,原始图像至少包括:覆盖在目标对象面部的面部图像;调用面部参数识别模型,对原始图像中面部图像的参数进行联合识别,至少得到目标对象的面部表情参数和面部姿态参数;基于面部表情参数将虚拟对象的初始表情渲染为表情动画,其中,虚拟对象为目标对象映射在虚拟世界中的对象;将具有表情动画的虚拟对象,以面部姿态参数对应的面部姿态渲染到面部图像上,得到目标对象在虚拟世界中的虚拟形象。
根据本申请实施例的另一方面,还提供了一种面部图像的处理方法。该方法可以包括:响应作用于操作界面上的输入指令,在操作界面上显示位于真实世界中的目标对象的原始图像,其中,原始图像至少包括:覆盖在目标对象面部的面部图像;响应作用于操作界面上的渲染指令,在操作界面上渲染显示目标对象在虚拟世界中的虚拟形象,其中,虚拟形象为将具有表情动画的虚拟对象,以目标对象的面部姿态参数对应的面部姿态渲染到面部图像上而得到,表情动画为基于目标对象的面部表情参数将虚拟对象的初始表情渲染得到,虚拟对象为目标对象映射在虚拟世界中的对象,面部姿态参数和面部表情参数为使用面部参数识别模型对原始图像中面部图像的参数进行联合识别得到。
根据本申请实施例的另一方面,还提供了一种面部图像的处理方法。该方法可以包括:响应作用于虚拟现实VR设备或增强现实AR设备的操作界面上的图像输入指令,在VR设备或AR设备的呈现画面上展示真实世界中的目标对象的原始图像,其中,原始图像至少包括:覆盖在目标对象面部的面部图像;响应作用于操作界面上的渲染指令,驱动VR设备或AR设备在呈现画面上展示目标对象在虚拟世界中的虚拟形象,其中,虚拟形象为将具有表情动画的虚拟对象,以目标对象的面部姿态参数对应的面部姿态渲染到面部图像上而得到,表情动画为基于目标对象的面部表情参数将虚拟对象的初始表情渲染得到,虚拟对象为目标对象映射在虚拟世界中的对象,面部姿态参数和面部表情参数为使用面部参数识别模型对原始图像中面部图像的参数进行联合识别得到。
根据本申请实施例的另一方面,还提供了一种面部图像的处理方法。该方法可以包括:通过调用第一接口调取位于真实世界中的目标对象的原始图像,其中,第一接口包括第一参数,第一参数的参数值为原始图像,原始图像至少包括:覆盖在目标对象面部的面部图像;调用面部参数识别模型,对原始图像中面部图像的参数进行联合识别,至少得到目标对象的面部表情参数和面部姿态参数;基于面部表情参数将虚拟对象的初始表情渲染为表情动画,其中,虚拟对象为目标对象映射在虚拟世界中的对象;将具有表情动画的虚拟对象表情动画,以面部姿态参数对应的面部姿态渲染到面部图像上,得到目标对象在虚拟世界中的虚拟形象;通过调用第二接口输出虚拟形象,其中,第二接口包括第二参数,第二参数的参数值至少为虚拟形象。
根据本申请实施例的另一方面,还提供了一种动画生成方法。该方法可以包括:响应作用于操作界面上的输入指令,在操作界面上显示输入指令对应的输入信息,其中,输入信息用于表示需要生成位于真实世界中的目标对象在虚拟世界中的虚拟形象的面部动画的需求信息,且包括目标对象的原始图像,原始图像至少包括:覆盖在目标对象面部的面部图像;响应作用于操作界面上的反馈指令,在操作界面上至少显示与输入信息具有问答关系的反馈结果,其中,反馈结果用于表示基于目标对象的面部姿态参数对目标对象的表情动画进行渲染而得到的面部动画,表情动画为基于目标对象的面部动态表情参数对虚拟对象的初始表情渲染得到,虚拟对象为目标对象映射在虚拟世界中的对象,面部动态表情参数和面部姿态参数为使用面部参数识别模型对原始图像中面部图像的参数进行联合识别而得到。
根据本申请实施例的另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质包括存储的程序,其中,在程序处理器运行时控制计算机存储介质所在设备执行动画生成方法的步骤。
根据本申请实施例的另一方面,还提供了一种电子设备,包括:存储器和处理器;存储器用于存储计算机可执行指令,处理器用于执行计算机可执行指令,该计算机可执行指令被处理器执行时实现动画生成方法的步骤。
在本申请实施例中,通过采集位于真实世界中的目标对象的原始图像,进而调用面部参数识别模型,对原始图像中的面部图像的参数进行联合识别,至少得到目标对象的面部动态表情参数和面部姿态参数;基于面部动态表情参数将虚拟对象的初始表情渲染为表情动画,并基于面部姿态参数对表情动画进行渲染,得到目标对象在虚拟世界中的虚拟形象的面部动画。也就是说,在本申请实施例中,可以通过一个面部参数识别模型对原始图像中面部图像的参数进行联合识别,可以得到面部动态表情参数和面部姿态参数,而无需利用两个模型分别获取,提升了面部参数获取效率,基于获取到的面部动态表情参数可以将虚拟对象的初始表情渲染为表情动画,进而基于面部姿态参数对表情动画进行渲染,即可得到目标对象在虚拟世界中的虚拟形象的面部动画,达到了简化流程,减少计算量的目的,实现了提升面部图像的处理效率的技术效果,从而解决了面部图像处理效率低的技术问题。
容易注意到的是,上面的通用描述和后面的详细描述仅仅是为了对本申请进行举例和解释,并不构成对本申请的限定。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种用于实现动画生成方法的示意图;
图2是根据本申请实施例的一种动画生成方法的计算环境的结构框图;
图3是根据本申请实施例的一种动画生成方法的流程图;
图4是根据本申请实施例的一种面部图像的处理方法的流程图;
图5是根据本申请实施例提供的一种面部图像被遮挡的示意图;
图6是根据本申请实施例的一种面部图像的处理方法的流程图;
图7是根据本申请实施例的一种面部图像的处理方法的流程图;
图8是根据本申请实施例的一种面部图像的处理方法的流程图;
图9是根据本申请实施例的一种动画生成方法的流程图;
图10是根据本申请实施例的一种面部图像的处理方法的流程图;
图11是根据本申请实施例的一种利用面部参数识别模型估计目标对象的面部参数的示意图;
图12是根据本申请实施例的一种模型结构示意图;
图13是根据本申请实施例的一种训练数据标记的示意图;
图14是根据本申请实施例的一种动画生成装置的示意图;
图15是根据本申请实施例的一种面部图像的处理装置的示意图;
图16是根据本申请实施例的一种面部图像的处理装置的示意图;
图17是根据本申请实施例的一种面部图像的处理装置的示意图;
图18是根据本申请实施例的一种面部图像的处理装置的示意图;
图19是根据本申请实施例的一种动画生成装置的示意图;
图20是根据本申请实施例的一种计算机终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
三维形变模型(Three Dimensional Morphable models,简称为3DMM),为三维可变形人脸模型,可以用于三维人脸重建;
人脸重建(Face Reconstruction,简称为FR),用于基于单目相机采集的图像,重建出人脸三维模型;
结构重参数化(Structural re-parameterization),首先构造一系列结构(一般用于训练),该系列结构对应一组参数,将参数等价转换为另一组参数(一般用于推理),从而将这一系列结构等价转换为另一系列结构;
光流算法(Lucas Kanade,简称为LK),一种两帧差分的光流估计算法,用以在图像空间内评估物体的运动;
六自由度(Six Degrees of Freedom,简称为6DOF),描述刚性物体在空间内的运动,包含3个方向的平移和3个方向的旋转。
实施例1
根据本申请实施例,提供了一种面部图像采集的处理方法,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本申请实施例的一种用于实现动画生成方法的虚拟现实设备的硬件环境的示意图。如图1所示,虚拟现实设备104与终端106相连接,终端106与服务器102通过网络进行连接,上述虚拟现实设备104并不限定于:虚拟现实头盔、虚拟现实眼镜、虚拟现实一体机等,上述终端104并不限定于PC、手机、平板电脑等,服务器102可以为媒体文件运营商对应的服务器,上述网络包括但不限于:广域网、城域网或局域网。
可选地,该实施例的虚拟现实设备104包括:存储器、处理器和传输装置。存储器用于存储应用程序,该应用程序可以用于执行面部图像的处理方法,通过采集位于真实世界中目标对象的原始图像,进而调用面部参数识别模型,对原始图像中面部图像的参数进行联合识别,至少得到目标对象的面部动态表情参数和面部姿态参数;基于面部动态表情参数将虚拟对象的初始表情渲染为表情动画,其中,虚拟对象为目标对象映射在虚拟世界中的对象;基于面部姿态参数对表情动画进行渲染,得到目标对象在虚拟世界中的虚拟形象的面部动画。也就是说,在本申请实施例中可以通过一个面部参数识别模型,对原始图像中面部图像的参数进行联合识别,进而得到面部动态表情参数和面部姿态参数,而无需利用两个模型分别获取,提升了面部参数的获取效率,基于获取到的面部动态表情参数可以将虚拟对象的初始表情渲染为表情动画,进而基于面部姿态参数对表情动画进行渲染,即可得到目标对象在虚拟世界中的虚拟形象的面部动画,提升了面部图像的处理效率,从而解决了面部图像处理效率低的技术问题,达到了简化流程,减少计算量的目的。
该实施例的终端可以用于执行在虚拟现实(Virtual Reality,简称为VR)设备或增强现实(Augmented Reality,简称为AR)设备的呈现画面上展示真实世界中的目标对象的原始图像;并向虚拟现实设备104发送渲染指令,虚拟现实设备104在接收到渲染指令后,可以在呈现画面上展示目标对象在虚拟世界中的虚拟形象。
可选地,该实施例的虚拟现实设备104带有的眼球追踪的头戴显示器(Head MountDisplay,简称为HMD),头显与眼球追踪模块与上述实施例中的作用相同,也即,HMD头显中的屏幕,用于显示实时的画面,HMD中的眼球追踪模块,用于获取用户眼球的实时运动轨迹。该实施例的终端通过跟踪系统获取用户在真实三维空间的位置信息与运动信息,并计算出用户头部在虚拟三维空间中的三维坐标,以及用户在虚拟三维空间中的视野朝向。
图1示出的硬件结构框图,不仅可以作为上述AR/VR设备(或移动设备)的示例性框图,还可以作为上述服务器的示例性框图,一种可选实施例中,图2以框图示出了使用上述图1所示的AR/VR设备(或移动设备)作为计算环境201中计算节点的一种实施例。图2是根据本申请实施例的一种动画生成方法的计算环境的结构框图,如图2所示,计算环境201包括运行在分布式网络上的多个(图中采用210-1,210-2,…,来示出)计算节点(如服务器)。不同计算节点都包含本地处理和内存资源,终端用户202可以在计算环境201中远程运行应用程序或存储数据。应用程序可以作为计算环境201中的多个服务220-1,220-2,220-3和220-4进行提供,分别代表服务“A”,“D”,“E”和“H”。
终端用户202可以通过客户端上的web浏览器或其他软件应用程序提供和访问服务,在一些实施例中,可以将终端用户202的供应和/或请求提供给入口网关230。入口网关230可以包括一个相应的代理来处理针对服务(计算环境201中提供的一个或多个服务)的供应和/或请求。
服务是根据计算环境201支持的各种虚拟化技术来提供或部署的。在一些实施例中,可以根据基于虚拟机(Virtual Machine,简称为VM)的虚拟化、基于容器的虚拟化和/或类似的方式提供服务。基于虚拟机的虚拟化可以是通过初始化虚拟机来模拟真实的计算机,在不直接接触任何实际硬件资源的情况下执行程序和应用程序。在虚拟机虚拟化机器的同时,根据基于容器的虚拟化,可以启动容器来虚拟化整个操作系统(OperatingSystem,简称为OS),以便多个工作负载可以在单个操作系统实例上运行。
在基于容器虚拟化的一个实施例中,服务的若干容器可以被组装成一个Pod(例如,Kubernetes Pod)。举例来说,如图2所示,服务220-2可以配备一个或多个Pod 240-1,240-2,…,240-N(统称为Pod)。Pod可以包括代理245和一个或多个容器242-1,242-2,…,242-M(统称为容器)。Pod中一个或多个容器处理与服务的一个或多个相应功能相关的请求,代理245通常控制与服务相关的网络功能,如路由、负载均衡等。其他服务也可以为类似于Pod的Pod。
在操作过程中,执行来自终端用户202的用户请求可能需要调用计算环境201中的一个或多个服务,执行一个服务的一个或多个功能需要调用另一个服务的一个或多个功能。如图2所示,服务“A”220-1从入口网关230接收终端用户202的用户请求,服务“A”220-1可以调用服务“D”220-2,服务“D”220-2可以请求服务“E”220-3执行一个或多个功能。
上述的计算环境可以是云计算环境,资源的分配由云服务提供上管理,允许功能的开发无需考虑实现、调整或扩展服务器。该计算环境允许开发人员在不构建或维护复杂基础设施的情况下执行响应事件的代码。服务可以被分割完成一组可以自动独立伸缩的功能,而不是扩展单个硬件设备来处理潜在的负载。
在上述运行环境下,本申请提供了如图3所示的动画生成方法。需要说明的是,该实施例的动画生成方法可以由图1所示实施例的移动终端执行。图3是根据本申请实施例的一种动画生成方法的流程图。如图3所示,该方法可以包括如下步骤:
步骤S301,采集位于真实世界中的目标对象的原始图像,其中,原始图像至少包括:覆盖在目标对象面部的面部图像。
在本申请上述步骤S301提供的技术方案中,可以利用图像采集设备采集位于真实世界中的目标对象的原始图像,其中,原始图像至少包括目标对象的面部图像。
在该实施例中,上述图像采集设备可以为单目图像采集设备,比如,该单目图像采集设备可以为单目相机,其中,该单目相机可以为部署在移动设备中的相机,基于此,可以利用移动设备中的单目相机采集位于真实世界中的目标对象的原始图像,其中,该原始图像中除包括目标对象的面部图像外,还可以包括目标对象所处的环境图像,此处不做具体限制。
步骤S302,调用面部参数识别模型,对原始图像中面部图像的参数进行联合识别,至少得到目标对象的面部动态表情参数和面部姿态参数。
在本申请上述步骤S302的技术方案中,在采集到位于真实世界的目标对象的原始图像之后,可以调用面部参数识别模型,对原始图像中面部图像的参数进行联合识别,至少得到目标对象的面部动态表情参数和面部姿态参数,而无需利用两个模型分阶段获取面部动态表情参数和面部姿态参数,其中,面部动态表情参数用于表示具有动态效果的面部表情的参数,面部姿态参数用于表示目标对象的面部动作对应的参数,面部参数识别模型为预先基于图像样本数据和图像样本数据对应的参数识别结果训练好的模型。
在该实施例中,联合识别用于指示通过一个面部参数识别模型实现对原始图像中目标对象的面部动态表情参数和面部姿态参数的识别,无需利用两个模型分阶段获取目标对象的面部动态表情参数和面部姿态参数。需要说明的是,面部参数识别模型在对目标对象的原始图像进行联合识别之前,可以先对该原始图像按照面部参数识别模型的输入尺寸要求进行裁剪,进而对裁剪后的面部图像进行识别,得到目标对象的面部表情参数和面部姿态参数,其中,面部动态表情参数中包括目标对象的面部表情混合变形(blendshape)系数,面部姿态参数包括目标对象的面部6自由度(6Dof)系数。
举例而言,可以先利用人脸检测模型对目标对象的原始图像进行识别,其中,人脸检测模型可以识别原始图像中包括的目标对象的面部图像,并将识别到的面部图像用标记框进行标记,该标记框为人脸的包围框,该标记框标记了人脸在原始图像所在图像坐标系下人脸的左上角坐标和右下角坐标。之后利用标记框所标记的坐标计算得到变换矩阵,并利用变换矩阵对原始图像做仿真变换,得到以人脸为中心的裁剪(crop)图像,该裁剪图像中主要包括目标对象的面部图像,去除了背景等无关内容的干扰,使得面部参数识别模型对图像进行识别时,可以专注与目标对象的面部区域。
在得到裁剪图像之后,可以将裁剪图像输入至面部参数识别模型中,面部参数识别模型在对裁剪图像进行识别后,可以输出目标对象的面部动态表情参数和面部姿态参数,其中,该面部表情参数用于指示目标对象的面部表情变形程度,面部姿态参数用于指示目标对象的人脸在x、y、z轴上6个自由度的姿态运动,包含三维坐标(Tx,Ty,Tz)和旋转坐标(Rx,Ry,Rz)。
步骤S303,基于面部动态表情参数将虚拟对象的初始表情渲染为表情动画,其中,虚拟对象为目标对象映射在虚拟世界中的对象。
在本申请上述步骤S303的技术方案中,由于面部动态表情参数用于表示具有动态效果的面部表情的参数,基于此,在得到目标对象的面部动态表情参数之后,可以基于面部动态表情参数将虚拟对象的初始表情渲染为表情动画,其中,虚拟对象为目标对象映射在虚拟世界中的对象。
在该实施例中,虚拟对象可以为真实世界中的目标对象映射在虚拟世界中的对象,该虚拟对象为虚拟世界中的物理模型,可以为指虚拟世界的物理意义上的面部模型,基于此,在得到目标对象的面部动态表情参数之后,可以基于目标对象的面部动态表情参数对虚拟对象进行渲染,以将虚拟对象的初始表情渲染为与目标对象的面部灯牌动态表情相对应的表情动画。
步骤S304,基于面部姿态参数对表情动画进行渲染,得到目标对象在虚拟世界中的虚拟形象的面部动画。
在本申请上述步骤S304的技术方案中,在得到具有表情动画的虚拟对象之后,可以进一步基于面部姿态参数对表情动画进行渲染,进而得到目标对象在虚拟世界中的虚拟形象。
在该实施例中,由步骤S302的介绍可知,面部姿态参数用于指示目标对象的人脸在x、y、z轴上6个自由度的姿态运动,包含三维坐标(Tx,Ty,Tz)和旋转坐标(Rx,Ry,Rz),基于此,可以先根据面部姿态参数确定目标对象的面部姿态。例如,可以基于三维空间坐标系与图像像素坐标系之间的转换关系,确定出面部姿态参数所对应的三维坐标和旋转坐标在图像像素坐标系下对应的坐标,进而基于目标对象的面部姿态参数在图像像素坐标系下的坐标确定目标对象在图像坐标系下对应的面部姿态,并将具有表情动画的虚拟对象,以该面部姿态渲染到目标对象的面部图像上,得到目标对象在虚拟世界中的虚拟形象的面部动画,以完成目标对象的真实人脸和姿态复刻。
作为一种可选的实施方式,步骤S304,基于面部姿态参数对表情动画进行渲染,得到目标对象在虚拟世界中的虚拟形象的面部动画,包括:将具有表情动画的虚拟对象,渲染到面部图像中与面部姿态参数对应的位置中,得到面部动画。
在该实施例中,可以基于三维空间坐标系与图像像素坐标系之间的转换关系,确定面部姿态参数所对应的三维坐标和旋转坐标在图像像素坐标系下对应的坐标,进而基于目标对象的面部姿态参数在图像像素坐标系下的坐标确定出目标对象的面部姿态参数在面部图像中对应的位置,进而将具有表情动画的虚拟对象,渲染到面部图像中与面部姿态参数对应的位置中,得到面部动画。
基于上述实施例步骤S301至步骤S304,可以为一种人脸表情姿态实时联合估计方法,通过采集位于真实世界中的目标对象的原始图像,进而调用面部参数识别模型,对原始图像中的面部图像的参数进行联合识别,至少得到目标对象的面部动态表情参数和面部姿态参数;基于面部动态表情参数将虚拟对象的初始表情渲染为表情动画,并基于面部姿态参数对表情动画进行渲染,得到目标对象在虚拟世界中的虚拟的面部动画。也就是说,在本申请实施例中,可以通过一个面部参数识别模型对原始图像中面部图像的参数进行联合识别,可以得到面部动态表情参数和面部姿态参数,而无需利用两个模型分别获取,提升了面部参数的获取效率,基于获取到的面部动态表情参数可以将虚拟对象的初始表情渲染为表情动画,进而将具有表情动画的虚拟对象,以面部姿态参数对应的面部姿态渲染到面部图像上,即可得到目标对象在虚拟世界中的虚拟形象的面部动画,达到了简化流程,减少计算量的目的,实现了提升面部图像的处理效率的技术效果,从而解决了面部图像处理效率低的技术问题。
在上述运行环境下,本申请还提供了如图4所示的面部图像的处理方法。需要说明的是,该实施例的面部图像的处理方法可以由图1所示实施例的移动终端执行。图4是根据本申请实施例的一种面部图像的处理方法的流程图。如图4所示,该方法可以包括如下步骤:
步骤S401,采集位于真实世界中的目标对象的原始图像,其中,原始图像至少包括:覆盖在目标对象面部的面部图像。
在本申请上述步骤S401提供的技术方案中,可以利用图像采集设备采集位于真实世界中的目标对象的原始图像,其中,原始图像至少包括目标对象的面部图像。需要说明的是,该步骤的具体实现方式可以参考前述步骤S301的介绍,此处不再赘述。
步骤S402,调用面部参数识别模型,对原始图像中面部图像的参数进行联合识别,至少得到目标对象的面部表情参数和面部姿态参数。
在本申请上述步骤S402的技术方案中,在采集到位于真实世界的目标对象的原始图像之后,可以调用面部参数识别模型,对原始图像中面部图像的参数进行联合识别,至少得到目标对象的面部表情参数和面部姿态参数,而无需利用两个模型分阶段获取面部表情参数和面部姿态参数,其中,面部表情参数中包括面部动态表情参数,如果面部表情参数为多个静态面部表情参数,则可以将多个静态面部表情参数关联以转化得到目标对象的面部动态表情参数。需要说明的是,该步骤的具体实现方式可以参考前述步骤S302的介绍,此处不再赘述。
步骤S403,基于面部表情参数将虚拟对象的初始表情渲染为表情动画,其中,虚拟对象为目标对象映射在虚拟世界中的对象。
在本申请上述步骤S403的技术方案中,在得到目标对象的面部表情参数之后,可以基于面部表情参数将虚拟对象的初始表情渲染为表情动画,其中,虚拟对象为目标对象映射在虚拟世界中的对象。需要说明的是,该步骤的具体实现方式可以参考前述步骤S303的介绍,此处不再赘述。
步骤S404,将具有表情动画的虚拟对象,以面部姿态参数对应的面部姿态渲染到面部图像上,得到目标对象在虚拟世界中的虚拟形象。
在本申请上述步骤S404的技术方案中,在得到具有表情动画的虚拟对象之后,可以进一步将具有表情动画的虚拟对象,以面部姿态参数对应的面部姿态渲染到目标对象面部的面部图像上,以得到目标对象在虚拟世界中的虚拟形象。需要说明的是,该步骤的具体实现方式可以参考前述步骤S304的介绍,此处不再赘述。
基于上述实施例步骤S401至步骤S404,可以为一种人脸表情姿态实时联合估计方法,通过采集位于真实世界中的目标对象的原始图像,进而调用面部参数识别模型,对原始图像中的面部图像的参数进行联合识别,至少得到目标对象的面部表情参数和面部姿态参数;基于面部表情参数将虚拟对象的初始表情渲染为表情动画,将具有表情动画的虚拟对象,以面部姿态参数对应的面部姿态渲染到面部图像上,得到目标对象在虚拟世界中的虚拟形象。也就是说,在本申请实施例中,可以通过一个面部参数识别模型对原始图像中面部图像的参数进行联合识别,可以得到面部表情参数和面部姿态参数,而无需利用两个模型分别获取,提升了面部参数的获取效率,基于获取到的面部表情参数可以将虚拟对象的初始表情渲染为表情动画,进而将具有表情动画的虚拟对象,以面部姿态参数对应的面部姿态渲染到面部图像上,即可得到目标对象在虚拟世界中的虚拟形象,达到了简化流程,减少计算量的目的,实现了提升面部图像的处理效率的技术效果,从而解决了面部图像处理效率低的技术问题。
下面对该实施例的上述方法进行进一步地介绍。
作为一种可选的实施方式,该方法还包括:利用面部图像样本集对第一网络结构进行训练;利用第二网络结构对训练后的第一网络结构进行推理,得到面部参数识别模型,其中,第二网络结构的参数为由第一网络结构的参数转换得到。
在该实施例中,面部参数识别模型中包括第一网格结构和第二网格结构,基于此,可以先利用面部图像样本集对第一网络结构进行训练,以实现结构重参数化解耦训练,之后,利用第二网络结构对训练后的第一网络结构进行推理,得到面部参数识别模型,其中,第二网格结构的参数为由第一网格结构的参数进行结构重参数化转换得到。
举例而言,由前述介绍可知,在利用面部参数识别模型对目标对象的原始图像进行识别之前,需要先对原始图像进行裁剪,使得目标对象的原始图像满足面部参数识别模型的算力要求,但由于裁剪会带来精度损失,因此,在对面部参数识别模型训练时,可以先利用面部图像样本集对面部参数识别模型中的第一网络结构进行训练,将第一网络结构中的单个卷积层拆分为多个分支,多个分支具有不同的卷积核尺寸以及不同的池化操作,在训练阶段,多个分支可以丰富卷积块的特征空间,增强拟合能力。在对第一网格结构训练之后,可以利用第二网格结构对训练后的第一网格结构进行推理,由于卷积核在某些情况下满足一些线性特征,因此,可以对形状一致的卷积核进行融合操作,将多个分支重新融合为一个卷积层,得到面部参数识别模型。其中,利用面部图像样本对第一网络结构进行训练,利用第二网络结构对训练后的第一网络结构进行推理,可以满足在推理计算量不变的情况下,显著增强面部参数识别模型的性能,以降低裁剪原始图像所在来的精度损失。
作为一种可选的实施方式,该方法还包括:将面部参数识别模型的骨干网络的网络层,划分为多个分支网络层;基于多个分支网络层确定第一网络结构和第二网络结构,其中,第二网络结构在对应的分支网络层上的参数为由第一网络结构在对应的分支网络层上的参数转换得到。
在该实施例中,面部参数识别模型的骨干网络中包括多个网络层,其中,该多个网络层可以为卷积层,基于此,可以将面部参数识别模型的骨干网络中的单个网络层再次划分为多个分支网络层,不同的分支网络层具有不同的卷积核尺寸和不同的池化操作,之后,基于多个分支网络层可以确定第一网络结构和第二网路结构,其中,第二网络结构在对应的分支网络层上的参数为由第一网络结构在对应的分支上的参数转换得到。
作为一种可选的实施方式,基于多个分支网络层确定第一网络结构,包括:基于多个分支网络层确定特征空间;基于特征空间构建第一网络结构。
在该实施例中,多个分支网络层可以组成一个卷积块,基于此,在将面部参数识别模型的骨干网络中的单个网络层划分为多个分支网路层之后,可以进一步确定该多个分支网络层组成的卷积块对应的特征空间,进而基于特征空间构建第一网络结构。
举例而言,在将单个网络层划分为多个分支网络层之后,由于不同的分支网络层具有不同的卷积核尺寸和不同的池化操作,因此,可以基于多个分支网络层对应的卷积核尺寸确定多个分支网络层对应的卷积块,进而确定多个卷积块对应的特征空间,并基于特征空间构建第一网络结构。
作为一种可选的实施方式,基于多个分支网络层确定第二网络结构,包括:对多个分支网络层中,具有相同卷积核的至少两个多个分支网络层进行融合,得到第二网络结构。
在该实施例中,由于多个分支网络层分别具有卷积核,因此,可以确定多个分支网络层中卷积核的形状,将形状一致的卷积核确定为相同的卷积核,进而可以将多个分支网络层中具有相同卷积核的至少两个分支网络层进行融合,得到第二网络结构,以满足减少参数量和计算量的要求,增强模型计算性能。
作为一种可选的实施方式,该方法还包括:对视觉任务网络进行裁剪,得到骨干网络,其中,视觉任务网络用于对面部图像执行视觉任务。
在该实施例中,面部参数识别模型中包括视觉任务网络,该视觉任务网格可以为移动视觉任务网络模型(mobilevit-v2),基于此,在对面部参数识别模型的第一网络结构和第二网络结构训练之前,可以先对视觉任务网格进行裁剪,得到骨干网络,使其满足移动端的算力要求,其中,视觉任务网络用于对面部图像执行视觉任务,也即,对面部图像进行识别。
作为一种可选的实施方式,利用面部图像样本集对第一网络结构进行训练,包括:将模型样本渲染至面部图像样本集,得到目标面部图像样本集;利用目标面部图像样本集对第一网络结构进行训练。
在该实施例中,面部图像样本集中包括多张面部图像,为了增强面部参数识别模型对面部图像识别的稳定性,可以将常见物品对应的模型样本渲染至面部图像样本集张的图像上,得到目标面部图像样本集,进而利用目标面部图像样本集对第一网络结构进行训练,其中,该面部图像样本集可以通过将模型样本渲染至面部图像样本集得到。
举例而言,由于在某些场景下,图像采集设备采集到的目标对象的原始图像可能被一些常见物品遮挡,基于此,为了满足人脸在戴口罩、人脸移动出屏幕或者人脸被其他物品遮挡情况下,面部参数识别模型对面部图像的稳定识别,可以将常见物品对应的三维(Three Dimensional,简称为3D)模型随机渲染至面部图像样本集中的面部图像上,得到多张被遮挡的面部图像,多张被遮挡的面部图像可以构成目标面部图像样本集,其中,常见物品可以为水杯、手机、电脑、帽子、雨伞以及人手等,此处不做具体限制。
图5是根据本申请实施例提供的一种面部图像被遮挡的示意图,如图5所示,当该人脸图像被多种常见物品遮挡时,可以分别将遮挡物品的3D模型渲染至面部图像上,以得到多张被遮挡的面部图像,该多张被遮挡的目标面部图像构成目标面部图像集,在得到目标面部图像集之后,可以利用该目标图像集对第一网络结构进行训练。通过将常见物品对应的3D模型渲染至面部图像中,即可得到目标面部图像,无需重新采集数据,极大地提升了数据获取效率。
作为一种可选的实施方式,利用目标面部图像样本集对第一网络结构进行训练,包括:在目标面部图像样本集中,确定模型样本对面部图像样本集进行遮挡的遮挡区域;在目标面部图像样本集中,对遮挡区域对应的面部表情参数进行归零处理,得到目标面部图像样本集中除遮挡区域之外的区域对应的面部表情参数;利用目标面部图像样本集中除遮挡区域之外的区域对应的面部表情参数,对第一网络结构进行训练。
在该实施例中,目标面部图像样本集中包括多种被遮挡的面部图像,该多张被遮挡的面部图像是通过将常见物品的3D模型渲染至面部图像上得到的,由于3D模型的边界较为明确,因此,基于目标面部图像样本集中的被遮挡图像可以清楚的确定出人脸的被遮挡区域,进而还可以在被遮挡区域中增加一个遮挡标记,遮挡标记用于标记被遮挡的人脸五官,其中,如图5所示,该遮挡标记可以为关键点标记,根据被遮挡部位的不同,该遮挡标记可以为轮廓关键点、嘴部关键点、鼻部关键点、眼部关键点以及眉部关键点等。依据该方法可以在目标面部图像样本集中包括的多张被遮挡图像中增加遮挡标记。
在确定出目标面部图像样本集中包括的多张被遮挡图像的被遮挡区域之后,可以对多张被遮挡图像的被遮挡区域对应的面部表情参数进行归零处理,得到目标面部图像样本集中除遮挡区域之外的区域对应的面部表情参数,进而利用目标面部图像样本集中除遮挡区域之外的区域对应的面部表情参数,对第一网络结构进行训练。
作为一种可选的实施方式,利用面部图像样本集对第一网络结构进行训练,包括:对面部图像样本集中第一部位图像位置进行标注,其中,与第一部位图像位置刚性连接的第二部位图像位置用于确定面部图像样本集中第三部位图像对应的表情系数;利用标注了第一部位图像位置的面部图像样本集,对第一网络结构进行训练。
在该实施例中,在利用面部图像样本集对第一网络结构进行训练时,可以先对面部图像样本集中的第一部位图像位置进行标注,由于对牙齿位置的监督,可以显著提升嘴部开合等表情系数的估计精度,基于此,该第一部位面部图像位置可以为面部图像中的牙齿位置,其中,可以利用标记点来对面部图像中的牙齿进行标记。
在对面部图像样本集中的多张面部图像中的第一部位图像位置进行标注之后,可以进一步确定与第一部位图像位置刚性连接的第二部位图像位置,由于第一图像位置为牙齿位置,与牙齿刚性连接的部位为下颚,因此,可以将与第一部位图像位置刚性连接的第二部位图像位置确定为下颚位置。在确定出第二部位图像位置之后,可以进一步确定面部图像样本集中第三部位图像对应的表情系数,并利用标注了第一部位图像位置的面部图像样本集,对第一网络结构进行训练。
作为一种可选的实施方式,调用面部参数识别模型,对原始图像中面部图像的参数进行联合识别,至少得到目标对象的面部表情参数和面部姿态参数,包括:调用面部参数识别模型,对面部图像的参数进行联合识别,得到目标对象的面部表情参数、面部姿态参数和面部形状参数;该方法还包括:基于面部表情参数、面部形状参数和表情动画,确定与目标对象的面部尺寸相匹配的三维关键点;对面部姿态参数进行刚体变换,且基于变换后的面部姿态参数和三维关键点,确定面部图像的二维像素坐标;基于关键点和二维像素坐标,确定面部姿态。
在该实施例中,调用面部参数识别模型,对原始图像中的面部图像的参数进行联合识别,可以得到目标对象的面部表情参数,面部姿态参数和面部形状参数,其中,面部表情参数主要包括人脸表情blendshape系数,面部姿态参数主要包括人脸在x、y、z轴上6个自由度的姿态运动,可以通过位移向量和旋转向量来表示,面部形状参数主要包括人脸形变系数。需要说明的是,由于人脸表情变化时,其人脸3D关键点和2D关键点是同时发生相同形变的,基于此,面部姿态几乎不受表情变化的影响。
在确定出目标对象的面部表情参数、面部姿态参数和面部形状参数之后,可以基于面部表情参数将虚拟对象的初始表情渲染为表情动画,进而基于面部表情参数、面部形状参数和表情动画,确定与目标对象的面部尺寸相匹配的三维关键点。
举例而言,可以根据可变性人脸模型(Three Dimensional Morphable FaceModel,简称为3DMM)定义的表情基和形状基,确定面部表情参数和面部形状参数对应的表情基和形状基,在确定出表情基和形状基之后,可以通过下述公式确定与目标对象的面部尺寸相匹配的三维关键点。
其中,Bi可以用于表示形状基,αi用于表示形状系数,Ei用于表示表情基,βi用于表示表情系数,M0用于表示平均脸模型,通过线性相加就可以得到图像中人脸的3D MM模型。在得到人脸的3DMM模型之后,也即完成了物理尺度下的人脸3D模型重建,之后,可以通过预先定义的关键点索引,获取符合真实人脸尺寸的3D关键点,该真实人脸尺寸的3D关键点即为与目标对象的面部尺寸相匹配的三维关键点。
在该实施例中,还可以对面部姿态参数进行刚体变换,并基于变换后的面部姿态参数和与目标对象的面部尺寸相匹配的三维关键点,确定面部图像的二维像素坐标,并基于关键点和二维像素坐标,确定目标对象的面部姿态。
举例而言,可以将面部姿态参数通过刚体变化作用在于目标对象的面部尺寸相匹配的三维关键点上,得到目标对象的人脸的世界坐标,之后,再将该人脸的世界坐标与默认相机投影矩阵相乘,得到人脸的像素坐标,由于该人脸的像素坐标为目标对象的原始图像经过放射变换后的裁剪图像中的人脸的像素坐标,基于此,在得到人脸的像素坐标之后,可以将人脸的像素坐标进行仿射变换的逆变换,进而得到目标对象的人脸在原始图像中的像素坐标。
在得到与目标对象的面部尺寸相匹配的三维关键点以及目标对象的人脸在原始图像中的像素坐标之后,可以利用位姿估计(Perspective-n-Points,简称为PnP)算法求解目标对象的面部姿态。其中,在利用PnP算法求解目标对象的面部姿态时,可以利用以下两种方法来增强姿态估计的稳定性,例如,通过3D关键点投影关系判断关键点是否被遮挡,针对被遮挡关键点可以降低其参数PnP算法的权重,或者,通过光流算法对关键的像素坐标进行重追踪定位,以减少抖动,其中,光流算法可以为Lucas-Kanada光流算法,此处不做具体限制。
作为一种可选的实施方式,该方法还包括:响应于三维关键点处于遮挡状态,降低三维关键点对应的权重,其中,权重用于表示三维关键点对二维像素坐标的重要程度;基于变换后的面部姿态参数和三维关键点,确定面部图像的二维像素坐标,包括:基于变换后的面部姿态参数和降低权重后的三维关键点,确定二维像素坐标。
在该实施例中,在利用PnP算法求解目标对象的面部姿态时,可以先判断目标对象的人脸三维关键点是否被遮挡,并基于人脸三维关键点的遮挡状态来确定参与PnP算法的三维关键点的权重。当响应于三维关键点处于遮挡状态,可以降低三维关键点在参与PnP算法计算时的权重,其中,权重用于表示三维关键点对二维像素坐标的重要程度。
在降低处于遮挡状态的人脸三维关键点的权重之后,可以基于变换后的面部姿态参数和降低权重之后的三维关键点,确定面部的二维像素坐标。
作为一种可选的实施方式,该方法还包括:对三维关键点进行重追踪定位;基于变换后的面部姿态参数和三维关键点,确定面部图像的二维像素坐标,包括:基于变换后的面部姿态参数和定位后的三维关键点,确定二维像素坐标。
在该实施例中,可以通过光流算法(Lucas-Kanada)对三维关键点进行重追踪定位,得到定位后的三维关键点,之后,可以基于变换后的面部姿态参数和定位后的三维关键点确定二维像素坐标。
举例而言,在利用Lucas-Kanada光流算法对三维关键点进行重追踪定位时,当人脸像素强度在连续两帧图像中没有发生变化,且相邻像素具有同的运动信息时,Lucas-Kanada光流算法可以跟踪相邻两帧图像中的一个像素点或一组像素点的移动的速度和方向,进而预测像素点接下来的移动位置。在初始帧,可以通过面部参数识别模型预测初始帧的关键点,对第二帧,可以输入的初始帧和初始关键点的坐标,Lucas-Kanada光流算法可以预测出第二帧图像中关键点的位置,结合面部参数识别模型预测的关键点位置进行加权平均,以减少模型预测的误差,减少关键点的抖动。
在上述步骤中,可以通过光流算法对三维关键点进行重追踪定位,依次减少模型预测的误差,减少关键点的抖动,使得确定出的目标对象的面部姿态更加的准确。
本申请还从人机交互侧提供了另一种面部图像的处理方法。图6是根据本申请实施例的一种面部图像的处理方法的流程图。如图6所示,该方法可以包括如下步骤:
步骤S601,响应作用于操作界面上的输入指令,在操作界面上显示位于真实世界中的目标对象的原始图像。
在本申请上述步骤S601的技术方案中,用于执行面部图像处理方法的计算机设备包括操作界面,操作界面上可以包括输入控件,当响应于目标对象对该输入控件的选择操作,即响应到作用于操作界面上的输入指令,可以在操作界面上显示为真实世界中的目标对象的原始图像,其中,原始图像由图像采集设备采集得到,其中,该原始图像中包括覆盖在目标对象面部的面部图像。
步骤S602,响应作用于操作界面上的渲染指令,在操作界面上渲染显示目标对象在虚拟世界中的虚拟形象。
在本申请上述步骤S602的技术方案中,操作界面上还可以包括渲染控件,基于此,当响应于目标对象对渲染控件的选择操作,也即响应到作用于操作界面上的渲染指令,可以在操作界面上渲染显示目标对象在虚拟世界中的虚拟形象,其中,虚拟形象为将具有表情动画的虚拟对象,以目标对象的面部姿态参数对应的面部姿态渲染到面部图像上而得到,表情动画为基于目标对象的面部表情参数将虚拟对象的初始表情渲染得到,虚拟对象为目标对象映射在虚拟世界中的对象,面部姿态参数和面部表情参数为使用面部参数识别模型对原始图像中面部图像的参数进行联合识别得到。
基于上述实施例步骤S601至步骤S602所公开的方案,当响应到作用于操作界面上的输入指令,可以在操作界面上显示位于真实世界中的目标对象的原始图像,当响应于作用于操作界面上的渲染指令,可以在操作界面上渲染显示目标对象的虚拟形象。也就是说,在本申请实施例中,通过在操作界面上响应输入指令和渲染指令,即可完成构建目标对象在虚拟世界中的虚拟形象的目的,操作较为简单,极大的提升了面部图像的处理效率的技术效果,从而解决了面部图像处理效率低的技术问题。
根据本申请实施例,还提供了一种可以应用于虚拟现实VR设备、增强现实AR设备等虚拟现实场景下的面部图像的处理方法,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图7是根据本申请实施例的一种面部图像的处理方法的流程图。如图7所示,该方法可以包括如下步骤:
步骤S701,响应作用于虚拟现实VR设备或增强现实AR设备的操作界面上的图像输入指令,在VR设备或AR设备的呈现画面上展示真实世界中的目标对象的原始图像。
在本申请上述步骤S701的技术方案中,虚拟现实VR设备或增强显示AR设备的操作界面中包括输入控件,基于此,当响应到目标对象对该输入控件的选择操作,则认为响应到作用于虚拟显示VR设备或增强显示AR设备的操作界面上的图像输入指令,基于此,可以在VR设备或AR设备的呈现画面上展示真实世界中的目标对象的原始图像,其中,该原始图像至少包括:覆盖在目标对象面部的面部图像。
步骤S702,响应作用于操作界面上的渲染指令,驱动VR设备或AR设备在呈现画面上展示目标对象在虚拟世界中的虚拟形象。
在本申请上述步骤S702的技术方案中,虚拟现实VR设备或增强显示AR设备的操作界面中还可以包括渲染控件,当响应于目标对象对该渲染控件的选择操作,也即响应到作用于操作界面上的渲染指令,在这种情况下,可以驱动VR设备或AR设备在呈现画面上展示目标对象在虚拟世界中的虚拟形象,其中,虚拟形象为将具有表情动画的虚拟对象,以目标对象的面部姿态参数对应的面部姿态渲染到面部图像上而得到,表情动画为基于目标对象的面部表情参数将虚拟对象的初始表情渲染得到,虚拟对象为目标对象映射在虚拟世界中的对象,面部姿态参数和面部表情参数为使用面部参数识别模型对原始图像中面部图像的参数进行联合识别得到。
基于上述实施例步骤S701至步骤S702所公开的方案,在响应到作用于虚拟现实VR设备或增强现实AR设备的操作界面上的图像输入指令,可以在VR设备或AR设备的呈现画面上展示真实世界中的目标对象的原始图像;在响应到作用于操作界面上的渲染指令,驱动VR设备或AR设备在呈现画面上展示目标对象在虚拟世界中的虚拟形象。也就是说,在本申请实施例中,通过在操作界面上输入输入指令和渲染指令,即可完成构建目标对象在虚拟世界中的虚拟形象的目的,操作较为简单,极大的提升了面部图像的处理效率的技术效果,从而解决了面部图像处理效率低的技术问题。
根据本申请实施例,从软件服务侧(Software-as-a-Service,简称为SaaS),还提供了一种面部图像的处理方法。
图8是根据本申请实施例的一种面部图像的处理方法的流程图。如图8所示,该方法可以包括如下步骤:
步骤S801,通过调用第一接口调取位于真实世界中的目标对象的原始图像,其中,第一接口包括第一参数,第一参数的参数值为原始图像,原始图像至少包括:覆盖在目标对象面部的面部图像。
在本申请上述步骤S801的技术方案中,第一接口可以是服务器与客户端之间进行数据交互的接口,客户端可以将真实世界中的目标对象的原始图像传入第一接口中去,作为第一接口的一个第一参数,实现获取位于真实世界中的目标对象的原始图像的目的。
可选地,在该实施例中,用于执行面部图像处理方法的计算机设备可以包括第一接口,该第一接口用于调取位于真实世界中的目标对象的原始图像,其中,第一接口包括第一参数,第一参数的参数值为原始图像,原始图像至少包括:覆盖在目标对象面部的面部图像。
步骤S802,调用面部参数识别模型,对原始图像中面部图像的参数进行联合识别,至少得到目标对象的面部表情参数和面部姿态参数。
在本申请上述步骤S802的技术方案中,在调取位于真实世界中的目标对象的原始图像之后,可以调用面部参数识别模型,对原始图像中面部图像的参数进行联合识别,至少得到目标对象的面部表情参数和面部姿态参数,其中,面部表情参数用于指示目标对象的面部表情变形程度,面部姿态参数用于指示目标对象的人脸在x、y、z轴上6个自由度的姿态运动,包含三维坐标(Tx,Ty,Tz)和旋转坐标(Rx,Ry,Rz)。
步骤S803,基于面部表情参数将虚拟对象的初始表情渲染为表情动画,其中,虚拟对象为目标对象映射在虚拟世界中的对象。
在本申请上述步骤S803的技术方案中,在得到目标对象的面部表情参数之后,可以基于面部表情参数将虚拟对象的初始表情渲染为表情动画,其中,虚拟对象为目标对象映射在虚拟世界中的对象。
在该实施例中,虚拟对象为目标对象映射在虚拟世界中的对象,也即,该虚拟对象为虚拟世界中的物理模型,基于此,在得到目标对象的面部表情参数之后,可以基于目标对象的面部表情参数对虚拟对象进行渲染,以将虚拟对象的初始表情渲染为与目标对象的面部表情相对应的表情动画。
步骤S804,将具有表情动画的虚拟对象表情动画,以面部姿态参数对应的面部姿态渲染到面部图像上,得到目标对象在虚拟世界中的虚拟形象。
在本申请上述步骤S804的技术方案中,在得到具有表情动画的虚拟对象之后,可以进一步将具有表情动画的虚拟对象,以面部姿态参数对应的面部姿态渲染到面部图像上,以得到目标对象在虚拟世界中的虚拟形象。
在该实施例中,由步骤S302的介绍可知,面部姿态参数用于指示目标对象的人脸在x、y、z轴上6个自由度的姿态运动,包含三维坐标(Tx,Ty,Tz)和旋转坐标(Rx,Ry,Rz),基于此,可以先根据面部姿态参数确定目标对象的面部姿态。例如,可以基于三维空间坐标系与图像像素坐标系之间的转换关系,确定出面部姿态参数所对应的三维坐标和旋转坐标在图像像素坐标系下对应的坐标,进而基于目标对象的面部姿态参数在图像像素坐标系下的坐标确定目标对象在图像坐标系下对应的面部姿态,并将具有表情动画的虚拟对象,以该面部姿态渲染到面部图像上,得到目标对象在虚拟世界中的虚拟形象,以完成目标对象的真实人脸和姿态复刻。
步骤S805,通过调用第二接口输出虚拟形象,其中,第二接口包括第二参数,第二参数的参数值至少为虚拟形象。
在本申请上述步骤S805的技术方案中,第二接口可以是服务器与客户端之间进行数据交互的接口,服务器可以将目标对象在虚拟世界中的虚拟形象传入第二接口中,作为第二接口的一个参数,实现展示目标对象在虚拟世界中的虚拟形象的目的。
可选地,该实施例用于执行面部图像处理方法的计算机设备可以包括第二接口,该第二接口用于输出虚拟形象,也即,在得到目标对象在虚拟世界中的虚拟形象之后,可以调用第二接口输出虚拟形象,其中,第二接口包括第二参数,第二参数的参数值至少为虚拟形象。
基于上述实施例步骤S801至步骤S805所公开的方案,通过调用第一接口调取位于真实世界中的目标对象的原始图像,进而调用面部参数识别模型,对原始图像中面部图像的参数进行联合识别,至少得到目标对象的面部表情参数和面部姿态参数;基于面部表情参数将虚拟对象的初始表情渲染为表情动画,其中,虚拟对象为目标对象映射在虚拟世界中的对象;将具有表情动画的虚拟对象表情动画,以面部姿态参数对应的面部姿态渲染到面部图像上,得到目标对象在虚拟世界中的虚拟形象;通过调用第二接口输出虚拟形象。也就是说,在本申请实施例中,可以通过调用第一接口获取目标对象的原始图像,进而通过一个面部参数识别模型对原始图像中面部图像的参数进行联合识别,可以得到面部表情参数和面部姿态参数,而无需利用两个模型分别获取,提升了参数获取效率,基于获取到的面部表情参数可以将虚拟对象的初始表情渲染为表情动画,进而将具有表情动画的虚拟对象,以面部姿态参数对应的面部姿态渲染到面部图像上,即可得到目标对象在虚拟世界中的虚拟形象,通过调用第二接口,即可输出虚拟形象,达到了简化流程,减少计算量的目的,实现了提升面部图像的处理效率的技术效果,从而解决了面部图像处理效率低的技术问题。
本申请还从人机交互侧提供了另一种动画生成方法。图9是根据本申请实施例的一种动画生成方法的流程图。如图9所示,该方法可以包括如下步骤:
步骤S901,响应作用于操作界面上的输入指令,在操作界面上显示输入指令对应的输入信息。
在本申请上述步骤S901的技术方案中,用于执行动画生成方法的计算机设备包括操作界面,操作界面上可以包括输入框,目标对象可以在该输入框中输入需求信息以及目标对象的原始图像,该需求信息用于表示需要生成位于真实世界中的目标对象在虚拟世界中的虚拟形象的面部动画,当响应于目标对象在输入框中的输入操作,即响应到作用于操作界面上的输入指令,可以在操作界面上显示输入指令对应的输入信息,其中,输入信息用于表示需要生成位于真实世界中的目标对象在虚拟世界中的虚拟形象的面部动画的需求信息,且包括目标对象的原始图像,原始图像至少包括:覆盖在目标对象面部的面部图像。
步骤S902,响应作用于操作界面上的反馈指令,在操作界面上至少显示与输入信息具有问答关系的反馈结果。
在本申请上述步骤S902的技术方案中,用于执行动画生成方法的计算集设备的操作界面中还可以包括反馈控件,当响应到目标对象对该反馈控件的选择操作,也即响应到作用于操作界面上的反馈指令,在这种情况下,可以在操作界面上至少显示于输入信息具有问答关系的反馈结果,其中,反馈结果用于表示基于目标对象的面部姿态参数对目标对象的表情动画进行渲染而得到的面部动画,表情动画为基于目标对象的面部动态表情参数对虚拟对象的初始表情渲染得到,虚拟对象为目标对象映射在虚拟世界中的对象,面部动态表情参数和面部姿态参数为使用面部参数识别模型对原始图像中面部图像的参数进行联合识别而得到,目标对象可以基于该反馈结果确定是否对面部动画进行进一步调整。
基于上述实施例步骤S901至步骤S902所公开的方案,当响应到作用于操作界面上的输入指令,可以在操作界面上显示输入指令对应的输入信息,其中,输入用于表示需要生成位于真实世界中的目标对象在虚拟世界中的虚拟形象的面部动画的需求信息,且包括目标对象的原始图像;当响应到作用于操作界面上的反馈指令,可以在操作界面上至少显示与输入信息具有问答关系的反馈结果,其中,反馈结果用于表示基于目标对象的面部姿态参数对目标对象的表情动画进行渲染而得到的面部动画。也就是说,在本申请实施例中,可以在操作界面上显示与输入指令对应的输入信息,以及与反馈指令对应的反馈结果,目标对象可以查看操作界面上显示的信息,并确定反馈结果所表示的面部动画是否符合预期,以实时对面部动画进行调整,操作较为简便,提升了用户体验,实现了提升面部动画的处理效率的技术效果,进而解决了面部图像处理效率低的技术问题。
下面结合优选实施方式对本申请实施例的技术方案进行进一步地举例介绍。
目前,随着计算机技术的发展,表情动画的应用越来越广泛,例如,在短视频、在线会议、在线课堂等场景都有广泛的应用价值,可以保护隐私,增强趣味。其中,表情估计算法主要通过两个模型分两个阶段来完成,其中一个模型用于基于面部图像完成面部关键点标注和姿态估计,另一个模型用于基于面部图像完成表情估计,流程较为复杂,计算量较大,存在面部图像处理效率低的技术问题。由于姿态估计属于刚性变换,表情估计属于非刚性变换,利用估计出的姿态角作为真值训练神经网络,再利用训练好的神经网络完成面部图像的表情估计,往往无法彻底解耦人脸刚性和非刚性变换,数据标注会存在明显误差,尤其在侧脸和张嘴闭眼等极端情况下,姿态估计的精度会明显下降。
然而,本申请实施例提供了一种面部图像的处理方法,通过采集位于真实世界中的目标对象的原始图像,进而调用面部参数识别模型,对原始图像中的面部图像的参数进行联合识别,至少得到目标对象的面部表情参数和面部姿态参数;基于面部表情参数将虚拟对象的初始表情渲染为表情动画,将具有表情动画的虚拟对象,以面部姿态参数对应的面部姿态渲染到面部图像上,得到目标对象在虚拟世界中的虚拟形象。也就是说,在本申请实施例中,通过一个面部参数识别模型对原始图像中面部图像的参数进行联合识别,可以得到面部表情参数和面部姿态参数,而无需利用两个模型分别获取,提升了面部参数的获取效率,基于获取到的面部表情参数可以将虚拟对象的初始表情渲染为表情动画,进而将具有表情动画的虚拟对象,以面部姿态参数对应的面部姿态渲染到面部图像上,即可得到目标对象在虚拟世界中的虚拟形象,达到了简化流程,减少计算量的目的,实现了提升面部图像的处理效率的技术效果,从而解决了面部图像处理效率低的技术问题。
下面对本申请实施例的面部图像的处理方法进行进一步介绍。
图10是根据本申请实施例的一种面部图像的处理方法的流程图,如图10所示,该方法包括以下:
步骤S1001,基于目标对象的面部图像获取目标对象的面部参数。
在本申请上述步骤S1001的技术方案中,当图像采集设备采集到目标对象的原始图像之后,可以获取图像采集设备采集到的原始图像,其中,该原始图像中至少包括目标对象的面部图像。在获取到目标对象的原始图像之后,可以利用面部参数识别模型对目标对象的原始图像进行识别,以得到目标对象的面部参数,其中,该面部参数中包括目标对象的面部表情参数和目标对象的面部姿态参数。
举例而言,在对目标对象的原始图像进行识别之前,可以先利用人脸检测技术对原始图像中目标对象的面部图像进行人脸检测对齐,并利用标记框对原始图像中的目标对象的面部图像进行标记,之后,利用抠图技术从目标对象的原始图像中扣出目标对象的面部图像,进而基于面部参数识别模型对目标对象的面部图像进行面部参数估计,其中,该面部参数中包括目标对象的面部表情参数和面部姿态参数。
步骤S1002,基于面部参数对目标对象的面部图像进行渲染,得到目标对象在虚拟世界中的虚拟形象。
在本申请上述步骤S1002的技术方案中,在获取到目标对象的面部参数之后,可以基于获取到的面部参数在渲染引擎中对目标对象的面部图像进行渲染,得到目标对象在虚拟世界中的虚拟形象。
举例而言,渲染引擎中预先设置有虚拟对象,在获取到目标对象的面部参数之后,可以先利用面部参数中的面部表情参数将虚拟形象的初始表情渲染为表情动画,之后,再将具有表情动画的虚拟对象,以面部姿态参数对应的面部姿态渲染到面部图像的对应位置上,得到目标对象在虚拟世界中的虚拟形象。
在上述步骤S1001和步骤S1002的技术方案中,可以基于目标对象的面部图像获取目标对象的面部参数,并基于获取到的面部参数对目标对象的面部图像进行渲染,得到目标对象在虚拟世界中的虚拟形象。也就是说,在本申请实施例中,可以利用面部参数识别模型估计目标对象的面部表情参数和面部姿态参数,进而基于获取到的面部表情参数和面部姿态参数对目标对象的面部图像进行渲染,即可得到目标对象在虚拟世界中的虚拟形象,操作流程较为简单,达到了减少计算量的目的,实现了提升面部图像的处理效率的技术效果,从而解决了面部图像处理效率低的技术问题。
下面对本申请实施例中利用面部参数识别模型估计目标对象的面部参数的流程进行进一步介绍。
在该实施例中,在利用面部参数识别模型对目标对象的原始图像进行估计之前,可以先利用人脸检测模型对图像采集设备采集到的目标对象的原始图像进行人脸检测和追踪,并利用人脸包围框(bounding box)标记出原始图像中目标对象的人脸图像,进而根据人脸包围框计算得到变换矩阵对原始图像做仿射变换,得到以人脸为中心的裁剪图像,该裁剪图像中包括目标对象的面部图像。
图11是根据本申请实施例的一种利用面部参数识别模型估计目标对象的面部参数的示意图。如图11所示,可以将裁剪后的目标对象的面部图像输入至面部参数识别模型中,面部参数识别模型可以基于面部图像识别目标对象的面部参数,其中,该面部参数中包括目标对象的面部表情参数和面部姿态参数,其中,面部表情参数中包括目标对象的表情系数和形状系数,面部姿态参数中包括目标对象的面部的旋转向量和位移向量。其中,表情系数可以直接迁移至目标对象对应的3D模型中,以完成表情动画。表情系数和形状系数,可以根据3DMM模型定义的表情基和形状基,通过线性组合表情动画,完成物理尺度下的人脸3D模型重建,通过预先定义的关键点索引,可以获得符合真实人脸尺寸的3D关键点。面部姿态参数中的旋转向量和位移向量,通过刚体变换作用在真实人脸尺寸的3D关键点上,可以得到人脸世界坐标,之后,将人脸世界坐标与默认相机投影矩阵相乘得到面部图像中人脸的像素坐标,其中,面部图像中人脸像素坐标通过仿真变换的逆变换,可以得到人脸在原始图像中的像素坐标。将真实人脸尺寸的3D关键点与人脸在原始图像中的像素坐标,通过PnP算法可以得到人脸的真实姿态。其中,为了增强姿态估计的准确性,可以通过将3D关键点的投影关系判断3D关键点是否被遮挡,相应降低被遮挡点参与PnP算法的权重,另外,还可以通过Lucas-Kanada光流算法对关机那点的像素坐标进行重追踪定位,以减少抖动,增强姿态估计的准确性。
下面对本申请实施例中的面部参数识别模型进行进一步介绍。
为满足移动端的算力要求,可以对面部参数识别模型的骨干网络进行裁剪,但裁剪会带来精度损失,基于此,在对面部参数识别模型进行训练的过程中,可以引入结构化重参数化解耦训练和推理时的网络结构,将骨干网络中的单个网络层拆分为多个分支,多个分支具有不同的卷积核尺寸以及池化操作。其中,在对面部参数识别模型进行训练的过程中,多个分支可以丰富卷积块的特征空间,增强拟合能力;在利用面部参数识别模型进行参数推理的过程中,由于卷积核在某些情况下满足一些线性特征,因此可以对形状一致的卷积核进行融合操作,将多个分支重新融合为一个卷积层,以增强模型性能。
图12是根据本申请实施例的一种模型结构示意图,如图12所示,左侧为训练时的模型结构,右侧为推理时的模型结构。其中,左侧训练时的模型结构从左到右的分支依次为:1x1卷积+BatchNorm、1x1卷积+BatchNorm+kxk卷积+BatchNorm、1x1卷积+BatchNorm+平均池化+BatchNorm、kxk卷积+BatchNorm,4个分支的输出相加,即可得到输出参数。
下面对本申请实施例中的训练数据增强方法进行进一步介绍。
为了满足戴口罩、人脸移动出屏幕等大面积遮挡场景下的稳定检测,可以采用合成数据进行数据增强,如图5所示,可以将人手或者常见物品,例如,水杯、手机、电脑、帽子等的3D模型,随机渲染至训练图像中生成合成数据。由于3D模型的边界时明确的,基于此,可以准确的得知物体对人脸的遮挡区域,进而可以将遮挡区域的关键点增加一个遮挡标记,并对该区域的表情系数真值进行归零处理。采用合成数据的方式获取训练数据,无需重新采集数据,其自由度较高,可以实现在较大区域被遮挡的情况下,仍能稳定识别目标对象的面部表情和面部姿态。
图13是根据本申请实施例的一种训练数据标记的示意图,如图13所示,可以利用特殊标记点对训练图像中的部分训练数据增加牙齿位置的标注信息,由于牙齿与下颚之间的连接方式属于刚性连接,增加对牙齿位置的标注信息,可以增加对牙齿位置的监督,这样可以显著提升嘴巴开合等表情系数的估计精度。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
实施例2
根据本申请实施例,还提供了一种用于实施上述动画生成方法的动画生成装置,图14是根据本申请实施例的一种动画生成装置的示意图,如图14所示,该装置包括:采集单元1401、调用单元1402、第一渲染单元1403和第二渲染单元1404。
采集单元1401,用于采集位于真实世界中的目标对象的原始图像,其中,原始图像至少包括:覆盖在目标对象面部的面部图像。
调用单元1402,用于调用面部参数识别模型,对原始图像中面部图像的参数进行联合识别,至少得到目标对象的面部动态表情参数和面部姿态参数。
第一渲染单元1403,用于基于面部动态表情参数将虚拟对象的初始表情渲染为表情动画,其中,虚拟对象为目标对象映射在虚拟世界中的对象。
第二渲染单元1404,用于基于面部姿态参数对表情动画进行渲染,得到目标对象在虚拟世界中的虚拟形象的面部动画。
此处需要说明的是,上述采集单元1401、调用单元1402、第一渲染单元1403、第二渲染单元1404对应于实施例1中的步骤S301至步骤S304,四个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块或单元可以是存储在存储器中并由一个或多个处理器处理的硬件组件或软件组件,上述模块也可以作为装置的一部分可以运行在实施例1提供的AR/VR设备中。
根据本申请实施例,还提供了一种用于实施上述面部图像的处理方法的面部图像的处理装置,图15是根据本申请实施例的一种面部图像的处理装置的示意图,如图15所示,该装置包括:采集单元1501、调用单元1502、第一渲染单元1503和第二渲染单元1504。
采集单元1501,用于采集位于真实世界中的目标对象的原始图像,其中,原始图像至少包括:覆盖在目标对象面部的面部图像。
调用单元1502,用于调用面部参数识别模型,对原始图像中面部图像的参数进行联合识别,至少得到目标对象的面部表情参数和面部姿态参数。
第一渲染单元1503,用于基于面部表情参数将虚拟对象的初始表情渲染为表情动画,其中,虚拟对象为目标对象映射在虚拟世界中的对象。
第二渲染单元1504,用于将具有表情动画的虚拟对象,以面部姿态参数对应的面部姿态渲染到面部图像上,得到目标对象在虚拟世界中的虚拟形象。
此处需要说明的是,上述采集单元1501、调用单元1502、第一渲染单元1503、第二渲染单元1504对应于实施例1中的步骤S501至步骤S504,四个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块或单元可以是存储在存储器中并由一个或多个处理器处理的硬件组件或软件组件,上述模块也可以作为装置的一部分可以运行在实施例1提供的AR/VR设备中。
根据本申请实施例,还提供了一种用于实施上述面部图像的处理方法的面部图像的处理装置,图16是根据本申请实施例的一种面部图像的处理装置的示意图,如图16所示,该装置包括:第一显示单元1601和第二显示单元1602。
第一显示单元1601,用于在响应作用于操作界面上的输入指令,在操作界面上显示位于真实世界中的目标对象的原始图像,其中,原始图像至少包括:覆盖在目标对象面部的面部图像。
第二显示单元1602,用于在响应作用于操作界面上的渲染指令,在操作界面上渲染显示目标对象在虚拟世界中的虚拟形象,其中,虚拟形象为将具有表情动画的虚拟对象,以目标对象的面部姿态参数对应的面部姿态渲染到面部图像上而得到,表情动画为基于目标对象的面部表情参数将虚拟对象的初始表情渲染得到,虚拟对象为目标对象映射在虚拟世界中的对象,面部姿态参数和面部表情参数为使用面部参数识别模型对原始图像中面部图像的参数进行联合识别得到。
此处需要说明的是,上述第一显示单元1601和第二显示单元1602对应于实施例1中的步骤S601至步骤S602,两个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块或单元可以是存储在存储器中并由一个或多个处理器处理的硬件组件或软件组件,上述模块也可以作为装置的一部分可以运行在实施例1提供的AR/VR设备中。
根据本申请实施例,还提供了一种用于实施上述面部图像的处理方法的面部图像的处理装置,图17是根据本申请实施例的一种面部图像的处理装置的示意图,如图17所示,该装置包括:展示单元1701和驱动单元1702。
展示单元1701,用于在响应作用于虚拟现实VR设备或增强现实AR设备的操作界面上的图像输入指令,在VR设备或AR设备的呈现画面上展示真实世界中的目标对象的原始图像,其中,原始图像至少包括:覆盖在目标对象面部的面部图像。
驱动单元1702,用于在响应作用于操作界面上的渲染指令,驱动VR设备或AR设备在呈现画面上展示目标对象在虚拟世界中的虚拟形象,其中,虚拟形象为将具有表情动画的虚拟对象,以目标对象的面部姿态参数对应的面部姿态渲染到面部图像上而得到,表情动画为基于目标对象的面部表情参数将虚拟对象的初始表情渲染得到,虚拟对象为目标对象映射在虚拟世界中的对象,面部姿态参数和面部表情参数为使用面部参数识别模型对原始图像中面部图像的参数进行联合识别得到。
此处需要说明的是,上述展示单元1701和驱动单元1702对应于实施例1中的步骤S701至步骤S702,两个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块或单元可以是存储在存储器中并由一个或多个处理器处理的硬件组件或软件组件,上述模块也可以作为装置的一部分可以运行在实施例1提供的AR/VR设备中。
根据本申请实施例,还提供了一种用于实施上述面部图像的处理方法的面部图像的处理装置,图18是根据本申请实施例的一种面部图像的处理装置的示意图,如图18所示,该装置包括:第一调用单元1801、第二调用单元1802、第一渲染单元1803、第二渲染单元1804和第三调用单元1805。
第一调用单元1801,用于通过调用第一接口调取位于真实世界中的目标对象的原始图像,其中,第一接口包括第一参数,第一参数的参数值为原始图像,原始图像至少包括:覆盖在目标对象面部的面部图像。
第二调用单元1802,用于调用面部参数识别模型,对原始图像中面部图像的参数进行联合识别,至少得到目标对象的面部表情参数和面部姿态参数。
第一渲染单元1803,用于基于面部表情参数将虚拟对象的初始表情渲染为表情动画,其中,虚拟对象为目标对象映射在虚拟世界中的对象。
第二渲染单元1804,用于将具有表情动画的虚拟对象表情动画,以面部姿态参数对应的面部姿态渲染到面部图像上,得到目标对象在虚拟世界中的虚拟形象。
第三调用单元1805,用于通过调用第二接口输出虚拟形象,其中,第二接口包括第二参数,第二参数的参数值至少为虚拟形象。
此处需要说明的是,上述第一调用单元1801、第二调用单元1802、第一渲染单元1803、第二渲染单元1804、第三调用单元1805对应于实施例1中的步骤S801至步骤S805,五个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块或单元可以是存储在存储器中并由一个或多个处理器处理的硬件组件或软件组件,上述模块也可以作为装置的一部分可以运行在实施例1提供的AR/VR设备中。
根据本申请实施例,还提供了一种用于实施上述动画生成方法的动画生成装置,图19是根据本申请实施例的一种动画生成装置的示意图,如图19所示,该装置包括:第一显示单元1901和第二显示单元1902。
第一显示单元1901,用于在响应作用于操作界面上的输入指令,在操作界面上显示输入指令对应的输入信息,其中,输入信息用于表示需要生成位于真实世界中的目标对象在虚拟世界中的虚拟形象的面部动画的需求信息,且包括目标对象的原始图像,原始图像至少包括:覆盖在目标对象面部的面部图像。
第二显示单元1902,用于在响应作用于操作界面上的反馈指令,在操作界面上至少显示与输入信息具有问答关系的反馈结果,其中,反馈结果用于表示基于目标对象的面部姿态参数对目标对象的表情动画进行渲染而得到的面部动画,表情动画为基于目标对象的面部动态表情参数对虚拟对象的初始表情渲染得到,虚拟对象为目标对象映射在虚拟世界中的对象,面部动态表情参数和面部姿态参数为使用面部参数识别模型对原始图像中面部图像的参数进行联合识别而得到。
此处需要说明的是,上述第一显示单元1901和第二显示单元1902对应于实施例1中的步骤S901至步骤S902,两个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块或单元可以是存储在存储器中并由一个或多个处理器处理的硬件组件或软件组件,上述模块也可以作为装置的一部分可以运行在实施例1提供的AR/VR设备中。
实施例3
本申请的实施例可以提供一种面部图像的处理系统,该面部图像的处理系统可以包括AR/VR设备、服务器、客户端,该AR/VR设备可以是AR/VR设备群中的任意一个AR/VR设备。
可选地,该面部图像的处理设备包括:处理器;存储器,与处理器相连接,用于为处理器提供处理以下处理步骤的指令:采集位于真实世界中的目标对象的原始图像,其中,原始图像至少包括:覆盖在目标对象面部的面部图像;调用面部参数识别模型,对原始图像中面部图像的参数进行联合识别,至少得到目标对象的面部表情参数和面部姿态参数;基于面部表情参数将虚拟对象的初始表情渲染为表情动画,其中,虚拟对象为目标对象映射在虚拟世界中的对象;将具有表情动画的虚拟对象,以面部姿态参数对应的面部姿态渲染到面部图像上,得到目标对象在虚拟世界中的虚拟形象。
可选地,在本实施例中,存储器还用于为处理器提供处理以下步骤的指令:利用面部图像样本集对第一网络结构进行训练;利用第二网络结构对训练后的第一网络结构进行推理,得到面部参数识别模型,其中,第二网络结构的参数为由第一网络结构的参数转换得到。
可选地,在本实施例中,存储器还用于为处理器提供处理以下步骤的指令:将面部参数识别模型的骨干网络的网络层,划分为多个分支网络层;基于多个分支网络层确定第一网络结构和第二网络结构,其中,第二网络结构在对应的分支网络层上的参数为由第一网络结构在对应的分支网络层上的参数转换得到。
可选地,在本实施例中,存储器还用于为处理器提供处理以下步骤的指令:基于多个分支网络层确定特征空间;基于特征空间构建第一网络结构。
可选地,在本实施例中,存储器还用于为处理器提供处理以下步骤的指令:对多个分支网络层中,具有相同卷积核的至少两个多个分支网络层进行融合,得到第二网络结构。
可选地,在本实施例中,存储器还用于为处理器提供处理以下步骤的指令:对视觉任务网络进行裁剪,得到骨干网络,其中,视觉任务网络用于对面部图像执行视觉任务。
可选地,在本实施例中,存储器还用于为处理器提供处理以下步骤的指令:将模型样本渲染至面部图像样本集,得到目标面部图像样本集;利用目标面部图像样本集对第一网络结构进行训练。
可选地,在本实施例中,存储器还用于为处理器提供处理以下步骤的指令:在目标面部图像样本集中,确定模型样本对面部图像样本集进行遮挡的遮挡区域;在目标面部图像样本集中,对遮挡区域对应的面部表情参数进行归零处理,得到目标面部图像样本集中除遮挡区域之外的区域对应的面部表情参数;利用目标面部图像样本集中除遮挡区域之外的区域对应的面部表情参数,对第一网络结构进行训练。
可选地,在本实施例中,存储器还用于为处理器提供处理以下步骤的指令:对面部图像样本集中第一部位图像位置进行标注,其中,与第一部位图像位置刚性连接的第二部位图像位置用于确定面部图像样本集中第三部位图像对应的表情系数;利用标注了第一部位图像位置的面部图像样本集,对第一网络结构进行训练。
可选地,在本实施例中,存储器还用于为处理器提供处理以下步骤的指令:调用面部参数识别模型,对面部图像的参数进行联合识别,得到目标对象的面部表情参数、面部姿态参数和面部形状参数。
可选地,在本实施例中,存储器还用于为处理器提供处理以下步骤的指令:基于面部表情参数、面部形状参数和表情动画,确定与目标对象的面部尺寸相匹配的三维关键点;对面部姿态参数进行刚体变换,且基于变换后的面部姿态参数和三维关键点,确定面部图像的二维像素坐标;基于关键点和二维像素坐标,确定面部姿态。
可选地,在本实施例中,存储器还用于为处理器提供处理以下步骤的指令:响应于三维关键点处于遮挡状态,降低三维关键点对应的权重,其中,权重用于表示三维关键点对二维像素坐标的重要程度。
可选地,在本实施例中,存储器还用于为处理器提供处理以下步骤的指令:基于变换后的面部姿态参数和降低权重后的三维关键点,确定二维像素坐标。
可选地,在本实施例中,存储器还用于为处理器提供处理以下步骤的指令:对三维关键点进行重追踪定位。
可选地,在本实施例中,存储器还用于为处理器提供处理以下步骤的指令:基于变换后的面部姿态参数和定位后的三维关键点,确定二维像素坐标。
采用本申请实施例,提供了一种面部图像的处理的方案。通过面部参数识别模型对原始图像中面部图像的参数进行联合识别,可以得到面部表情参数和面部姿态参数,无需利用两个模型分别获取,提升了参数获取效率,基于获取到的面部表情参数可以将虚拟对象的初始表情渲染为表情动画,进而将具有表情动画的虚拟对象,以面部姿态参数对应的面部姿态渲染到面部图像上,即可得到目标对象在虚拟世界中的虚拟形象,达到了简化流程,减少计算量的目的,实现了提升面部图像的处理效率的技术效果,从而解决了面部图像处理效率低的技术问题。
实施例4
本申请的实施例可以提供一种AR/VR设备,该AR/VR设备可以是AR/VR设备群中的任意一个AR/VR设备。可选地,在本实施例中,上述AR/VR设备也可以替换为移动终端等终端设备。
可选地,在本实施例中,上述AR/VR设备可以位于计算机网络的多个网络设备中的至少一个网络设备。
在本实施例中,上述AR/VR设备可以执行面部图像的处理方法中以下步骤的程序代码:采集位于真实世界中的目标对象的原始图像,其中,原始图像至少包括:覆盖在目标对象面部的面部图像;调用面部参数识别模型,对原始图像中面部图像的参数进行联合识别,至少得到目标对象的面部表情参数和面部姿态参数;基于面部表情参数将虚拟对象的初始表情渲染为表情动画,其中,虚拟对象为目标对象映射在虚拟世界中的对象;将具有表情动画的虚拟对象,以面部姿态参数对应的面部姿态渲染到面部图像上,得到目标对象在虚拟世界中的虚拟形象。
可选地,图20是根据本申请实施例的一种计算机终端的结构框图。如图20所示,该计算机终端A可以包括:一个或多个(图中仅示出一个)处理器2002、存储器2004、存储控制器、以及外设接口,其中,外设接口与射频模块、音频模块和显示器连接。
其中,存储器可用于存储软件程序以及模块,如本申请实施例中的面部图像的处理方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的面部图像的处理方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:采集位于真实世界中的目标对象的原始图像,其中,原始图像至少包括:覆盖在目标对象面部的面部图像;调用面部参数识别模型,对原始图像中面部图像的参数进行联合识别,至少得到目标对象的面部表情参数和面部姿态参数;基于面部表情参数将虚拟对象的初始表情渲染为表情动画,其中,虚拟对象为目标对象映射在虚拟世界中的对象;将具有表情动画的虚拟对象,以面部姿态参数对应的面部姿态渲染到面部图像上,得到目标对象在虚拟世界中的虚拟形象。
可选的,上述处理器还可以执行如下步骤的程序代码:利用面部图像样本集对第一网络结构进行训练;利用第二网络结构对训练后的第一网络结构进行推理,得到面部参数识别模型,其中,第二网络结构的参数为由第一网络结构的参数转换得到。
可选的,上述处理器还可以执行如下步骤的程序代码:将面部参数识别模型的骨干网络的网络层,划分为多个分支网络层;基于多个分支网络层确定第一网络结构和第二网络结构,其中,第二网络结构在对应的分支网络层上的参数为由第一网络结构在对应的分支网络层上的参数转换得到。
可选的,上述处理器还可以执行如下步骤的程序代码:基于多个分支网络层确定特征空间;基于特征空间构建第一网络结构。
可选的,上述处理器还可以执行如下步骤的程序代码:对多个分支网络层中,具有相同卷积核的至少两个多个分支网络层进行融合,得到第二网络结构。
可选的,上述处理器还可以执行如下步骤的程序代码:对视觉任务网络进行裁剪,得到骨干网络,其中,视觉任务网络用于对面部图像执行视觉任务。
可选的,上述处理器还可以执行如下步骤的程序代码:将模型样本渲染至面部图像样本集,得到目标面部图像样本集;利用目标面部图像样本集对第一网络结构进行训练。
可选的,上述处理器还可以执行如下步骤的程序代码:在目标面部图像样本集中,确定模型样本对面部图像样本集进行遮挡的遮挡区域;在目标面部图像样本集中,对遮挡区域对应的面部表情参数进行归零处理,得到目标面部图像样本集中除遮挡区域之外的区域对应的面部表情参数;利用目标面部图像样本集中除遮挡区域之外的区域对应的面部表情参数,对第一网络结构进行训练。
可选的,上述处理器还可以执行如下步骤的程序代码:对面部图像样本集中第一部位图像位置进行标注,其中,与第一部位图像位置刚性连接的第二部位图像位置用于确定面部图像样本集中第三部位图像对应的表情系数;利用标注了第一部位图像位置的面部图像样本集,对第一网络结构进行训练。
可选的,上述处理器还可以执行如下步骤的程序代码:调用面部参数识别模型,对面部图像的参数进行联合识别,得到目标对象的面部表情参数、面部姿态参数和面部形状参数。
可选的,上述处理器还可以执行如下步骤的程序代码:基于面部表情参数、面部形状参数和表情动画,确定与目标对象的面部尺寸相匹配的三维关键点;对面部姿态参数进行刚体变换,且基于变换后的面部姿态参数和三维关键点,确定面部图像的二维像素坐标;基于关键点和二维像素坐标,确定面部姿态。
可选的,上述处理器还可以执行如下步骤的程序代码:响应于三维关键点处于遮挡状态,降低三维关键点对应的权重,其中,权重用于表示三维关键点对二维像素坐标的重要程度。
可选的,上述处理器还可以执行如下步骤的程序代码:基于变换后的面部姿态参数和降低权重后的三维关键点,确定二维像素坐标。
可选的,上述处理器还可以执行如下步骤的程序代码:对三维关键点进行重追踪定位。
可选的,上述处理器还可以执行如下步骤的程序代码:基于变换后的面部姿态参数和定位后的三维关键点,确定二维像素坐标。
采用本申请实施例,提供了一种面部图像的处理的方案。通过面部参数识别模型对原始图像中面部图像的参数进行联合识别,可以得到面部表情参数和面部姿态参数,无需利用两个模型分别获取,提升了参数获取效率,基于获取到的面部表情参数可以将虚拟对象的初始表情渲染为表情动画,进而将具有表情动画的虚拟对象,以面部姿态参数对应的面部姿态渲染到面部图像上,即可得到目标对象在虚拟世界中的虚拟形象,达到了简化流程,减少计算量的目的,实现了提升面部图像的处理效率的技术效果,从而解决了面部图像处理效率低的技术问题。
面部图像处理效率低本领域普通技术人员可以理解,图所示的结构仅为示意,计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(MobileInternetDevices,简称为MID)、PAD等终端设备。图20并不对上述电子装置的结构造成限定。例如,计算机终端A还可包括比图20中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图20所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取器(Random Access Memory,简称为RAM)、磁盘或光盘等。
实施例5
本申请的实施例还提供了一种计算机可读存储介质。可选地,在本实施例中,上述计算机可读存储介质可以用于保存上述实施例1所提供的面部图像的处理方法所执行的程序代码。
可选地,在本实施例中,上述计算机可读存储介质可以位于AR/VR设备网络中AR/VR设备终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:采集位于真实世界中的目标对象的原始图像,其中,原始图像至少包括:覆盖在目标对象面部的面部图像;调用面部参数识别模型,对原始图像中面部图像的参数进行联合识别,至少得到目标对象的面部表情参数和面部姿态参数;基于面部表情参数将虚拟对象的初始表情渲染为表情动画,其中,虚拟对象为目标对象映射在虚拟世界中的对象;将具有表情动画的虚拟对象,以面部姿态参数对应的面部姿态渲染到面部图像上,得到目标对象在虚拟世界中的虚拟形象。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:利用面部图像样本集对第一网络结构进行训练;利用第二网络结构对训练后的第一网络结构进行推理,得到面部参数识别模型,其中,第二网络结构的参数为由第一网络结构的参数转换得到。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:将面部参数识别模型的骨干网络的网络层,划分为多个分支网络层;基于多个分支网络层确定第一网络结构和第二网络结构,其中,第二网络结构在对应的分支网络层上的参数为由第一网络结构在对应的分支网络层上的参数转换得到。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:基于多个分支网络层确定特征空间;基于特征空间构建第一网络结构。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:对多个分支网络层中,具有相同卷积核的至少两个多个分支网络层进行融合,得到第二网络结构。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:对视觉任务网络进行裁剪,得到骨干网络,其中,视觉任务网络用于对面部图像执行视觉任务。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:将模型样本渲染至面部图像样本集,得到目标面部图像样本集;利用目标面部图像样本集对第一网络结构进行训练。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:在目标面部图像样本集中,确定模型样本对面部图像样本集进行遮挡的遮挡区域;在目标面部图像样本集中,对遮挡区域对应的面部表情参数进行归零处理,得到目标面部图像样本集中除遮挡区域之外的区域对应的面部表情参数;利用目标面部图像样本集中除遮挡区域之外的区域对应的面部表情参数,对第一网络结构进行训练。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:对面部图像样本集中第一部位图像位置进行标注,其中,与第一部位图像位置刚性连接的第二部位图像位置用于确定面部图像样本集中第三部位图像对应的表情系数;利用标注了第一部位图像位置的面部图像样本集,对第一网络结构进行训练。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:调用面部参数识别模型,对面部图像的参数进行联合识别,得到目标对象的面部表情参数、面部姿态参数和面部形状参数。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:基于面部表情参数、面部形状参数和表情动画,确定与目标对象的面部尺寸相匹配的三维关键点;对面部姿态参数进行刚体变换,且基于变换后的面部姿态参数和三维关键点,确定面部图像的二维像素坐标;基于关键点和二维像素坐标,确定面部姿态。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:响应于三维关键点处于遮挡状态,降低三维关键点对应的权重,其中,权重用于表示三维关键点对二维像素坐标的重要程度。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:基于变换后的面部姿态参数和降低权重后的三维关键点,确定二维像素坐标。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:对三维关键点进行重追踪定位。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:基于变换后的面部姿态参数和定位后的三维关键点,确定二维像素坐标。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (18)
1.一种动画生成方法,其特征在于,包括:
采集位于真实世界中的目标对象的原始图像,其中,所述原始图像至少包括:覆盖在所述目标对象面部的面部图像;
调用面部参数识别模型,对所述原始图像中所述面部图像的参数进行联合识别,至少得到所述目标对象的面部动态表情参数和面部姿态参数;
基于所述面部动态表情参数将虚拟对象的初始表情渲染为表情动画,其中,所述虚拟对象为所述目标对象映射在虚拟世界中的对象;
基于所述面部姿态参数对所述表情动画进行渲染,得到所述目标对象在虚拟世界中的虚拟形象的面部动画。
2.根据权利要求1所述的方法,其特征在于,基于所述面部姿态参数对所述表情动画进行渲染,得到所述目标对象在虚拟世界中的虚拟形象的面部动画,包括:
将具有所述表情动画的所述虚拟对象,渲染到所述面部图像中与所述面部姿态参数对应的位置中,得到所述面部动画。
3.一种面部图像的处理方法,其特征在于,包括:
采集位于真实世界中的目标对象的原始图像,其中,所述原始图像至少包括:覆盖在所述目标对象面部的面部图像;
调用面部参数识别模型,对所述原始图像中所述面部图像的参数进行联合识别,至少得到所述目标对象的面部表情参数和面部姿态参数;
基于所述面部表情参数将虚拟对象的初始表情渲染为表情动画,其中,所述虚拟对象为所述目标对象映射在虚拟世界中的对象;
将具有所述表情动画的所述虚拟对象,以所述面部姿态参数对应的面部姿态渲染到所述面部图像上,得到所述目标对象在虚拟世界中的虚拟形象。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
利用面部图像样本集对第一网络结构进行训练;
利用第二网络结构对训练后的所述第一网络结构进行推理,得到所述面部参数识别模型,其中,所述第二网络结构的参数为由所述第一网络结构的参数转换得到。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
将所述面部参数识别模型的骨干网络的网络层,划分为多个分支网络层;
基于所述多个分支网络层确定所述第一网络结构和所述第二网络结构,其中,所述第二网络结构在对应的所述分支网络层上的参数为由所述第一网络结构在对应的所述分支网络层上的参数转换得到。
6.根据权利要求5所述的方法,其特征在于,基于所述多个分支网络层确定所述第一网络结构,包括:
基于所述多个分支网络层确定特征空间;
基于所述特征空间构建所述第一网络结构。
7.根据权利要求5所述的方法,其特征在于,基于所述多个分支网络层确定所述第二网络结构,包括:
对所述多个分支网络层中,具有相同卷积核的至少两个所述多个分支网络层进行融合,得到所述第二网络结构。
8.根据权利要求5所述的方法,其特征在于,所述方法还包括:
对视觉任务网络进行裁剪,得到所述骨干网络,其中,所述视觉任务网络用于对所述面部图像执行视觉任务。
9.根据权利要求4所述的方法,其特征在于,利用面部图像样本集对第一网络结构进行训练,包括:
将模型样本渲染至所述面部图像样本集,得到目标面部图像样本集;
利用所述目标面部图像样本集对所述第一网络结构进行训练。
10.根据权利要求9所述的方法,其特征在于,利用所述目标面部图像样本集对所述第一网络结构进行训练,包括:
在所述目标面部图像样本集中,确定所述模型样本对所述面部图像样本集进行遮挡的遮挡区域;
在所述目标面部图像样本集中,对所述遮挡区域对应的面部表情参数进行归零处理,得到所述目标面部图像样本集中除所述遮挡区域之外的区域对应的面部表情参数;
利用所述目标面部图像样本集中除所述遮挡区域之外的区域对应的面部表情参数,对所述第一网络结构进行训练。
11.根据权利要求4所述的方法,其特征在于,利用面部图像样本集对第一网络结构进行训练,包括:
对所述面部图像样本集中第一部位图像位置进行标注,其中,与所述第一部位图像位置刚性连接的第二部位图像位置用于确定所述面部图像样本集中第三部位图像对应的表情系数;
利用标注了所述第一部位图像位置的所述面部图像样本集,对所述第一网络结构进行训练。
12.根据权利要求3至11中任意一项所所述的方法,其特征在于,调用面部参数识别模型,对所述原始图像中所述面部图像的参数进行联合识别,至少得到所述目标对象的面部表情参数和面部姿态参数,包括:
调用所述面部参数识别模型,对所述面部图像的参数进行联合识别,得到所述目标对象的面部表情参数、所述面部姿态参数和面部形状参数;
所述方法还包括:基于所述面部表情参数、所述面部形状参数和所述表情动画,确定与所述目标对象的面部尺寸相匹配的三维关键点;对所述面部姿态参数进行刚体变换,且基于变换后的所述面部姿态参数和所述三维关键点,确定所述面部图像的二维像素坐标;基于所述关键点和所述二维像素坐标,确定所述面部姿态。
13.根据权利要求12所述的方法,其特征在于,所述方法还包括:
响应于所述三维关键点处于遮挡状态,降低所述三维关键点对应的权重,其中,所述权重用于表示所述三维关键点对所述二维像素坐标的重要程度;
基于变换后的所述面部姿态参数和所述三维关键点,确定所述面部图像的二维像素坐标,包括:基于变换后的所述面部姿态参数和降低所述权重后的所述三维关键点,确定所述二维像素坐标。
14.根据权利要求12所述的方法,其特征在于,所述方法还包括:
对所述三维关键点进行重追踪定位;
基于变换后的所述面部姿态参数和所述三维关键点,确定所述面部图像的二维像素坐标,包括:基于变换后的所述面部姿态参数和定位后的所述三维关键点,确定所述二维像素坐标。
15.一种面部图像的处理方法,其特征在于,包括:
响应作用于操作界面上的输入指令,在所述操作界面上显示位于真实世界中的目标对象的原始图像,其中,所述原始图像至少包括:覆盖在所述目标对象面部的面部图像;
响应作用于所述操作界面上的渲染指令,在所述操作界面上渲染显示所述目标对象在虚拟世界中的虚拟形象,其中,所述虚拟形象为将具有表情动画的虚拟对象,以所述目标对象的面部姿态参数对应的面部姿态渲染到所述面部图像上而得到,所述表情动画为基于所述目标对象的面部表情参数将所述虚拟对象的初始表情渲染得到,所述虚拟对象为所述目标对象映射在虚拟世界中的对象,所述面部姿态参数和所述面部表情参数为使用面部参数识别模型对所述原始图像中所述面部图像的参数进行联合识别得到。
16.一种面部图像的处理方法,其特征在于,包括:
响应作用于虚拟现实VR设备或增强现实AR设备的操作界面上的图像输入指令,在所述VR设备或所述AR设备的呈现画面上展示真实世界中的目标对象的原始图像,其中,所述原始图像至少包括:覆盖在所述目标对象面部的面部图像;
响应作用于所述操作界面上的渲染指令,驱动所述VR设备或所述AR设备在所述呈现画面上展示所述目标对象在虚拟世界中的虚拟形象,其中,所述虚拟形象为将具有表情动画的虚拟对象,以所述目标对象的面部姿态参数对应的面部姿态渲染到所述面部图像上而得到,所述表情动画为基于所述目标对象的面部表情参数将所述虚拟对象的初始表情渲染得到,所述虚拟对象为所述目标对象映射在虚拟世界中的对象,所述面部姿态参数和所述面部表情参数为使用面部参数识别模型对所述原始图像中所述面部图像的参数进行联合识别得到。
17.一种面部图像的处理方法,其特征在于,包括:
通过调用第一接口调取位于真实世界中的目标对象的原始图像,其中,所述第一接口包括第一参数,所述第一参数的参数值为所述原始图像,所述原始图像至少包括:覆盖在所述目标对象面部的面部图像;
调用面部参数识别模型,对所述原始图像中所述面部图像的参数进行联合识别,至少得到所述目标对象的面部表情参数和面部姿态参数;
基于所述面部表情参数将虚拟对象的初始表情渲染为表情动画,其中,所述虚拟对象为所述目标对象映射在虚拟世界中的对象;
将具有所述表情动画的虚拟对象表情动画,以所述面部姿态参数对应的面部姿态渲染到所述面部图像上,得到所述目标对象在虚拟世界中的虚拟形象;
通过调用第二接口输出所述虚拟形象,其中,所述第二接口包括第二参数,所述第二参数的参数值至少为所述虚拟形象。
18.一种动画生成方法,其特征在于,包括:
响应作用于操作界面上的输入指令,在所述操作界面上显示所述输入指令对应的输入信息,其中,所述输入信息用于表示需要生成位于真实世界中的目标对象在虚拟世界中的虚拟形象的面部动画的需求信息,且包括所述目标对象的原始图像,所述原始图像至少包括:覆盖在所述目标对象面部的面部图像;
响应作用于所述操作界面上的反馈指令,在所述操作界面上至少显示与所述输入信息具有问答关系的反馈结果,其中,所述反馈结果用于表示基于所述目标对象的面部姿态参数对所述目标对象的表情动画进行渲染而得到的所述面部动画,所述表情动画为基于所述目标对象的面部动态表情参数对虚拟对象的初始表情渲染得到,所述虚拟对象为所述目标对象映射在虚拟世界中的对象,所述面部动态表情参数和所述面部姿态参数为使用面部参数识别模型对所述原始图像中所述面部图像的参数进行联合识别而得到。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310509356.7A CN116630491A (zh) | 2023-05-04 | 2023-05-04 | 动画生成方法和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310509356.7A CN116630491A (zh) | 2023-05-04 | 2023-05-04 | 动画生成方法和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116630491A true CN116630491A (zh) | 2023-08-22 |
Family
ID=87620476
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310509356.7A Pending CN116630491A (zh) | 2023-05-04 | 2023-05-04 | 动画生成方法和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116630491A (zh) |
-
2023
- 2023-05-04 CN CN202310509356.7A patent/CN116630491A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102319177B1 (ko) | 이미지 내의 객체 자세를 결정하는 방법 및 장치, 장비, 및 저장 매체 | |
EP3786890B1 (en) | Method and apparatus for determining pose of image capture device, and storage medium therefor | |
US10460512B2 (en) | 3D skeletonization using truncated epipolar lines | |
CN109615703B (zh) | 增强现实的图像展示方法、装置及设备 | |
CN111710036B (zh) | 三维人脸模型的构建方法、装置、设备及存储介质 | |
CN113706699B (zh) | 数据处理方法、装置、电子设备及计算机可读存储介质 | |
US20130127827A1 (en) | Multiview Face Content Creation | |
KR100560464B1 (ko) | 관찰자의 시점에 적응적인 다시점 영상 디스플레이 시스템을 구성하는 방법 | |
JP2013120556A (ja) | 被写体姿勢推定装置および映像描画装置 | |
CN116188689A (zh) | 辐射场的处理方法、存储介质以及计算机终端 | |
CN116097316A (zh) | 用于非模态中心预测的对象识别神经网络 | |
Mulligan et al. | Stereo-based environment scanning for immersive telepresence | |
WO2019213392A1 (en) | System and method for generating combined embedded multi-view interactive digital media representations | |
CN117011417A (zh) | 图像处理方法、装置及计算机设备 | |
CN116630508A (zh) | 3d模型处理方法、装置及电子设备 | |
CN116977547A (zh) | 一种三维人脸重建方法、装置、电子设备和存储介质 | |
Narducci et al. | Enabling consistent hand-based interaction in mixed reality by occlusions handling | |
CN116630491A (zh) | 动画生成方法和存储介质 | |
CN116071551A (zh) | 图像处理方法、计算机可读存储介质及电子设备 | |
US20230290101A1 (en) | Data processing method and apparatus, electronic device, and computer-readable storage medium | |
CN116188698B (zh) | 对象的处理方法和电子设备 | |
Ji et al. | Mixed reality depth contour occlusion using binocular similarity matching and three-dimensional contour optimisation | |
CN116523737A (zh) | 虚拟对象的生成方法、三维姿态的处理方法及电子设备 | |
CN116630535A (zh) | 虚拟对象的生成方法、三维姿态的处理方法及电子设备 | |
WO2023185241A1 (zh) | 数据处理方法、装置、设备以及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |