CN116310146B - 人脸图像重演方法、系统、电子设备、存储介质 - Google Patents
人脸图像重演方法、系统、电子设备、存储介质 Download PDFInfo
- Publication number
- CN116310146B CN116310146B CN202310548103.0A CN202310548103A CN116310146B CN 116310146 B CN116310146 B CN 116310146B CN 202310548103 A CN202310548103 A CN 202310548103A CN 116310146 B CN116310146 B CN 116310146B
- Authority
- CN
- China
- Prior art keywords
- face
- dimensional
- image
- texture
- face image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 230000033001 locomotion Effects 0.000 claims abstract description 62
- 238000009877 rendering Methods 0.000 claims abstract description 32
- 230000001815 facial effect Effects 0.000 claims abstract description 14
- 230000001537 neural effect Effects 0.000 claims description 25
- 210000005036 nerve Anatomy 0.000 claims description 19
- 230000008447 perception Effects 0.000 claims description 17
- 238000013508 migration Methods 0.000 claims description 10
- 230000005012 migration Effects 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 8
- 230000000295 complement effect Effects 0.000 claims description 7
- 238000006073 displacement reaction Methods 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 abstract description 9
- 230000000694 effects Effects 0.000 abstract description 6
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000004927 fusion Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000004886 head movement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/04—Texture mapping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/20—Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/54—Extraction of image or video features relating to texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Evolutionary Computation (AREA)
- Computer Graphics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Human Computer Interaction (AREA)
- Architecture (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明提供一种人脸图像重演方法、系统、电子设备、存储介质,所述方法包括如下步骤:获取源人脸图像和驱动人脸图像;进行三维重建,获取所述源人脸图像对应的第一三维人脸表征和所述驱动人脸图像对应的第二三维人脸表征;将所述第一三维人脸表征中的表情系数和姿态系数替换为所述第二三维人脸表征中的表情系数和姿态系数,形成第三三维人脸表征;在所述第三三维人脸表征对应的第一三维人脸上附着人脸纹理,形成第二三维人脸;将所述第二三维人脸投影至二维空间,形成二维纹理图;渲染形成第一人脸面部图。本发明借助三维人脸重建技术实现大姿态运动下更加准确的人脸运动,同时获取大姿态运动条件下更好的人脸纹理生成效果。
Description
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种人脸图像重演方法、系统、电子设备、存储介质。
背景技术
人脸图像重演技术是指将一段视频(驱动视频)中一个人的表情和头部姿态迁移到一张静态的人脸图像上(源人脸),生成一段源人脸的视频,该视频拥有和驱动视频一样的表情和头部姿势变化。人脸重演属于计算机视觉领域,因为它有着广泛的应用场景,比如虚拟客服、虚拟主播、虚拟偶像等。为实现面部重演,现有的方法一般采用人脸的关键点或者光流来实现表情和头部姿态的迁移,然而如果驱动视频的人脸姿态范围变化很大,关键点和光流的估计会不准确,导致无法实现大姿态运动的人脸运动或者出现人脸变形;另外大姿态运动下,人脸纹理的生成也不准确。
现有的人脸重演技术方案分为两类:(a)基于运动场的方法;(b)基于人脸关键点的方法。
在基于运动场的方案中,人脸的表情和头部姿态的变化由运动场描述,该方法首先估计原人脸图片和驱动视频帧的虚拟关键点,然后根据两组关键点之间的变换关系估计出从原人脸到驱动视频帧的变换运动场,从而实现表情和姿态的迁移。
在基于人脸关键点的方法中,人脸的表情和头部姿态直接由人脸关键点表示,比如标准的68个人脸关键点,既描述了人脸的表情,又包含了头部的姿态。这类方法首先通过人脸关键点检测模型获取驱动视频帧中的人脸关键点;然后,将人脸关键点以相应的方式嵌入到人脸生成器,用于控制目标人脸的生成。
上述方法在驱动视频中的人脸姿态变化较大时,人脸会出现自遮挡,比如人脸侧向90度时,只有半边人脸能够被观测到,此时的人脸关键点和运动场估计不准确,从而导致表情姿态迁移失败或人脸的扭曲变形。
源人脸图片根据驱动视频变换到大姿态运动下时,需要生成新视角下的源人脸纹理。而现有方法没有相应的机制解决这一问题,生成的纹理可能出现伪影。
公开于该背景技术部分的信息仅仅旨在加深对本发明的总体背景技术的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。
发明内容
针对现有技术存在的问题,本发明提供一种人脸图像重演方法、系统、电子设备、存储介质。
本发明提供的一种人脸图像重演方法,所述方法包括如下步骤:
获取源人脸图像和驱动人脸图像;
基于所述源人脸图像和所述驱动人脸图像,进行三维重建,获取所述源人脸图像对应的第一三维人脸表征和所述驱动人脸图像对应的第二三维人脸表征,其中,所述三维人脸表征包括身份系数、表情系数和姿态系数;
基于所述第一三维人脸表征,将所述第一三维人脸表征中的表情系数和姿态系数替换为所述第二三维人脸表征中的表情系数和姿态系数,形成第三三维人脸表征;
在所述第三三维人脸表征对应的第一三维人脸上附着人脸纹理,形成第二三维人脸;
将所述第二三维人脸投影至二维空间,形成二维纹理图;
基于所述二维纹理图,渲染形成第一人脸面部图。
根据本发明提供的一种人脸图像重演方法,所述方法还包括如下步骤:
获取二维的脸部运动场;
将所述源人脸图像的背景图像和所述脸部运动场拼接后输入背景运动估计网络,所述背景运动估计网络输出背景运动场;
基于所述背景运动场,对所述源人脸图像的背景图像进行变形,形成驱动后背景图像;
基于所述驱动后背景图像和所述二维纹理图,渲染形成第二人脸面部图。
根据本发明提供的一种人脸图像重演方法,获取二维的脸部运动场,包括如下步骤:
获取所述第一三维人脸的顶点,作为第一组顶点;
获取所述第一三维人脸表征对应的第三三维人脸的顶点,作为第二组顶点;
基于所述第一组顶点和所述第二组顶点,获取三维空间的顶点位移;
将所述三维空间的顶点位移投影至二维空间,形成二维的脸部运动场。
根据本发明提供的一种人脸图像重演方法,基于所述驱动后背景图像和所述二维纹理图,渲染形成第二人脸面部图,包括如下步骤:
将所述驱动后背景图像和所述二维纹理图输入神经渲染网络,所述神经渲染网络输出所述第二人脸面部图;
其中,所述神经渲染网络将所述二维纹理图渲染形成真实图像,并同时将所述真实图像和所述驱动后背景图像融合,形成所述第二人脸面部图。
根据本发明提供的一种人脸图像重演方法,所在所述第三三维人脸表征对应的第一三维人脸上附着人脸纹理,包括如下步骤:
将所述源人脸图像输入神经纹理编码网络,所述神经纹理编码网络输出第一神经纹理,将所述第一神经纹理作为所述人脸纹理;
采用三维贴图方法将所述人脸纹理附着至所述第一三维人脸的表面。
根据本发明提供的一种人脸图像重演方法,将所述第一神经纹理作为所述人脸纹理,包括如下步骤:
将所述第一神经纹理输入纹理补全网络,所述纹理补全网络输出第二神经纹理,将所述第二神经纹理作为所述人脸纹理;
其中,所述纹理补全网络包括能够基于部分纹理补全整个纹理的神经网络。
根据本发明提供的一种人脸图像重演方法,将所述方法的所有步骤涉及的所有神经网络中部分或者全部网络作为一个整体模型,所述方法还包括:
对所述整体模型进行端到端训练;
进一步地,训练时获取同一视频中同一人脸在不同时间的具有不同状态的两帧图像,分别作为所述源人脸图像和所述驱动人脸图像以输入所述整体模型,所述整体模型输出驱动后图像;
其中,所述端到端训练的损失包括像素损失和感知损失;
所述像素损失包括所述驱动后图像和所述驱动人脸图像的像素值差值;
所述感知损失包括第一特征和第二特征的差值,所述第一特征是所述驱动后图像输入预训练的感知网络后所述感知网络输出得到的,所述第二特征是所述驱动人脸图像输入所述感知网络后所述感知网络输出得到的。
本发明还提供的一种人脸面部重演系统,所述系统包括:
获取模块,用于获取源人脸图像和驱动人脸图像;
三维重建模块,用于基于所述源人脸图像和所述驱动人脸图像,进行三维重建,获取所述源人脸图像对应的第一三维人脸表征和所述驱动人脸图像对应的第二三维人脸表征,其中,所述三维人脸表征包括身份系数、表情系数和姿态系数;
表情和姿态迁移模块,用于基于所述第一三维人脸表征,将所述第一三维人脸表征中的表情系数和姿态系数替换为所述第二三维人脸表征中的表情系数和姿态系数,形成第三三维人脸表征;
纹理模块,用于在所述第三三维人脸表征对应的第一三维人脸上附着人脸纹理,形成第二三维人脸;
投影模块,用于将所述第二三维人脸投影至二维空间,形成二维纹理图;
渲染模块,用于基于所述二维纹理图,渲染形成第一人脸面部图。
本发明还提供的一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一项所述人脸图像重演方法的步骤。
本发明还提供的一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述人脸图像重演方法的步骤。
本发明提供的人脸图像重演方法、系统、电子设备、存储介质,借助三维人脸重建技术实现大姿态运动下更加准确的人脸运动,同时获取大姿态运动条件下更好的人脸纹理生成效果。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种人脸图像重演方法的流程示意图;
图2为本发明提供的另一种人脸图像重演方法的流程示意图;
图3为本发明提供的一种人脸面部重演系统的结构示意图;
图4为本发明提供的一种电子设备的实体结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的人脸图像重演方法进行详细地说明。
图1为本发明提供的一种人脸图像重演方法的流程示意图,如图1所示,本发明提供的一种人脸图像重演方法,方法包括如下步骤。
优选地,本发明通过驱动视频获取多个驱动人脸图像,并通过人脸图像重演进行多次源人脸图像的驱动,从而形成具备源人脸图像的身份信息且同时具备驱动视频的姿态信息、表情信息的新视频。
优选地,本发明适用于大姿态运动的驱动视频。
S100、获取源人脸图像和驱动人脸图像。
S200、基于源人脸图像和驱动人脸图像,进行三维重建,获取源人脸图像对应的第一三维人脸表征和驱动人脸图像对应的第二三维人脸表征,其中,三维人脸表征包括身份系数、表情系数和姿态系数。
S300、基于第一三维人脸表征,将第一三维人脸表征中的表情系数和姿态系数替换为第二三维人脸表征中的表情系数和姿态系数,形成第三三维人脸表征。
进一步地,首先,将源人脸图像和驱动人脸图像进行三维人脸重建,三维人脸重建是一项比较成熟的技术,因此采用现有的重建方法实现这一步。通过三维重建分别得到源人脸图像和驱动人脸图像的三维人脸表征和/>。然后,通过替换/>中的表情系数和姿态系数,实现表情和姿态的变换,得到新的三维人脸表征/>。至此,完成了三维空间中的表情和姿态迁移。
需要说明的是,基于三维人脸重建技术,实现了三维辅助的表情和姿态迁移方法,得益于三维人脸对姿态变化的鲁棒性,本发明可以大大提升大姿态运动下的头部运动迁移效果。
S400、在第三三维人脸表征对应的第一三维人脸上附着人脸纹理,形成第二三维人脸。
S500、将第二三维人脸投影至二维空间,形成二维纹理图。
S600、基于二维纹理图,渲染形成第一人脸面部图。
本实施例借助三维人脸重建技术实现大姿态运动下更加准确的人脸运动,同时获取大姿态运动条件下更好的人脸纹理生成效果。
可选地,图2为本发明提供的另一种人脸图像重演方法的流程示意图,如图2所示,方法还包括如下步骤:
获取二维的脸部运动场;
将源人脸图像的背景图像和脸部运动场拼接后输入背景运动估计网络,背景运动估计网络输出背景运动场;
基于背景运动场,对源人脸图像的背景图像进行变形,形成驱动后背景图像;
基于驱动后背景图像和二维纹理图,渲染形成第二人脸面部图。
可选地,获取二维的脸部运动场,包括如下步骤:
获取第一三维人脸的顶点,作为第一组顶点;
获取第一三维人脸表征对应的第三三维人脸的顶点,作为第二组顶点;
基于第一组顶点和第二组顶点,获取三维空间的顶点位移;
将三维空间的顶点位移投影至二维空间,形成二维的脸部运动场。
需要说明的是,实际应用中人脸背景,包括头发、脖子、服饰等,也应随着脸部的运动做出相应的运动,虽然三维人脸技术只关注了脸部区域的运动,但是脸部的运动为背景提供了参考。本发明利用源人脸图像和驱动人脸图像的三维模型的顶点运动来引导背景运动估计,三维模型的顶点位置能够更加鲁棒并且准确地描述大姿态运动。
优选地,显性地计算三维空间中和/>之间的顶点位移,然后将三维的位移投影到二维平面上,得到二维上的脸部运动场。然后,将源人脸图像的背景和脸部运动场拼接后送入背景运动估计网络,该网络可以是任意的常用编解码结构的网络。该网络将输出背景的运动场,最后利用该背景运动场对背景图像进行变形,形成驱动后背景图像。
进一步地,在实现了三维空间中的表情姿态迁移以及背景的变换后,需要生成人脸区域的二维图像并和背景融合得到最终的结果。
可选地,基于驱动后背景图像和二维纹理图,渲染形成第二人脸面部图,包括如下步骤:
将驱动后背景图像和二维纹理图输入神经渲染网络,神经渲染网络输出第二人脸面部图;
其中,神经渲染网络将二维纹理图渲染形成真实图像,并同时将真实图像和驱动后背景图像融合,形成第二人脸面部图。
可选地,所在第三三维人脸表征对应的第一三维人脸上附着人脸纹理,包括如下步骤:
将源人脸图像输入神经纹理编码网络,神经纹理编码网络输出第一神经纹理,将第一神经纹理作为人脸纹理;
采用三维贴图方法将人脸纹理附着至第一三维人脸的表面。
可选地,将第一神经纹理作为人脸纹理,包括如下步骤:
将第一神经纹理输入纹理补全网络,纹理补全网络输出第二神经纹理,将第二神经纹理作为人脸纹理;
其中,纹理补全网络包括能够基于部分纹理补全整个纹理的神经网络。传统的三维渲染得到的纹理细节不足,违和感严重,本发明采用神经纹理编码网络、纹理补全网络、神经渲染网络能够提升纹理的丰富度。
具体地,神经纹理编码网络将源人脸图像映射为神经纹理,与像素纹理相比,神经纹理可以编码更多的细节。另外,单张图片得到的纹理图只能覆盖三维人脸表面的部分区域,比如,正脸图片只能得到正脸区域的纹理,有些侧面,比如耳朵,无法直接得到,因此,需要纹理补全网络将纹理进行补全,该纹理补全网络可以从大量的数据中学会从部分纹理补全整个纹理的能力。在得到了完整的神经纹理后,采用三维纹理贴图方法将神经纹理附着到三维人脸表面,并进行投影得到二维纹理图。最后神经渲染网络将二维纹理图转换为真实图像并同时完成和驱动后背景图像的融合。
优选地,利用神经纹理编码网络构建源人脸图像的UV神经纹理。在渲染过程中,首先借助三维人脸的纹理贴图和投影技术,从UV神经纹理中采样得到人脸纹理,再通过神经渲染网络实现人脸区域的图像生成和背景融合。
需要说明的是,本发明借助上述方法可以通过单视角的源人脸图片自动生成、补全各视角下的完整人脸纹理,当源人脸转到大角度(即大姿态运动)下时也能实现精准的纹理生成,避免伪影,从而提升大姿态运动下的人脸生成效果。
可选地,将方法的所有步骤涉及的所有神经网络中部分或者全部网络作为一个整体模型,方法还包括:
对整体模型进行端到端训练;
进一步地,训练时获取同一视频中同一人脸在不同时间的具有不同状态的两帧图像,分别作为源人脸图像和驱动人脸图像以输入整体模型,整体模型输出驱动后图像;
其中,端到端训练的损失包括像素损失和感知损失;
像素损失包括驱动后图像和驱动人脸图像的像素值差值;
感知损失包括第一特征和第二特征的差值,第一特征是驱动后图像输入预训练的感知网络后感知网络输出得到的,第二特征是驱动人脸图像输入感知网络后感知网络输出得到的。
需要说明的是,驱动后图像可以包括前述的第一人脸面部图、第二人脸面部图,采用同一视频中同一人脸在不同时间的具有不同状态的两帧图像,不需要专门标注,实现无监督学习。
优选地,整体模型的训练采用公开的说话视频数据集,对该数据集进行了裁剪和预提取三维人脸系数的操作。
优选地,首先随机地选取同一段视频的不同两帧作为输入的源人脸图像和驱动人脸图像,由于是来自同一段视频,整体模型此时的目的是将源人脸图像变为驱动人脸图像。为实现这一目的,采用像素损失和感知损失/>作为约束:
;
其中,为驱动后图像,/>为驱动人脸图像,/>表示预训练的感知网络,如VGG网络等。
采用训练后的整体模型作为最终模型进行人脸面部重演。预测阶段,源人脸图像和驱动视频具有不同的身份信息,按顺序将每个视频帧的驱动人脸图像得到相应驱动后图像,经后处理合并成最终的视频。
下面对本发明提供的人脸面部重演系统进行描述,下文描述的人脸面部重演系统与上文描述的人脸面部重演方法可相互对应参照。
图3为本发明提供的一种人脸面部重演系统的结构示意图,如图3所示,本发明还提供的一种人脸面部重演系统,系统包括:
获取模块,用于获取源人脸图像和驱动人脸图像;
三维重建模块,用于基于源人脸图像和驱动人脸图像,进行三维重建,获取源人脸图像对应的第一三维人脸表征和驱动人脸图像对应的第二三维人脸表征,其中,三维人脸表征包括身份系数、表情系数和姿态系数;
表情和姿态迁移模块,用于基于第一三维人脸表征,将第一三维人脸表征中的表情系数和姿态系数替换为第二三维人脸表征中的表情系数和姿态系数,形成第三三维人脸表征;
纹理模块,用于在第三三维人脸表征对应的第一三维人脸上附着人脸纹理,形成第二三维人脸;
投影模块,用于将第二三维人脸投影至二维空间,形成二维纹理图;
渲染模块,用于基于二维纹理图,渲染形成第一人脸面部图。
本实施例借助三维人脸重建技术实现大姿态运动下更加准确的人脸运动,同时获取大姿态运动条件下更好的人脸纹理生成效果。
图4为本发明提供的一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行人脸图像重演方法,所述方法包括如下步骤:
获取源人脸图像和驱动人脸图像;
基于所述源人脸图像和所述驱动人脸图像,进行三维重建,获取所述源人脸图像对应的第一三维人脸表征和所述驱动人脸图像对应的第二三维人脸表征,其中,所述三维人脸表征包括身份系数、表情系数和姿态系数;
基于所述第一三维人脸表征,将所述第一三维人脸表征中的表情系数和姿态系数替换为所述第二三维人脸表征中的表情系数和姿态系数,形成第三三维人脸表征;
在所述第三三维人脸表征对应的第一三维人脸上附着人脸纹理,形成第二三维人脸;
将所述第二三维人脸投影至二维空间,形成二维纹理图;
基于所述二维纹理图,渲染形成第一人脸面部图。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的人脸图像重演方法,所述方法包括如下步骤:
获取源人脸图像和驱动人脸图像;
基于所述源人脸图像和所述驱动人脸图像,进行三维重建,获取所述源人脸图像对应的第一三维人脸表征和所述驱动人脸图像对应的第二三维人脸表征,其中,所述三维人脸表征包括身份系数、表情系数和姿态系数;
基于所述第一三维人脸表征,将所述第一三维人脸表征中的表情系数和姿态系数替换为所述第二三维人脸表征中的表情系数和姿态系数,形成第三三维人脸表征;
在所述第三三维人脸表征对应的第一三维人脸上附着人脸纹理,形成第二三维人脸;
将所述第二三维人脸投影至二维空间,形成二维纹理图;
基于所述二维纹理图,渲染形成第一人脸面部图。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的人脸图像重演方法,所述方法包括如下步骤:
获取源人脸图像和驱动人脸图像;
基于所述源人脸图像和所述驱动人脸图像,进行三维重建,获取所述源人脸图像对应的第一三维人脸表征和所述驱动人脸图像对应的第二三维人脸表征,其中,所述三维人脸表征包括身份系数、表情系数和姿态系数;
基于所述第一三维人脸表征,将所述第一三维人脸表征中的表情系数和姿态系数替换为所述第二三维人脸表征中的表情系数和姿态系数,形成第三三维人脸表征;
在所述第三三维人脸表征对应的第一三维人脸上附着人脸纹理,形成第二三维人脸;
将所述第二三维人脸投影至二维空间,形成二维纹理图;
基于所述二维纹理图,渲染形成第一人脸面部图。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种人脸图像重演方法,其特征在于,所述方法包括如下步骤:
获取源人脸图像和驱动人脸图像;
基于所述源人脸图像和所述驱动人脸图像,进行三维重建,获取所述源人脸图像对应的第一三维人脸表征和所述驱动人脸图像对应的第二三维人脸表征,其中,三维人脸表征包括身份系数、表情系数和姿态系数;
基于所述第一三维人脸表征,将所述第一三维人脸表征中的表情系数和姿态系数替换为所述第二三维人脸表征中的表情系数和姿态系数,形成第三三维人脸表征;
在所述第三三维人脸表征对应的第一三维人脸上附着人脸纹理,形成第二三维人脸;
将所述第二三维人脸投影至二维空间,形成二维纹理图;
基于所述二维纹理图,渲染形成第一人脸面部图;
还包括如下步骤:
获取二维的脸部运动场;
将所述源人脸图像的背景图像和所述脸部运动场拼接后输入背景运动估计网络,所述背景运动估计网络输出背景运动场;其中,所述背景运动估计网络为具有编解码结构的网络;
基于所述背景运动场,对所述源人脸图像的背景图像进行变形,形成驱动后背景图像;
基于所述驱动后背景图像和所述二维纹理图,渲染形成第二人脸面部图;
获取二维的脸部运动场,包括如下步骤:
获取所述第一三维人脸的顶点,作为第一组顶点;
获取所述第一三维人脸表征对应的第三三维人脸的顶点,作为第二组顶点;
基于所述第一组顶点和所述第二组顶点,获取三维空间的顶点位移;
将所述三维空间的顶点位移投影至二维空间,形成二维的脸部运动场。
2.根据权利要求1所述的人脸图像重演方法,其特征在于,基于所述驱动后背景图像和所述二维纹理图,渲染形成第二人脸面部图,包括如下步骤:
将所述驱动后背景图像和所述二维纹理图输入神经渲染网络,所述神经渲染网络输出所述第二人脸面部图;
其中,所述神经渲染网络将所述二维纹理图渲染形成真实图像,并同时将所述真实图像和所述驱动后背景图像融合,形成所述第二人脸面部图。
3.根据权利要求1所述的人脸图像重演方法,其特征在于,所述在所述第三三维人脸表征对应的第一三维人脸上附着人脸纹理,包括如下步骤:
将所述源人脸图像输入神经纹理编码网络,所述神经纹理编码网络输出第一神经纹理,将所述第一神经纹理作为所述人脸纹理;
采用三维贴图方法将所述人脸纹理附着至所述第一三维人脸的表面。
4.根据权利要求3所述的人脸图像重演方法,其特征在于,将所述第一神经纹理作为所述人脸纹理,包括如下步骤:
将所述第一神经纹理输入纹理补全网络,所述纹理补全网络输出第二神经纹理,将所述第二神经纹理作为所述人脸纹理;
其中,所述纹理补全网络包括能够基于部分纹理补全整个纹理的神经网络。
5.根据权利要求1-4中任一所述的人脸图像重演方法,其特征在于,将所述方法的所有步骤涉及的所有神经网络中部分或者全部网络作为一个整体模型,所述方法还包括:
对所述整体模型进行端到端训练;
训练时获取同一视频中同一人脸在不同时间的具有不同状态的两帧图像,分别作为所述源人脸图像和所述驱动人脸图像以输入所述整体模型,所述整体模型输出驱动后图像,所述驱动后图像包括所述第一人脸面部图和所述第二人脸面部图;
其中,所述端到端训练的损失包括像素损失和感知损失;
所述像素损失包括所述驱动后图像和所述驱动人脸图像的像素值差值;
所述感知损失包括第一特征和第二特征的差值,所述第一特征是所述驱动后图像输入预训练的感知网络后所述感知网络输出得到的,所述第二特征是所述驱动人脸图像输入所述感知网络后所述感知网络输出得到的。
6.一种人脸面部重演系统,用于实现如权利要求1所述的人脸图像重演方法,其特征在于,所述系统包括:
获取模块,用于获取源人脸图像和驱动人脸图像;
三维重建模块,用于基于所述源人脸图像和所述驱动人脸图像,进行三维重建,获取所述源人脸图像对应的第一三维人脸表征和所述驱动人脸图像对应的第二三维人脸表征,其中,三维人脸表征包括身份系数、表情系数和姿态系数;
表情和姿态迁移模块,用于基于所述第一三维人脸表征,将所述第一三维人脸表征中的表情系数和姿态系数替换为所述第二三维人脸表征中的表情系数和姿态系数,形成第三三维人脸表征;
纹理模块,用于在所述第三三维人脸表征对应的第一三维人脸上附着人脸纹理,形成第二三维人脸;
投影模块,用于将所述第二三维人脸投影至二维空间,形成二维纹理图;
渲染模块,用于基于所述二维纹理图,渲染形成第一人脸面部图。
7.一种电子设备,包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-5中任一项所述人脸图像重演方法的步骤。
8.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述人脸图像重演方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310548103.0A CN116310146B (zh) | 2023-05-16 | 2023-05-16 | 人脸图像重演方法、系统、电子设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310548103.0A CN116310146B (zh) | 2023-05-16 | 2023-05-16 | 人脸图像重演方法、系统、电子设备、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116310146A CN116310146A (zh) | 2023-06-23 |
CN116310146B true CN116310146B (zh) | 2023-10-27 |
Family
ID=86790894
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310548103.0A Active CN116310146B (zh) | 2023-05-16 | 2023-05-16 | 人脸图像重演方法、系统、电子设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116310146B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110555796A (zh) * | 2019-07-24 | 2019-12-10 | 广州视源电子科技股份有限公司 | 图像调整方法、装置、存储介质以及设备 |
CN111985427A (zh) * | 2020-08-25 | 2020-11-24 | 深圳前海微众银行股份有限公司 | 活体检测方法、设备及可读存储介质 |
CN113221847A (zh) * | 2021-06-07 | 2021-08-06 | 广州虎牙科技有限公司 | 图像处理方法、装置、电子设备及计算机可读存储介质 |
CN113239857A (zh) * | 2021-05-27 | 2021-08-10 | 京东科技控股股份有限公司 | 视频合成方法及其装置 |
CN113313085A (zh) * | 2021-07-28 | 2021-08-27 | 北京奇艺世纪科技有限公司 | 一种图像处理方法、装置、电子设备及存储介质 |
CN113344777A (zh) * | 2021-08-02 | 2021-09-03 | 中国科学院自动化研究所 | 基于三维人脸分解的换脸与重演方法及装置 |
CN113762147A (zh) * | 2021-09-06 | 2021-12-07 | 网易(杭州)网络有限公司 | 人脸表情迁移方法、装置、电子设备及存储介质 |
CN113808005A (zh) * | 2021-08-04 | 2021-12-17 | 西安深信科创信息技术有限公司 | 一种基于视频驱动的人脸姿态迁移方法及装置 |
CN114627161A (zh) * | 2022-01-27 | 2022-06-14 | 清华大学 | 源图片到驱动图片的运动迁移的方法和系统 |
CN114926581A (zh) * | 2022-04-22 | 2022-08-19 | 中国科学院软件研究所 | 二维到三维人脸表情迁移方法、电子装置及存储介质 |
CN115089150A (zh) * | 2022-05-30 | 2022-09-23 | 合肥工业大学 | 一种基于无人机的脉搏波检测方法、装置、电子设备及存储介质 |
CN115578298A (zh) * | 2022-08-31 | 2023-01-06 | 广东工业大学 | 一种基于内容感知的深度肖像视频合成方法 |
CN116092164A (zh) * | 2023-02-01 | 2023-05-09 | 中国科学院自动化研究所 | 人脸图像重演方法、装置、电子设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113554737A (zh) * | 2020-12-04 | 2021-10-26 | 腾讯科技(深圳)有限公司 | 目标对象的动作驱动方法、装置、设备及存储介质 |
-
2023
- 2023-05-16 CN CN202310548103.0A patent/CN116310146B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110555796A (zh) * | 2019-07-24 | 2019-12-10 | 广州视源电子科技股份有限公司 | 图像调整方法、装置、存储介质以及设备 |
CN111985427A (zh) * | 2020-08-25 | 2020-11-24 | 深圳前海微众银行股份有限公司 | 活体检测方法、设备及可读存储介质 |
CN113239857A (zh) * | 2021-05-27 | 2021-08-10 | 京东科技控股股份有限公司 | 视频合成方法及其装置 |
CN113221847A (zh) * | 2021-06-07 | 2021-08-06 | 广州虎牙科技有限公司 | 图像处理方法、装置、电子设备及计算机可读存储介质 |
CN113313085A (zh) * | 2021-07-28 | 2021-08-27 | 北京奇艺世纪科技有限公司 | 一种图像处理方法、装置、电子设备及存储介质 |
CN113344777A (zh) * | 2021-08-02 | 2021-09-03 | 中国科学院自动化研究所 | 基于三维人脸分解的换脸与重演方法及装置 |
CN113808005A (zh) * | 2021-08-04 | 2021-12-17 | 西安深信科创信息技术有限公司 | 一种基于视频驱动的人脸姿态迁移方法及装置 |
CN113762147A (zh) * | 2021-09-06 | 2021-12-07 | 网易(杭州)网络有限公司 | 人脸表情迁移方法、装置、电子设备及存储介质 |
CN114627161A (zh) * | 2022-01-27 | 2022-06-14 | 清华大学 | 源图片到驱动图片的运动迁移的方法和系统 |
CN114926581A (zh) * | 2022-04-22 | 2022-08-19 | 中国科学院软件研究所 | 二维到三维人脸表情迁移方法、电子装置及存储介质 |
CN115089150A (zh) * | 2022-05-30 | 2022-09-23 | 合肥工业大学 | 一种基于无人机的脉搏波检测方法、装置、电子设备及存储介质 |
CN115578298A (zh) * | 2022-08-31 | 2023-01-06 | 广东工业大学 | 一种基于内容感知的深度肖像视频合成方法 |
CN116092164A (zh) * | 2023-02-01 | 2023-05-09 | 中国科学院自动化研究所 | 人脸图像重演方法、装置、电子设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
3DMM与GAN结合的实时人脸表情迁移方法;高翔 等;《计算机应用与软件》;第37卷(第04期);全文 * |
Guangming Yao et al..Mesh Guided One-shot Face Reenactment Using Graph Convolutional Networks.《MM '20: Proceedings of the 28th ACM International Conference on Multimedia》.2020,全文. * |
ReenactArtFace: Artistic Face Image Reenactment;Linzi Qu et al.;《IEEE Transactions on Visualization and Computer Graphics (Early Access)》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116310146A (zh) | 2023-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wong et al. | Bilateral cyclic constraint and adaptive regularization for unsupervised monocular depth prediction | |
US11017586B2 (en) | 3D motion effect from a 2D image | |
Chen et al. | Puppeteergan: Arbitrary portrait animation with semantic-aware appearance transformation | |
CN111542861A (zh) | 利用深度外观模型渲染化身的系统和方法 | |
Kim et al. | Recurrent temporal aggregation framework for deep video inpainting | |
US11222466B1 (en) | Three-dimensional geometry-based models for changing facial identities in video frames and images | |
JP2023548921A (ja) | 画像の視線補正方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム | |
JP2023516678A (ja) | マルチビュー画像からのエンドツーエンド場面再構築のためのシステムおよび方法 | |
JP2023545190A (ja) | 画像の視線補正方法、装置、電子機器、及びコンピュータプログラム | |
CN112733795A (zh) | 人脸图像的视线矫正方法、装置、设备及存储介质 | |
US20220222895A1 (en) | Method for human body model reconstruction and reconstruction system | |
CN112734890A (zh) | 基于三维重建的人脸替换方法及装置 | |
Bao et al. | High-quality face capture using anatomical muscles | |
CN115170559A (zh) | 基于多层级哈希编码的个性化人头神经辐射场基底表示与重建方法 | |
CN115393480A (zh) | 基于动态神经纹理的说话人合成方法、装置和存储介质 | |
Ye et al. | Real3d-portrait: One-shot realistic 3d talking portrait synthesis | |
CN111563944B (zh) | 三维人脸表情迁移方法及系统 | |
US20240013464A1 (en) | Multimodal disentanglement for generating virtual human avatars | |
EP3939248B1 (en) | Re-timing objects in video via layered neural rendering | |
CN115914505B (zh) | 基于语音驱动数字人模型的视频生成方法及系统 | |
US11734889B2 (en) | Method of gaze estimation with 3D face reconstructing | |
CN116863044A (zh) | 人脸模型的生成方法、装置、电子设备及可读存储介质 | |
CN116310146B (zh) | 人脸图像重演方法、系统、电子设备、存储介质 | |
CN115578298A (zh) | 一种基于内容感知的深度肖像视频合成方法 | |
Vo et al. | Saliency prediction for 360-degree video |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |